Разработчики Dropbox исправили баг, из-за которого в аккаунтах пользователей стали восстанавливаться файлы, удалённые много лет назад. Теперь пользователям разрешили вторично удалить «восставшие из мёртвых» файлы. Компания обещает, что больше они никогда не появятся.

Некоторые специалисты по безопасности давно подозревали, что при удалении файлов на Dropbox они не удаляются, а хранятся на хостинге — как это происходит с якобы «удалённой» информацией на Facebook. Мол, при «удалении» файл только помечается как удалённый (ему ставится соответствующий флаг). Он исчезает из аккаунта, но продолжает храниться на сервере на всякий случай.

Dropbox уверяет, что это не так.

Согласно политике Dropbox, компания безвозвратно удаляет файлы через 60 дней после того, как пользователь нажал кнопку «Удалить». Те чудеса, которые происходят в последнее время, — якобы просто «баг».

В последние пару недель некоторые пользователи стали сообщать, что в их аккаунтах начали появляться прежде удалённые файлы и папки. У людей это вызвало недоумение. Файлы обычно были очень старыми, они как будто возникли из ниоткуда.

В форумах технической поддержки открылось несколько дискуссий. Их позже объединили в один тред. В некоторых случаях в аккаунтах появились папки, удалённые аж в 2009 году, в других случаях — более свежие.

«У меня та же проблема — несколько разных папок со старыми файлами 2009-2011 годов, удалённые несколько лет назад, неожиданно появились за один день, — пишет один из пострадавших. — И я определённо не подключался к старому компьютеру». Пользователь объясняет, что файлы не могли синхронизироваться со старого ПК, где остались копии.

«Я удалил эти файлы более шести лет назад, — пишет другой. — Устройства, где они хранились, уже давно выбросили».

Ещё один пользователь говорит, что увидев новые папки с файлами в аккаунте, поменял пароль к аккаунту и прервал все подключения с сервером — он думал, что его аккаунт взломан.

После многочисленных жалоб пользователей 19 января 2017 года представители Dropbox всё-таки признали наличие проблемы и объявили о выпуске патча. Компания пояснила, что причина в баге, который не позволял некоторым файлам и папкам полностью удалиться с серверов, даже когда пользователи удалили их из аккаунтов Dropbox: «Исправляя этот баг, мы случайно восстановили эти файлы и папки в аккаунтах пользователей. Это была наша ошибка; причиной не является вмешательство третьей стороны, и вас не взломали», — написал один из разработчиков.

То есть компания действительно хранила формально «удалённые» файлы на своих серверах много лет — видимо, не замечала несколько терабайт лишних данных.

Правда, это относится не ко всем файлам. У удалённых и затем восстановленных файлов и папок в данном случае была «несогласованность метаданных». По объяснению Dropbox, из-за несогласованности метаданных эти конкретные файлы и папки поместили в карантин, исключив из процедуры удаления файлов, пока метаданные не будут исправлены.

«На протяжении этого времени никто не имел доступа к вашим файлам или папкам и никакие другие файлы не подвержены багу», — уверяет Dropbox. Баг исправлен, а «заново рождённые» файлы и папки никак не повлияют на дисковую квоту пользователей.

Фиктивное удаление информации — нормальное поведение некоторых «облачных» компаний и социальных сетей. Например, Facebook тоже не удаляет личные сообщения, фотографии и другую информацию, которая попала на сервер, если потом пользователь решил убрать её из своего аккаунта (как он считает, «удалить»).

Ваша информация в облаке — это не ваша информация


Персональная информация о пользователе — ценный актив, которым владеет компания, так что удалять её бесплатно никто не хочет. Помните историю студента юридического факультета Макса Шремса? Он потребовал от Facebook прислать CD-диск со всеми персональными данными, собранными на него за три года активности на сайте.

Парень получил диск с документом PDF более чем на 1200 страниц, вся информация в файле была разбита на 57 категорий (работа, образование, друзья, политические взгляды, хобби, фотографии и т.д.). Как говорил он, даже у КГБ не было такого полного досье на граждан.

Но самое удивительное, что среди всего прочего в присланном файле были удалённые сообщения, чат-сессии, имена бывших друзей и другие данные с пометкой deleted:true.

Вряд ли можно подозревать компанию Dropbox в лукавости. Ей действительно трудно хранить абсолютно всю удалённую информацию в течение многих лет. Здесь речь идёт о больших объёмах данных. Известно, что файлохостинги идут на всяческие ухищрения, чтобы хотя бы немного оптимизировать дисковое пространство и избавиться от лишней информации. Это для них прямой финансовый ущерб.

Но «удаляя» файл с облачного хостинга, никогда нельзя быть уверенным на 100%, что он действительно удалён. Интересно, у какого количества компаний ещё есть такие «баги».
Поделиться с друзьями
-->

Комментарии (60)


  1. DrPass
    26.01.2017 18:38
    -1

    В последние пару недель некоторые пользователи стали сообщать, что в их аккаунтах начали появляться прежде удалённые файлы и папки.

    Намного неприятнее было бы, если произошло бы наоборот — с исчезновением живых и нужных файлов.


  1. vconst
    26.01.2017 18:38
    +1

    Когда у компании хранится по настоящему много данных, их дешевле пометить удаленными, но не удалять физически. Потому что винчестеры стоят все меньше, емкость их все больше, а фрагментация, которая возникает при физическом удалении файла, потеря скорости при доступе к фрагментированным данным и время работы дефрагментирующей программы — все это может перевесить стоимость хранения.

    Да и любому, знакомому с самыми основами БД известно, что операция удаления записи — это пометка ее как удаленной. Очистка БД от удаленных записей — это совсем другая команда и, в случаи большого размера базы — очень затратная по процессорному времени.

    Что такое — один CD содержащий всю-всю-всю информацию о студенте из статьи? Это примерно одна десятитысячная от объема современного винчестера — два-три русских рубля. Дешевле оставить их на харде, чем тратить время на удаление и дефрагментацию.


    1. ivan386
      26.01.2017 18:47

      Ещё и ради дедупликации на серверах может хранится одна копия файла вечно. Для кого то этот файл удалён а кто то его только загрузил.


    1. dom1n1k
      26.01.2017 18:50
      +2

      В случае соцсетей это действительно сложно. Хомячок загрузил фоточку, а её полайкали, написали комментарии, репостнули, отослали другу в приватных сообщениях и ещё 100500 действий. В итоге получается очень-очень сложный клубок зависимостей, где удалением и правда легко что-то поломать.
      Но дропбокс — это просто хранилище и всё. Файлы просто лежат по папкам. Удалить их не составляет никакой принципиальной проблемы. Чисто технические нюансы — есть, но все они решаемы.


      1. vconst
        26.01.2017 18:54

        Видимо это тоже тот случай, когда дешевле было хранить, чем удалять. Ведь надо не просто удалить файл, надо делать это автоматически, гарантированно не прибив ничего лишнего, гарантированно дефрагментировать все хранилище. Программы мало написать, надо их всесторонне тестировать, выловить все баги и тд тп тд тп. Часто — дешевле и надежнее ничего не трогать.


        1. pda0
          26.01.2017 19:05
          +2

          Простите за интерес, у dropbox fat используется? Какие современные файловые системы надо дефрагментировать? Или у нас уже интернеты стали такими быстрыми, что жёсткие диски головки не успевают двигать? Что такого сложного в файлообменнике, что в файловых менеджерах эту задачу решают, в ftp серверах задачу решают, в файловых системах задачу решают, а в их продукте, который в этой части не сложнее файлового менеджера вдруг стало непосильной задачей.


          1. xforce
            26.01.2017 20:24

            Любые современные фс, в которых есть возможность удалять данные, подвержены фрагментации. Просто по определению и логике работы. Нужна вам при этом дефрагментация или плевать на снижение скорости от нее — это уже дело ваше. Они пытаются только чуть более оптимально файлы размещать, чтобы дичайшая фрагментация начиналась позже, а не прямо сразу.
            Если не согласны — сразу пример: для простоты, диск на 1гб, забит файлами на 100% по 100 мб. Удалили 3 таких файла идущих на диске не подряд и записали один на 300 мб. Как это фс сможет сделать не фрагментировав его, по вашему?


            1. pda0
              26.01.2017 22:54

              Я там ниже ответил и даже кое-какие замеры скорости провёл. По этому вместо не нужного ликбеза на тему файловых систем предлагаю привести результаты каких-нибудь тестов, показывающих насколько всё печально.


        1. Barsuk
          26.01.2017 19:10
          +3

          Ну тогда и кнопка в интерфейсе должна быть не «удалить», а «удалить понарошку».


          1. vconst
            26.01.2017 20:39

            Те, кто занимаются программированием СУБД, в курсе, остальным это не важно, для пользователей БД это прозрачно и не влияет на их работу с БД.


        1. vladorange
          26.01.2017 22:33
          +2

          Мне кажется, тут вопрос и проблема не в том, что проще — удалять или хранить.
          Тема в том, что сервис декларирует одно («файлы старше 60 дней удаляем, чесслово»), но фактически это оказывается не так.
          И если им фат мешает или что-то еще, и это им известно, то неплохо было бы изменить обещание про 60 дней.


          1. pda0
            26.01.2017 23:02

            Именно. Мы тут недовольны пакетом Яровой, а там загруженные файлы не год, а вечность хранить собираются. К таким вещам надо относиться, как к брешам в безопасности, вроде утечки аккаунтов.

            Файлы надо удалять. Процесс резервного копирования организовать так, чтобы удалённые файлы удалялись и из бекапов.


            1. rPman
              27.01.2017 12:23

              В общем случае из бакапов удалить файлы окажется сложнее чем организовать 'правильное' хранение. Тем более, бакапы могут быть вообще на readonly носителях, и стоимость удаления данных из них — это реорганизация, т.е. повторное копирование данных на новый носитель уже без удаленных, в общем дороговато.


              1. pda0
                27.01.2017 13:15

                Вот извините, это не проблема пользователей. Как если бы в парикмахерской вас побрили бы под ноль, сказав, что купили только машинки, потому что дешевле и проще. Пусть разрабатывают схемы под задачи, как бы.


                1. rPman
                  27.01.2017 14:18

                  Я то в принципе с вами согласен и не спорю.
                  Но бизнес есть бизнес.
                  В любом случае, я полагаю в реальности, файлы не удаляются совсем не по техническим причинам!


                1. vconst
                  27.01.2017 14:21

                  Разрабатывают схемы под то, на что хватит денег и быстрее окупится.


                  1. pda0
                    27.01.2017 14:38

                    Пользователей это как касается? Если бы честность была критерием успешности бизнеса, то живо бы средства нашлись. А пока пользователей держат за лохов, а те и рады. Даже сами отстаивают позицию сервиса.


                    1. Barafu
                      28.01.2017 17:00

                      Обычные пользователи держат в Дропбоксах фото своего кота и не хотят ради надежного удаления двукратного увеличения цены сервиса. Но у меня есть хорошая идея, как порадовать пользователей таких, как вы. В настройках пользователя поставить галочку «Я против имитации удаления моих файлов». При ее включении кнопка «Удалить файл» исчезает. Нет удаления — нет имитации.


                      1. pda0
                        28.01.2017 23:11

                        Отличный комментарий, чего уж тут. Дескать, вы, параноики, не мешайте нам, нормальным людям, выкладывать всю свою подноготную всем кому попало.

                        Правда, моя паранойя подсказывает мне, что если бы dropbox вёл себя честно и без о всяких галочек писал бы на кнопке не «удалить», а «сделать вид, что удалил», любители котиков бы иначе бы относились к сервису.


                        1. DrPass
                          29.01.2017 00:47

                          Здравый смысл подсказывает, что если у вас паранойя, то вашим файлам вообще нечего делать ни на Dropbox, ни на Яндекс.Диске, ни на Google Drive. Вы говорите про публичные и в общем-то бесплатные файлохранилища, и удивляетесь, что они не слишком озабочены вашей приватностью. Ну да, не сильно. Эта штука предназначена для того, чтобы вы там могли что-то хранить для доступа с разных устройств, ну и имеет базовые функции безопасности, чтобы ей вообще был смысл пользоваться, только и всего.


                          1. pda0
                            29.01.2017 01:15
                            +1

                            Правильно подсказывает. Их там нет. :) Однако, кроме личной безопасности существует и коллективная. Если вокруг все болеют в опасности даже самый здоровый человек. Помню была новость, что один немецкий судья счёл подозрительным, что у подсудимых не было аккаунтов в соцсетях. Может и фейк, но настораживающий. А ну как завтра антисоциальными объявят тех, кто отказывается выкладывать всё, что у них есть в облако?


                            1. DrPass
                              29.01.2017 03:04

                              Да, это повод задуматься. Но с другой стороны, вдруг завтра будет облава на тех, кто ест мясо? А вы ещё не успели стать веганом? Или того хуже, гражданство будут давать только вейперам. А обычных курильщиков объявят вне закона. Что тогда делать, куда бежать?
                              От всех «а вдруг будет» вы не застрахуетесь. Поэтому маловероятные варианты лучше не рассматривать.


                              1. pda0
                                29.01.2017 18:18

                                Вы не в ту сторону путаете. Я не боюсь, что завтра человек без dropbox станет преступником. А недоволен именно последовательным навязыванием. Сначала нельзя удалить, потом нельзя не делиться, потом…

                                А вот ваши мотивы не понятны. Вы работаете на dropbox? Или вам как-то выгодно, что люди теряют контроль за личной информацией и жизнью? Или вам просто всё равно, но настолько что вы не ленитесь защищать здесь бизнес чужих для вас дядь? ;-)


                                1. DrPass
                                  30.01.2017 11:18
                                  +1

                                  А недоволен именно последовательным навязыванием.

                                  А где вы увидели «последовательное навязывание»? Есть какая-то контора, которая раздаёт свои услуги бесплатно, эта контора даже рекламку в ваш телевизор не показывала. Если вам нужна такая услуга, вы гуглите на эту тему, и сами к ней приходите, или к её конкурентам. Но вам, блин, не нравится, что она вам ещё и красную дорожку на ступеньки не постелила.
                                  А вот ваши мотивы не понятны.

                                  Мои мотивы такие же, как и у 99% участников всех дискуссий в Интернете. У меня свободное время, зашел на форум почитать, и вижу, что тут кто-то неправ. Я же не могу оставить это просто так.

                                  Или вам как-то выгодно, что люди теряют контроль за личной информацией и жизнью?

                                  Я в упор не понимаю, как можно назвать «потерей контроля за личной информацией» её добровольную передачу? Вы можете легко сохранить свою информацию у себя, просто не пользуясь этими (и другими такими же несекьюрными) онлайн-сервисами.
                                  Но нет, лучше занять позицию толстой барышни — вроде и жирок уже свисает отовсюду, и делов-то всего-ничего, прекратить конхфетки по ночам жрать, и начать хотя бы час в день пешком ходить. Но и конфеты вкусные, и ходить лень. И остаётся только жаловаться, что всё плохо.


                                  1. pda0
                                    30.01.2017 13:11

                                    и вижу, что тут кто-то неправ

                                    Не прав в том, что минимально заботится о своей безопасности? Ясно понятно. :)

                                    Я в упор не понимаю, как можно назвать «потерей контроля за личной информацией» её добровольную передачу?

                                    Потому что у них там есть договор присоединения, регламентирующий использование сервиса, в котором они объявляют условия работы. В частности, что информация остаётся принадлежащей её владельцу. А тут вдруг оказывается, что нет, владелец не может её удалить. Ну как вы сунули сумку в бесплатную камеру хранения в магазине, а там её тихо просканировали, потому что магазину интересно что ещё вы покупаете.
                                    Вторжение в частную жизнь? Приличия? Законность? Не, не слышали. Каким лохам это нужно? Даёшь право сильного!


                                    1. DrPass
                                      30.01.2017 18:19

                                      Не прав в том, что минимально заботится о своей безопасности?

                                      Неправ в том, что возмущается по поводу действий тех, кто ему ничем не обязан.
                                      Потому что у них там есть договор присоединения, регламентирующий использование сервиса, в котором они объявляют условия работы. В частности, что информация остаётся принадлежащей её владельцу. А тут вдруг оказывается, что нет, владелец не может её удалить.

                                      Я ради интереса даже перечитал соглашение Дропбокса. Ещё они в том же соглашении пишут, что пользователь делегирует им право хранить и обрабатывать его информацию.
                                      Вторжение в частную жизнь?

                                      Не перегибайте. Ваша частная жизнь заканчивается за порогом вашего дома и за NAT'ом вашего домашнего роутера. Всё остальное — это общественная жизнь, которая идёт не по вашим правилам. Устраивают чужие правила, присоединяйтесь. Не устраивают, сидите дома. Не устраивают, но и дома сидеть не хочется, по этому поводу есть грубая поговорка про «съесть рыбку». Впрочем, ныть-то по поводу несовершенства общества тоже не запрещено. Но результата вам оно не принесёт. Тем более что даже магазин со своими бесплатными камерами хранения не несёт никакой ответственности за ваши сумки, а ваши покупки в магазине в любом случае попадут к маркетологам, которые потом под вас сформируют и расположение прилавков, и ассортимент, и музычку подберут — лишь бы вы побольше денег оставили в супермаркете.


                                      1. pda0
                                        30.01.2017 18:57

                                        кто ему ничем не обязан.

                                        Смешно. Именно потому что они никому ничего не обязаны у них половина договора состоит из отказа от ответственности. :) Оферта это договор, законы никто не отменял. Надеюсь вы не являетесь владельцем какого-нибудь сервиса… :)

                                        Я ради интереса даже перечитал соглашение Дропбокса.

                                        Надо было читать полнее. :) "We need your permission to do things like hosting Your Stuff, backing it up and sharing it when you ask us to." А когда не ask и разрешение отозвано (ну, знаете, кнопка «delete»)…

                                        Ваша частная жизнь заканчивается за порогом вашего дома и за NAT'ом вашего домашнего роутера.

                                        Потрясающая наивность. К счастью, у меня нет желания заниматься вашим просвещением.

                                        Тем более что даже магазин со своими бесплатными камерами хранения не несёт никакой ответственности за ваши сумки

                                        И напоследок. Потому что больше я отвечать не буду. Будете заниматься бизнесом — консультируйтесь с юристами. С таким подходом вы даже в России рано или поздно сядете.


                                        1. DrPass
                                          30.01.2017 19:19

                                          Смешно. Именно потому что они никому ничего не обязаны у них половина договора состоит из отказа от ответственности.

                                          Именно потому, что половина договора состоит из отказа от ответственности, они никому ничем не обязаны. Как и Google. Как и разработчик вашей ОС, не суть важно, сообщество Linux или Apple, или Microsoft. И ни вас, ни кого-либо ещё из пользователей, никто не заставляет ни регистрироваться в ДропБоксе, ни принимать их соглашение. Пользователи сами, добровольно, идут на эти условия, потому что функции сервиса им нужнее, чем то непотребство, которое сервис может друг сделать с их дражайшими файлами.
                                          Надо было читать полнее. :) «We need your permission to do things like hosting Your Stuff, backing it up and sharing it when you ask us to.»

                                          А вам надо бы не только читать, но и головой думать. Этот самый permission — это и есть факт регистрации в Dropbox с установленной галочкой «Я согласен».
                                          Потрясающая наивность. К счастью, у меня нет желания заниматься вашим просвещением.

                                          Да, я тоже рад этому :) Как же вы с вашим «я требую приватности» вообще ухитряетесь выживать на этой планете?
                                          И напоследок. Потому что больше я отвечать не буду. Будете заниматься бизнесом — консультируйтесь с юристами.

                                          Спасибо. Не за совет (т.к. ваш последний ответ уже напоминает кидание какашками у школьника: «ваше образование», «консультируйтесь с юристами» и прочие штампы). А за то, что отвечать не будете. А то ей-богу, неприятно стало вас читать.


    1. pda0
      26.01.2017 18:59
      +3

      Честно говоря сомнительные объяснения (хоть и популярные). Вот прямо баз данных с auto vacuum нет на свете. И постоянный рост базы и поиск в ней это совершенно бесплатная операция, что ради неё проще забить на удаление мусора. И с дисками то же самое. Пишут там пишут всякие zfs, а потом приходят облачники и говорят, что им проще не удалять.


      1. vconst
        26.01.2017 20:37

        Файловая система вторична. Если на жестком диске удалили файл, на нем остается место, помеченное фс как пустое, в него будет записана часть другого файла, потому что файлы совершенно одинакового размера — встречаются не часто. И головка будет метаться по всем дорожкам — собирая файл в одно целое. Это потери во времени и большая вероятность ошибок, чем при последовательном чтении.

        Дефрагментацию проводят тогда, когда затраты на хранение превышают затраты на дефрагментацию и цену вероятности потери данных.


        1. pda0
          26.01.2017 22:46
          +3

          Я прекрасно знаю, как устроены файловые системы. Чего я не понимаю, так это того, понимаете ли вы в каком году живёте? Кончается второе десятилетие XXI века. Ну, знаете, гигабайты памяти, которые операционная система тратит под кэш, очереди ввода-вывода, в которых операционная система собирает запросы к накопителям и упорядочивает их. Те же очереди в контроллере, которые давно есть в каждом sata, не говоря уже про sas. И нам очень жаль бедную головку, для которой «метаться по всем дорожкам» в общем нормальное состояние. А если возникнет сбой, то будет произведено повторное чтение. А если диск откажет, то это штатная ситуация в файлохранилищах. Ведь там всё многократно продублировано рейдами и кластеризацией.

          Но в сторону сопли. На хабре есть статья "Dropbox: взгляд изнутри". И там указана средняя скорость чтения с dropbox. И там намеряли среднюю скорость чтения с dropbox порядка 785 Mbps. Статье правда уже несколько лет, но это как раз неплохо. Потому что у меня в компьютере есть WD Green, купленный примерно в 2010. Я нещадно писал и стирал с него, иногда забивая полностью. Посмотрим же, как там себя файлы чувствуют. Я нашёл 5Gb файл, filefrag показал, что он состоит из 79 экстентов. А dd в /dev/null намерял скорость чтения 740MBps. Т.е. мои тормозные диски почти догнали dropbox. На фрагментированной ext4, пережившей туеву хучу обновлений Fedora.

          Вас разводят выглядящей разумно сказочкой, которая на практике имела смысл для дискет. Для 20 мегабайтных жёстких дисков времён Windows 3.11. Но которая почти утратила смысл уже в концу 90-х и эре Windows 9x.

          P.S. А zfs я привёл в пример сложной файловой системы, которая хранит много файлов, быстро отдаёт их и может удалять. И ничего, справились. Впрочем есть системы не хуже, особенно для системы вроде dropbox, где целостность и raid не задача файловой системы. Что же касается дефрагментации, — а нужна ли она ей?


          1. Taciturn
            27.01.2017 00:57

            Попробуйте повторить тест увеличив число фрагментов до 79 тысяч.


            1. pda0
              27.01.2017 13:28

              Попробуйте сами что-нибудь замерить прежде чем пытаться задавить оппонента цифрами с потолка. Например, подсказали бы мне как разбить файл на 79 тысяч фрагментов, если при размере блока ext4 по умолчанию пятигигабайтный файл в принципе занимает лишь 2560 блоков на диске? Заодно попробуйте представить себе какой-нибудь не синтетический сценарий, при котором файлы оказались бы настолько фрагментированными. Потом вспомните, что в 2017 году продолжается переход на использование в датацентрах ssd, для которых все задержки окончательно становятся несоизмеримо меньше скорости передачи по сети. Ну и так далее.
              В общем, давайте тестировать вместе. :)


              1. Mad__Max
                01.02.2017 07:45

                Опять что за ерунду гонишь? 2560 блоков на 5 Гб максимум? По 2 Мб блок по умолчанию? Блок ext4 по умолчанию 4 кибибайта (а допустимый максимум обычно 64 КБ), так же как и в NTFS.
                И на 5 Гб файл их приходится больше миллиона штук. Если как следует их перемешать, то этот миллион блоков без проблем может оказаться раскиданным на 79 тыс. отдельных кусков в разных местах диска. Это и есть сильная фрагментация. А 79 шт на 5 Гб — это можно считать отсутствие фрагментации, соответствующие утилиты покажут уровень фрагментации 0% если это типичный уровень для конкретного диска.


          1. vconst
            27.01.2017 11:29

            Главная ошибка в том, что сравнивается высоконагруженный сервис, превышающий масштабы вашего домашнего компа — на многие порядки.


            1. pda0
              27.01.2017 13:36

              А ваша главная ошибка в том, что вы предполагаете какую-то магию. Высокая нагрузка в dropbox приходится не на один несчастный жёсткий диск, а на весь датацентр, который вроде даже не один. Так что если вы не хотите сказать, что пользователи dropbox каждый день полностью перезаписывают его, то я не могу представить себе катастрофы фрагментации. Большая часть файлов как была загружена — так и лежит. А часто перезаписываемое вряд ли дробиться больше чем на несколько десятков фрагментов, что как было показано катастрофы не создаёт.


              1. vconst
                27.01.2017 14:06

                Какая еще магия? Вы пытаетесь экстраполировать свою домашнюю торрентокачалку на ЦОД и высоконагруженный сервис. Это как бомбила на шахе рассуждал бы о тонкостях логистики Ашана или с/х корпорации с позиции: «А что? Я же перевожу мешок картошки, значит надо всего-то миллион шестерок, дешево и удобно».


                1. pda0
                  27.01.2017 14:18

                  Но ЦОД это и есть «миллион шестерок». Там нет одного очень большого компьютера, нет одного очень емкого жёсткого диска.

                  Но вернёмся к теме лекции. Проблемы с фрагментацией файлов на диске касаются ЦОД в целом или это проблема отдельного накопителя, что с него данные медленнее считываются? Если нет, то что отличается? Если да, то давайте тестировать. У нас сейчас есть конкретный вопрос: На сколько фрагментированность файла влияет на скорость его чтения. Значит надо предположить условия, близкие к реальным и произвести замеры. Потому что сейчас ваши слова — «грех», аналогичный кнутовскому греху преждевременной оптимизации. Вы ещё не произвели ни одного замера производительности, но уже делаете выводы о скорости работы.


                  1. vconst
                    27.01.2017 14:20

                    Но ЦОД это и есть «миллион шестерок». Там нет одного очень большого компьютера, нет одного очень емкого жёсткого диска.
                    Продолжать бесполезно. Вы или совершенно ничего не знаете об отличиях сервера от десктопа, или неуклюже притворяетесь.


                    1. pda0
                      27.01.2017 14:30
                      -1

                      Нет уж, я настаиваю. Просветите. Не забывая указать какое отношение имеет то или иное отличие к проблеме фрагментации файлов.


          1. Alexeyslav
            30.01.2017 18:07
            +1

            Эксперимент не чистый. Во время эксперимента никто не дёргает ваш диск и эти 79 фрагментов дают лишь небольшую прибавку к времени чтения и не влияют на среднюю скорость.

            А теперь отмасштабируйте эксперимент — одновременно с разных потоков обращайтесь к 2 таким файлам, 10, 1000 и т.д. ваша домашняя система заткнётся уже на первом десятке потоков сделав среднюю скорость по каждому потоку в 1Мб/с и меньше а дополнительные переключения между кусками файлов снизят производительность в геометрической прогрессии.
            п.с. 79 тыс фрагментов возможны, если файл хранится в MFT но там немного другие алгоритмы и сходу сказать как это повлияет на производительность нельзя т.к. фрагменты будут скорей всего закешированы заранее.
            Где-то уже было исследования гугла на эту тему, и о пользе нефрагментированных read-only ФС.
            Суть одна — при малом количестве параллельных потоков разница незначительна, а при превышении какого-то порога средняя скорость чтения фрагментированных данных падает катастрофически вплоть до 10К/с даже на рейде из быстрых накопителей.


          1. Mad__Max
            01.02.2017 07:38

            Это что за бред тут прочитал? Там измеряли не скорость средняя скорость чтения с dropbox, а выборочный образец трафика на выборке создаваемой всего несколькими тысячами пользователей образца 2012 года. (за все время мониторинга больше месяца к сервису через отслеживаемые каналы хотя бы один раз подключилось всего 11 тыс. устройств, устройств у многих пользователей большее одного)

            А пользователей у дропбокса сейчас несколько сотен миллионов. И это уже пользователи образца 2016 года с выросшими объемами файлов и активностью использования облачного хранения. И в результате суммарный трафик они создают минимум на 5 порядков (> 100 000 раз ) больше.

            Диски же с тех пор не особо быстрее стали, ну раза в 1.5 только. На SSD облака никто и никогда не хранит — они для серверов и баз данных, а не для пользовательских файловых помоек. Они до сих пор еще много лет будут на магнитных дисках.

            79 кусочков на 5 Гб файл это не о чем — практически нулевая фрагментация. По 64 Мб на 1 кусок — практически линейное чтение.
            При серьезной фрагментации даже современные быстрые диски по скорости ниже 100 Mbps проседают относительно 1000-1500 Mbps линейных чтения/записи.


      1. vconst
        26.01.2017 20:41

        И потом. ZFS нельзя дефрагментировать, это ее недостаток, а не преимущество.


    1. ikormachev
      27.01.2017 16:34

      Я бы согласился, если бы у дропбокса был интенсивный уровень чтения/записи на гигабайт хранения, как, к примеру, у нетфликса. Но в реальности дропбокс — это файлопомойка и многие данные там просто лежат мертвым грузом. И какие бы дешевые диски не были, в случае файлопомоек ты быстро «вылетишь в трубу», если не будет управлять пространством.


      1. vconst
        27.01.2017 16:56

        Файлопомойка, но очень большая, гигантская. С огромным количеством пользователей.
        Что до мертвого груза, это не про всех. Основная нагрузка на облако идет от тех, кто использует его для работы, покупает бизнес аккаунт и шарит множество файлов для совместной работы. Те, кто пользуют только бесплатный лимит — намного чаще изменяют свои файлы в облаке, потому что место заканчивается и надо его освобождать.


      1. Mad__Max
        01.02.2017 08:05
        +1

        У него довольно интересная идеология хранения — он вообще не хранит файлы, а чанки адресуемые по уникальным хэшм содержимого и базы данных в которых указано какой файл из каких чанков состоит.

        Повторяющиеся чанки хранятся только один раз. За счет этого получается глобальная (между всеми пользователями) дедупликация данных. Если 1000 пользователей хранит один и тот же файл — реально он хранится только раз. Если пользователь хранит 100 версий какого-то файла, в котором что-то дописывается в конец или редактируется с заменой в реальности хранится только 100 последних кусочков + один основной набор исходной версии файла и т.д.
        При запросе какого-то файла он на ходу «собирается» из нужных кусочков и отдается пользователю.

        Не знаю сколько это позволяет выиграть на практике, но может оказаться что уровень чтения/записи на гигабайт хранения у него как раз весьма высокий.


        1. ikormachev
          01.02.2017 08:46

          Спасибо за ваше разъяснение! В этом случае действительно логично ничего не удалять.

          Думаю, что выигрыш от подобной дедупликации на практике огромный, но главное, что дропбокс еще может и приторговывать большими данными за счет такого подхода.


  1. perfect_genius
    26.01.2017 19:21

    «Иногда они возвращаются»


  1. Areso
    26.01.2017 19:21

    Ashley Madison также пытались отбрехаться, не вышло. Самое смешное, там полное удаление аккаунта стоило настоящих денег, а аккаунт оставался лишь помеченным на удаление… что и всплыло после грандиозной утечки.
    В этом мире никому нельзя верить.


  1. Shished
    26.01.2017 20:11
    +2

    Как говорил он, даже у КГБ не было такого полного досье на граждан.

    Ну правильно, люди сами не отправляли свои личные данные в КГБ.


    1. Alyoshka1976
      26.01.2017 21:18

      Чаще всего пользователи и не знают о том, что на посещаемом им сейчас сайте может гнездиться целая стая «жучков» от разных известных брэндов, например, того же фэйсбука. В Лисе помогает заблокировать подлых насекомых :-) такое дополнение — https://addons.mozilla.org/ru/firefox/addon/ghostery/


  1. lola_term
    26.01.2017 21:32

    Никто не смотрел на это под углом того, что все эти старые файлы все еще у них хранятся и вполне изучаются?


  1. hjp92423
    26.01.2017 22:33

    Никогда не храните файлы в Dropbox'е или в любом другом облаке, всегда предварительно их шифруйте сложным паролем. Заливайте только в виде образов TrueCrypt или в виде архивов WinRar/7zip. Никогда не доверяйте крупным корпорациям вашу личную информацию, она обязательно будет украдена и каким-либо образом использована без вашего ведома в их интересах ради прибыли.


    1. ivan386
      26.01.2017 23:56

      Это про весь интернет можно так сказать.


      1. maxdedepol
        27.01.2017 01:12

        Это можно сказать вообще о чём угодно в современном мире. От отслеживания посетителей в супермаркетах и торговых центрах до камер на дорогах и трекинга пассажиропотока в метро. Просто смиритесь, что чтобы вы ни делали или хранили об этом может узнать кто угодно при должном желании или по стечению обстоятельств, из-за ошибок систем и прочее. Sad but true.


    1. ClearAirTurbulence
      27.01.2017 15:45

      Оптимальнее использовать файловое шифрование, а не контейнерное.
      EncFS, например. Кому нужна простая реализация — берется BoxCryptor Classic (он бесплатный) и шифруется им папка. У меня в Дропбоксе лежит все подряд, а вот чувствительная информация — в отдельной папке, под шифрованием.

      Плюсы BoxCryptor Classic — бесплатный, автоматически монтирует папку как диск на ПК, есть клиент под андроид.


      1. Alyoshka1976
        27.01.2017 22:35

        Как альтернативу могу предложить owncloud на своей VPS-ке с включенным шифрованием.


  1. Deosis
    27.01.2017 08:29
    +1

    Возник вопрос: почему, когда обновляют диски, файлы помеченные удаленными переносятся на новые?
    И насколько сложно при переносе исключить такие файлы?


    1. kgbplus
      27.01.2017 11:11

      Видимо копируют образом диск в диск, миграцией файловой системы или еще каким то способом, который не подразумевает пофайлового копирования


    1. AVX
      27.01.2017 15:18

      А разве обычно не рейд используют? Тогда меняют, видимо, так — вынимают один диск, ставят новый. Рейд восстанавливает состояние через некоторое время, информация не теряется.