Надёжность SSD в реальном мире: опыт Google / forpes.ru

Главная
Надёжность SSD в реальном мире: опыт Google

Надёжность SSD в реальном мире: опыт Google +32

28.02.2016 18:27

alizar 75 25800 Источник

На конференции FAST 2016 компания Google представила доклад со статистикой надёжности разнообразных SSD-накопителей при длительной работе в серверах. Собрана статистика по общей наработке в миллионы часов за шесть лет. Это первое масштабное и детальное исследование практической надёжности твёрдотельников.

Доклад опубликован на страницах 67-80 сборника докладов конференции.

В серверах Google установлены десять моделей SSD-накопителей (правда, конкретные производители не называются) трёх типов: MLC, eMLC и SLC. Это накопители как корпоративного класса, так и бюджетные потребительские.

Опыт практического использования принёс несколько неожиданных результатов.

Неожиданным оказалось, что на надёжность накопителей влияет возраст, а не интенсивность использования.

Ещё один неожиданный результат: «профессиональные» накопители SLC не более надёжны, чем обычные MLC.

Выяснилось также, что в новых накопителях постоянно встречаются плохие блоки, это вполне обычное явление. При этом чем больше плохих блоков изначально, тем более вероятно появление сотен новых плохих блоков в будущем. Вероятно, это связано с аппаратными сбоями.

По статистике, у 30-80% SSD-накопителей появляется хотя бы один новый плохой блок в течение первых четырёх лет эксплуатации. Сбой микросхемы за тот же срок наблюдается у 2-7% накопителей.

Ещё одно, на чём делают акцент исследователи Google: сбои SSD-накопителей случаются реже, чем сбои винчестеров, но они коварнее, потому что у SSD выше количество неисправимых ошибок (uncorrectable error). При этом, как упоминалось выше, показатель не зависит от количества циклов чтения и записи, так что значение UBER (Uncorrectable Bit Error Rate) в документации накопителя не имеет смысла.

Комментарии (75)

alexkunin
28.02.2016 21:32
#9057936
+29
То, что такие данные не зажимаются в столах менеджеров — офигенно.

ARMOR888
28.02.2016 21:55
#9057980
+4
Эх, ещё бы то же самое, но с привязкой к конкретным моделям.
1. kgbplus
  28.02.2016 23:22
  #9058104
  +2
  Google не хочет судиться с производителями накопителей
1. netto
  29.02.2016 00:52
  #9058220
  +5
  Это научное исследование, а не рыночный обзор или sales guide.
  1. alexkuzko
    29.02.2016 02:24
    #9058310
    Что не мешало в отчете гугла по надежности винчестеров указать производителей. И это было очень полезно!
    
    netto
    29.02.2016 07:05
    #9058426
    +1
    Ни разу не видел в таких исследованиях указаний производителей. Это принцип… В «отчете гугла по надежности винчестеров» — тоже. Вы что-то с кем-то путаете.
    
    alexkuzko
    29.02.2016 08:31
    #9058486
    +4
    Точно. Хоть у гугла и был такой отчет, но без производителей. А с производителями это от Backblaze. Они не постеснялись — и молодцы. Нечего производителям мешать публиковать реальные сведения!
    
    tazepam
    29.02.2016 13:50
    #9059312
    *Ни разу не видел в таких исследованиях указаний производителей. Это принцип…*
    По ссылке ниже подобное же исследование с названиями производителей и даже конкретных моделей.
    https://habrahabr.ru/post/209894/
    
    netto
    29.02.2016 18:48
    #9060270
    Это не научное исследование, это -так, sales guide. Тем, собственно, одно от другого и отличается. Очень жаль, что в последнее врем многие путают первое и второе.
    
    tazepam
    29.02.2016 18:50
    #9060276
    Пусть так. Но та же самая статистика. Что еще нужно?
    
    Gendalph
    01.03.2016 00:07
    #9061118
    Sales guide? Серьезно? Ребята используют сотни, а иногда и тысячи дисков одной модели. У них есть на чем строить статистику.
    
    netto
    01.03.2016 10:54
    #9061888
    Абсолютно серьезно. Науку интересует жесткий диск как таковой, и его поведение, а не «что вам купить из того, что есть на рынке». С точки зрения науки отчет, в котором «вендор А», «Вендор Б» и «Вендор Ц» совершенно нормален и правилен, это только вас интересует «а кто там за ними скрывается», ученому это не важно, да и не должно быть важно, по большому счету. Его не разница между вендорами интересует, выяснение этого может только помешать ответить на главные вопросы исследования.
    
    kaaquantum
    02.03.2016 00:54
    #9064470
    +2
    У вас какие то совсем абстрактные ученые. Главное — непредвзятость и объективность методик и выводов, а не пуританское прикрываение ярлычков.
    
    idiv
    29.02.2016 19:46
    #9060450
    Что не мешало в отчете гугла по надежности винчестеров указать производителей.
    
    Это требует разрешения производителя, причем независимо от автора исследования и в случае даже добровольной передачи на исследования. Скорее всего лицензионное соглашение.
    
    alexkuzko
    29.02.2016 20:14
    #9060558
    +1
    Я знаю что многие очевидные вещи сейчас запрещены т.н. копирастами. Но это не должно считаться нормальным.
    Поэтому пока еще не запретили обсуждать такое некорректное поведение, ущемляющее права человека, надо информировать население. Глядишь и созреет критическая масса (я про глобальное население, а не конкретной страны).
    
    Запрет на публикацию тестов и т.п. это просто ужас. Производители и поставщики так хотят назад в век паровых машин, мануфактур и гильдий!
    
    idiv
    29.02.2016 21:29
    #9060732
    Запрет на публикацию тестов и т.п. это просто ужас
    
    Это у вас как вышло? Нельзя называть производителя, как правило, а результаты тестов с именами производителей А, Б и В можно. А так можно выложить практически информацию.
    
    Кроме того, поставьте себя на место производителя. Кто-то купил партию дисков, а они оказались бракованными. Статью запускают, оказывается — брак единичной партии. А репутация потеряна… У Google ведь выборка тоже не самая строгая. Закупалось партиями, могло не повести с конкретной партией. А потом обиженная компания потребует компенсации стоимостью в утерянную прибыль (здесь она считается попроще, чем виртуальные расчеты в авторском праве), причем сразу. Потому никто не заинтересован в таком. Ответственность слишком большая.
    
    kotomyava
    01.03.2016 11:22
    #9061992
    +2
    Если производитель позволяет себе выдать бракованную партию, то его репутация и должна быть потеряна.
    В принципе объективные и независимые тесты не выгодны производителям — им выгоден маркетинговый буллшит.
    
    И ситуация, когда нет реальной возможности публиковать результаты таких тестов совершенно не нормальна — интересы потребителей должны бы быть в приоритете, иначе получается то, что мы имеем: мир одноразовых вещей.
    
    idiv
    01.03.2016 21:59
    #9064080
    Если производитель позволяет себе выдать бракованную партию, то его репутация и должна быть потеряна.
    
    А если не вина завода, а инженер из ОТК обиделся и решил "наказать" компанию и не сообщать о браке? Или было неправильное хранение или транспортировка, когда изготовитель вообще не при делах?
    
    И ситуация, когда нет реальной возможности публиковать результаты таких тестов совершенно не нормальна
    
    Она есть. Нужно убедить компанию в беспристрастном и взвешенном анализе.
    
    kotomyava
    01.03.2016 22:18
    #9064120
    +1
    > А если не вина завода, а инженер из ОТК обиделся и решил «наказать» компанию и не сообщать о браке?
    
    Вероятно, это и есть проблема компании? И такие ситуации точно также должны вредить её репутации?
    
    > Она есть. Нужно убедить компанию в беспристрастном и взвешенном анализе.
    
    Если бы… Убедить-то надо в том, что публикация выгодна компании. Компании не нужна никакая взвешенность и беспристрастность — наоборот, она сильно повредит, заведомо пойдя в разрез с результатами работы отдела маркетинга.
    Компаний которые делают качественные вещи, как и тех, что описывают результаты своей работы объективно, пренебрежимо мало.
    
    idiv
    01.03.2016 22:37
    #9064168
    > А если не вина завода, а инженер из ОТК обиделся и решил «наказать» компанию и не сообщать о браке?
    Вероятно, это и есть проблема компании? И такие ситуации точно также должны вредить её репутации?
    
    В идеальном мире нет, на практике виноват будет не мистер Икс, а компания Игрек.
    
    Компании не нужна никакая взвешенность и беспристрастность — наоборот, она сильно повредит, заведомо пойдя в разрез с результатами работы отдела маркетинга.
    Компаний которые делают качественные вещи, как и тех, что описывают результаты своей работы объективно, пренебрежимо мало.
    
    Зависит от репутации просящего. Тесты в RWTH проводили Ауди, Форд, Панасоник, Варта, Сименс (это те, про которые рассказывали у нас на факультете). Те же Форд с Панасоником одними своими объемами на "пренебрежимо мало" не тянет.
    
    kotomyava
    02.03.2016 00:11
    #9064402
    +1
    > В идеальном мире нет, на практике виноват будет не мистер Икс, а компания Игрек.
    
    И совершенно правильно. Если компания допускает возможность обхода/фальсификации проверки качества одним сотрудником, то процесс проверки не выдерживает критики, и это вина именно компании, и проблема построения её бизнес процессов. И, естественно, репутация такой компании должна падать.
    
    > Тесты в RWTH проводили Ауди, Форд, Панасоник, Варта, Сименс
    
    Вы про заказные исследования на заданную тему с закономерными выводами? Какое отношение это имеет к рассматриваемой проблеме вообще?
    Я-то речь вёл про независимые исследования без инициативы компании, и тем более прямого/косвенного финансирования.
    
    Например такие, на которых пропалились те же VW, с подделкой данных экологичности дизелей. Хотя выявившим настолько серьёзные проблемы опубликоваться и защититься просто — слишком большой резонанс.
    Кстати, VW финансировали исследования доказывающие экологичность дизелей, а не только покопались в ЭБУ, чтобы пройти тесты.
    
    А вот если проблема не настолько серьёзна, отбиться от юристов крупной компании после публикации любых не угодных её данных может оказаться большой проблемой.
    
    P.S. Ситуация в принципе не нормальна, когда надо какое-то разрешение спрашивать для подобных исследований и публикации их результатов.
    
    idiv
    02.03.2016 19:34
    #9066602
    Если компания допускает возможность обхода/фальсификации проверки качества одним сотрудником, то процесс проверки не выдерживает критики, и это вина именно компании, и проблема построения её бизнес процессов
    
    Вроде же нормальный подход, когда один человек несет ответственность, а не коллектив.
    
    > Тесты в RWTH проводили Ауди, Форд, Панасоник, Варта, Сименс
    Вы про заказные исследования на заданную тему с закономерными выводами? Какое отношение это имеет к рассматриваемой проблеме вообще?
    Я-то речь вёл про независимые исследования без инициативы компании, и тем более прямого/косвенного финансирования.
    
    Это были сравнительные независимые тесты. Эти компании разрешили озвучить результаты про себя независимо от их показателей.
    
    kotomyava
    03.03.2016 00:37
    #9067182
    +2
    > А если не вина завода, а инженер из ОТК обиделся и решил «наказать» компанию и не сообщать о браке?
    
    > Вроде же нормальный подход, когда один человек несет ответственность, а не коллектив.
    При чём тут ответственность? Вы прочитайте, внимательно, что я писал выше — если один человек может пропустить бракованную партию, то виновата безусловно компания. Она неправильно организовала процесс. В итоге пострадает её репутация, и это вполне закономерно.
    А кого там в компании за это накажут, и кто реально виноват в этой ситуации, потребителю этого брака совершенно не важно.
    Важно, что сначала брак допустили, а потом ещё и отгрузили. Естественно, что доверие к такому поставщику и должно упасть, что вы в этом ведите не нормального, и не справедливого?
    
    > Это были сравнительные независимые тесты. Эти компании разрешили озвучить результаты про себя независимо от их показателей.
    
    Можно ссылки на исследования, и заодно, кто был инициатором, и кто финансировал эти исследования?
    
    idiv
    03.03.2016 22:34
    #9069870
    > Вроде же нормальный подход, когда один человек несет ответственность, а не коллектив.
    При чём тут ответственность? Вы прочитайте, внимательно, что я писал выше — если один человек может пропустить бракованную партию, то виновата безусловно компания.
    
    Угу. Гораздо лучше, когда не только виноватого не найдешь, а еще и коллегиальное решение.
    Такое впечатление, что вы с производством не сталкивались да и должность ваша никакой ответственности не заставляет на себя брать. Я описал ситуацию крайнюю, возможны еще ошибки.
    
    Можно ссылки на исследования, и заодно, кто был инициатором, и кто финансировал эти исследования?
    
    Вот один из примеров, первый запрос в Гугле (сложная работа, сделал для вас), финансирование от земли Северный Рейн-Вестфалия:
    ссылка
    
    kotomyava
    04.03.2016 02:43
    #9070184
    > Угу. Гораздо лучше, когда не только виноватого не найдешь, а еще и коллегиальное решение.
    Какое коллегиальное решение? Какие поиски виноватого? Есть методики проверки. Данные проверок фиксируются. Если какой-то работник может это легко обойти, что-то не так — это явная единая точка отказа.
    
    Чтобы что-то гуглить, надо хотя бы приблизительно понимать, о какого рода исследованиях вы говорите, иначе можно угугуиться, а достаточной информации вы по этому случаю не предоставили.
    С материалом по вашей ссылке я, к сожалению, ознакомиться не смог — немецкого я не знаю, а результаты автоматического перевода данного текста не читаемы, англоязычной версии тоже не видать.
    
    idiv
    04.03.2016 20:26
    #9072902
    С материалом по вашей ссылке я, к сожалению, ознакомиться не смог — немецкого я не знаю, а результаты автоматического перевода данного текста не читаемы, англоязычной версии тоже не видать.
    
    Английский вариант перевода вполне читаемый и понятный.

quakin
28.02.2016 22:21
#9058012
+15
По статистике, у 30-80% SSD-накопителей появляется хотя бы один новый плохой блок в течение первых четырёх лет эксплуатации

По сравнению со всем спектром значений (0-100%), указанные цифры — это вершина точности!

А если серьёзно и если я что-то не понимаю в процентах… как понимать эти цифры?
1. Logonoff
  28.02.2016 22:30
  #9058028
  +10
  Понимать очень просто: не забывайте про бэкапы.
  1. Wesha
    29.02.2016 01:08
    #9058250
    +2
    > не забывайте про бэкапы.
    
    … и про то, что бэкапы — не панацея, а всего лишь снижение вероятности потери, ибо в бэкапе ошибка может появиться точно так же, как и в основной копии…
    
    Поэтому ZFS (https://ru.wikipedia.org/wiki/ZFS), построенная на предположении, что *все* носители ненадёжны, в режиме zraid — наше всё!
    
    justaguest
    29.02.2016 01:41
    #9058276
    Или ее конкурента btrfs (https://ru.wikipedia.org/wiki/Btrfs), там так же реализовано CoW (copy-on-write).
    
    ClearAirTurbulence
    29.02.2016 01:54
    #9058298
    btrfs, мягко выражаясь, недоделана, в отличие от.
    
    justaguest
    29.02.2016 02:03
    #9058300
    Да, я знаю про проблемы, я даже лично жаловался где-то в комментариях полгода назад. Я думаю, это зависит от «новизны» ядра, т.к. FS пока новая. К примеру, на данный момент у меня kernel-4.2.0-30, и проблем я больше давно не испытываю.
    
    Статус можно посмотреть тут: https://btrfs.wiki.kernel.org/index.php/Main_Page#Stability_status
    
    immaculate
    29.02.2016 09:47
    #9058604
    Около года назад у меня на btrfs появлялись неудаляемые каталоги, а btrfsck падал с Segmentation Fault.
    
    Так что откатился на ext4, еще годик-два подожду.
    
    reji
    29.02.2016 15:06
    #9059650
    В отличии чего? От ZFS или от ZoL? Это очень важное замечание, ведь ZFS недоступна на линуксе.
    
    P.S. Большинство проблем с btrfs было производными от контейнеров — когда создается тысячи снэпшотов. Сходу не могу придумать юзкейз для такого, если не использовать контейнеры.
    
    P.P.S. Не умаляю багов btrfs, они есть. Но и в ZoL они присутствуют. И по опыту я доверяю первому больше, чем второму, так в продакшне ZoL — редчайшая редкость, а btrfs — нет.
    ZoL будет доступен без бубна только с Ubuntu 16.04
1. DenimTornado
  28.02.2016 22:41
  #9058050
  +1
  у 50% ))
1. Eureka
  28.02.2016 22:52
  #9058068
  Я понял так: у 20% в течение первых 4 месяцев не обнаружено ни одного плохого блока, как минимум у 30% процентов был обнаружен минимум 1 плохой блок в тот же период.
  1. Bakanohito
    29.02.2016 07:51
    #9058464
    Ну, или в среднем у 55% за четыре года появляется хотябы 1 бедблок, а 25% — полуширина доверительного интервала при выбранной значимости и количества проверенных устройств…
1. SEman
  29.02.2016 07:51
  #9058462
  +1
  Я думаю, привязка к конкретному производителю или типу памяти.
1. BigHotey
  29.02.2016 08:39
  #9058492
  Здесь больше смысла в сравнении порядка цифр. Бедблоки появляются на порядок чаще, чем сбои микросхем.

Garbus
28.02.2016 22:42
#9058052
+3
Интересно было бы глянуть статистику, отличается ли оно для TLC, или особых отличий от MLC нет?
Все же сейчас пытаются их продвинуть как самые недорогие, не хотелось бы падения срока службы даже без учета циклов записи.

denis_g
28.02.2016 23:16
#9058092
+2
>> https://www.usenix.org/sites/default/files/fast16_full_proceedings.pdf

Да это же просто кладезь полезной информации! Спасибо.

icCE
28.02.2016 23:18
#9058096
+1
что на надёжность накопителей влияет возраст, а не интенсивность использования.

Да ладно? По моему это очевидно.
1. idiv
  28.02.2016 23:26
  #9058106
  +1
  Да ладно? По моему это очевидно.
  
  Имеется ввиду, что куча перезаписываний не настолько влияет на работоспособность по сравнению со свежим "из упаковки", как календарный износ. Что, в общем, неплохо, легче планировать замену.
  1. Patttern
    29.02.2016 11:17
    #9058808
    Позволю себе не согласиться с тем, что куча перезаписываний не «настолько» влияет на работоспособность. Во-первых, хотелось бы уточнить какой процент интенсивности имелся ввиду в слове «настолько»? Во-вторых, с практической точки зрения, на наших серверах ни один SSD не прожил более полугода при интенсивных циклах чтение/запись.
    
    reji
    29.02.2016 15:10
    #9059668
    Так это же замечательно! Вам должны были обменять диск по гарантии. Планируйте замены и у вас всегда будет новый диск без затрат с вашей стороны ;)
    
    Mad__Max
    29.02.2016 20:23
    #9060608
    Не будет — т.к. в условиях гарантии прописан не только срок в годах/месяцах работы, но и максимально допустимые объемы записи — в виде кол-ва циклов или ТБ записанных данных.
    
    reji
    29.02.2016 21:41
    #9060770
    Странные у вас диски, однако.
    
    root@NDA:~# vmstat -D | awk '/written sectors/ {print $1 * 512 / 1000 / 1000 / 1000}'
    16955.4
    root@NDA:~# uptime | awk '{print $3" "$4}'
    186 days,
    
    За полгода 17 ТБ, ни один диск не меняли.
    
    Более долгую статистику лень поднимать.
    P.S. Хотя это не честная статистика. Четыре диска, raid 10.
    
    Mad__Max
    29.02.2016 22:05
    #9060874
    +1
    Какие диски странные? Почему у меня?
    
    Я же не писал никаких конкретных объемов записи или конкретных моделей. Это вообще общая практика всех производителей SSD ограничивать объем записи и отказывать в гарантийной замене при превышении прописанных объемов/нагрузки по записи.
    
    Что до конкретики, то 17 ТБ за полгода да еще не на одиночный диск, а целый массив — это совсем немного по меркам современных серверов и SSD. Для серверных вариантов дисков обычно нагрузка до 50-100 ГБ записи/сутки (на одиночный диск) покрывается гарантией. Потому и не меняли — до исчерпания ресурса скорее всего еще далеко.
    
    У меня на скромном домашнем сервере/раб. станции только для личного использования (+ научные расчеты в на свободных процессорных ресурсах) на единственный диск 13 ТБ записи за последние 4 месяца. Правда объем смотрю не по мониторингу файловой системы ОС, а по данным контроллера самого диска (в SMART) — данные от ОС получаются заниженные, т.к. на SSD имеется такой эффект как Write amplification приводящий к тому, что по факту на флэш пишется существенно больше чем ОС отсылает для записи в контроллер диска. Из-за известного несоответствия логических блоков которыми идет запись на уровне ОС (сектор/кластер объемами 0.5-16 кб) и физической записью(стиранием) флэш памяти которая возможна только минимальными блоками по 256-1024 кб.
    
    reji
    01.03.2016 18:21
    #9063558
    Глянул другой сервер. 636 гб/сутки(делим пополам, т.к. raid 10) при объеме диска в 279GiB (300GB) Но там аптайм всего 134 дня, поэтому не приводил как пример — меньше, чем указанные выше "выходят из строя за полгода".
    
    И это по "существенно заниженным данным" (с)
    
    Я веду к тому, что утверждение "ни один SSD не прожил более полугода" — голословно без пруфов.
    
    Mad__Max
    01.03.2016 21:00
    #9063966
    Ну с этим вопросом к Patttern который про полгода и писал, а не я. Только какой пруф? Ну приведет он свою собственную статистику со своих серверов. Которую можно будет лишь принять (или не принимать) на веру/слово, т.к. какие там сервера и что они именно они у них в организации делают мы не знаем и проверить не можем.
    
    А что действительно интенсивной записью SSD можно и всего за несколько месяцев убить я не сомневаюсь, проверялось неоднократно. Если задаться такой целью то и за неделю-другую убить можно(но это уже специально — типа зацикленного теста на линейную запись, в реальных задачах таких жестких вариантов не встречается). Для того производители SSD и страхуются прописывая объем записи в условиях гарантии в отличии от производителей HDD, которым этот параметр безразличен.
    
    P.S.
    Вот по 636 Гб/сутки по мониторингу ОС это уже довольно серьезные объемы записи для сервера. Диски из этого массива вполне рискуют не дожить до конца гарантии и получить отказ в бесплатной их замене по причине превышения допустимой нагрузки.
    
    reji
    02.03.2016 19:09
    #9066538
    Упс, сорян, у вас ники и аватарки очень похожие, не заметил. (=
    
    Если диск вылетит и я это замечу(а не кто-то другой из админов) — обязательно напишу здесь комментарий.
    
    idiv
    29.02.2016 19:44
    #9060438
    Позволю себе не согласиться с тем, что куча перезаписываний не «настолько» влияет на работоспособность.
    
    Это статистика Google, не мои слова и не мои исследования. У вас есть сопоставимая по размерам база данных?
    
    Patttern
    29.02.2016 21:14
    #9060698
    Если бы я занимался сбором статистики, я бы обязательно собрал подобные данные. Однако, в данном случае, меня больше интересует практическая сторона этого вопроса, которая, по моим меркам, никак не соответствует действительности.
    
    idiv
    29.02.2016 21:31
    #9060742
    по моим меркам, никак не соответствует действительности.
    
    Ваша мерка — это сколько и чего? Или вы больше по ощущениям ориентируетесь?
    
    Patttern
    29.02.2016 21:32
    #9060746
    Об этом я написал выше, не вижу смысла повторяться.
    
    Mad__Max
    29.02.2016 20:27
    #9060620
    Там в табличке (последняя строчка в 1й) есть объем записи в эквиваленте среднего кол-ва циклов полной перезаписи. Ни в одном из обобщенных классов средний показатель даже до 1000 циклов не доходит — потому и "не влияет"
    Хотя на самом деле влияет, но еще так слабо что статистической значимости не имеет и выводы из этого делать не позволяет.
    
    idiv
    29.02.2016 21:33
    #9060748
    Хотя на самом деле влияет, но еще так слабо что статистической значимости не имеет и выводы из этого делать не позволяет.
    
    Это статистика конкретной компании и конкретного способа использования. Была бы статистика для сравнения со сравнимы объемами — было бы интересно почитать.
  1. Mad__Max
    29.02.2016 20:22
    #9060604
    Она не влияет только потому что конкретно у гугла количество этих циклов до смешного (по меркам серверов) низкое — тут же в статье табличка с основными данными есть — среднее кол-во циклов перезаписи даже до 1000 ни в одном классе не дотягивает. Что существенно меньше самых слабых в этом смысле MLC (3000 циклов).
    Естественно в таких условиях зависимость надежности от кол-ва циклов записи еще не прослеживается. Единственное непонятно — а нафига гугл вообще более дорогие SLC накопители массово закупал, если исходя из интенсировностей использования им вполне достаточно MLC?
    
    idiv
    29.02.2016 21:34
    #9060752
    Единственное непонятно — а нафига гугл вообще более дорогие SLC накопители массово закупал, если исходя из интенсировностей использования им вполне достаточно MLC?
    
    Тут могу предположить выгодные условия и право компании сообщать "а еще мы Гуглу наши продаем".
    
    netto
    29.02.2016 23:37
    #9061070
    +1
    Скорее всего они их начали закупать еще тогда, когда SSD были только SLC на рынке, в самом их начале.
1. MnogoBukv
  28.02.2016 23:39
  #9058128
  +6
  С чего это вдруг становится очевидно? То все мозги промыли циклами записи, и вдруг время работы откуда-то появилось.
  1. qw1
    29.02.2016 00:40
    #9058196
    +3
    А ещё была статья о том, как SSD плохо лежат на полке, без подачи питания.
  1. icCE
    29.02.2016 07:50
    #9058460
    +2
    Для меня всегда был очевиден этот факт, как и то, что SSD плохо лежат без питания. Предлогам вам окунутся в мир мелкой электроники, это поможет смотреть на все вещи под другим углом.
    
    navion
    29.02.2016 20:42
    #9060652
    Ещё была статья от LSI про это.
    
    MnogoBukv
    01.03.2016 17:08
    #9063316
    Одно дело — потеря данных на полке с течением времени. Ячейка же не деградирует через 2 года, я надеюсь? Перезаписали, и в путь. А тут деградация. Необратимая. Мне кажется, это не одно и тоже.
    
    Mad__Max
    01.03.2016 21:11
    #9063988
    +1
    Да, совершенно разные процессы. В одном случае физическая деградация, в другом просто постепенное "утекание" заряда из управляющего электрода транзистора, который и сохраняет данные. И восстанавливается на исходном уровне после каждой перезаписи. Одно пропорционально кол-ву циклов перезаписи, 2е времени хранения без подачи питания.
    
    Правда они коррелируют — чем выше физ. износ (количество уже произведенных циклов перезаписи), тем быстрее начинает "утекать" заряд.
    Т.е. новый в плане "пробега" диск может довольно долго "лежать на полке" с данными в полной сохранности. А вот поношенный, приближающийся к концу ресурса по записи может уже через несколько месяцев без питания начинать терять записанные данные.
    Поэтому взять старый(точнее изношенный) SSD и использовать его для бекапа — будет очень плохой идеей. Хотя такой вариант на 1й взгляд напрашивается — дескать при продолжении активной эксплуатации он скоро накроется ввиду исчерпания ресурса, а вот как офлайн-накопитель с очень редкой перезаписью еще послужит.

yogghy
28.02.2016 23:32
#9058114
+2
Работаю в отрасли. Результаты весьма удивительны, надо признать: техпроцесс 50 нм, один и тот же вендор, а процент сбойных драйвов MLC-A и SLC-B отличаются в два с половиной раза не в пользу SLC. А еще в сравнении SLC-A и SLC-B — первый 34 нм, второй 50 нм — первый довольно неожиданно выигрывает.
Пожалуй, посмотрим на таблички повнимательнее на работе.

И это самое. Анатолий, вы бы убрали тэг UBER, ей-ей :)
1. Nikobraz
  28.02.2016 23:36
  #9058126
  Расскажите пожалуйста, есть ли разница в надежности MLC и TLC.
1. Dioxin
  29.02.2016 12:45
  #9059070
  Зачем убирать? Теперь мы знаем как расшифровывается UBER :)
1. kotomyava
  01.03.2016 22:33
  #9064160
  Ну у каждого производителя бывают более или менее удачные продукты… Тем более, что может быть разница в выходе качественных кристаллов на оборудовании с более грубым техпроцессом, к примеру — для 34нм оборудование явно современее и точнее, возможно, рассчитано и на более тонкие процессы. Или вообще разные фабрики с разной культурой производства, если делаются чипы не своими силами.

tixkost
29.02.2016 09:09
#9058522
Было бы намного интереснее узнать анализ физики отказа/деградации/усталости/ошибки при чтении SSD и сравнение актуальной статистики с моделями, которые использовались, чтобы предсказать надежность этих ссдшек.
1. lovecraft
  29.02.2016 10:20
  #9058688
  Да, об этом тоже написано. Видимо, гадание на кофейной гуще надежнее )
  
  Much academic work and also tests during the procurement
  phase in industry rely on accelerated life tests to
  derive projections for device reliability in the field. We
  are interested in how well predictions from such tests reflect
  field experience.
  Analyzing results from tests performed during the procurement
  phase at Google, following common methods
  for test acceleration, we find that field RBER rates
  are significantly higher than the projected rates. For example,
  for model eMLC-A the median RBER for drives
  in the field (which on average reached 600 PE cycles at
  the end of data collection) is 1e-05, while under test the
  RBER rates for this PE cycle range were almost an order
  of magnitude lower and didn’t reach comparable rates
  until more than 4,000 PE cycles. This indicates that it
  might be very difficult to accurately predict RBER in the
  field based on RBER estimates from lab tests.

lovecraft
29.02.2016 10:12
#9058668
+1
Неожиданным оказалось, что на надёжность накопителей влияет возраст, а не интенсивность использования.

Это как сказать, вот коэффициент ранговой корреляции Спирмена из статьи.

Видно, что в первую очередь ошибки встречаются на тех дисках, на которых ошибки встречались ранее (корреляция 0,8 из 1), во вторую — на "старичках" и "затертых" (корреляция 0,4 из 1). Учитывая, что в энтерпрайзе количество PE является функцией от возраста диска, нет ничего удивительного в том, что PE и возраст влияют на надежность одинаково.

potan
29.02.2016 10:23
#9058692
Что значит "неисправимых"? На HDD может выйти из строя головка или механика и весь диск непригоден для работы. А появление нескольких bad block всего-лишь уменьшает доступную емкость, а для чтения может быть скомпенсировано избыточным кодированием.
1. lovecraft
  29.02.2016 10:41
  #9058726
  +2
  Это у них терминология такая:
  
  Uncorrectable error: A read operation encounters more
  corrupted bits than the ECC can correct.
  
  Final read error: A read operation experiences an error,
  and even after retries the error persists.
  
  Final write error: A write operation experiences an error
  that persists even after retries.