Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 1. XIV конференция ассоциации USENIX. Технологии хранения файлов
Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 2. XIV конференция ассоциации USENIX. Технологии хранения файлов
Интересно, что влияние литографии на неисправляемые ошибки менее ясно, чем в случае с RBER, где меньшая литография, как и ожидалось, приводит к более высокому RBER. Например, Рисунок 6 показывает, что модель SLC-B имеет более высокую скорость развития неисправляемых ошибок, чем модель SLC — A, хотя SLC-B имеет более большую литографию (50нм по сравнению с 34нм у модели SLC-A). Кроме того, модели серии MLC с меньшим рабочим размером (модель MLC-B), как правило, не имеют более высоких показателей неисправимых ошибок, чем другие модели.
Фактически, в течение первой трети своей жизни (количество циклов РЕ от 0 до 1000) и в последней трети жизни (>2200 циклов PE) эта модель имеет меньшую частоту UE, чем, например, модель MLC-D. Вспомним, что все приводы MLC и SLC используют один и тот же механизм ECC, поэтому эти последствия не могут быть отнесены к различиям в ECC.
В целом, мы находим, что литография оказывает на неисправляемые ошибки меньший эффект, чем ожидалось, и меньший эффект по сравнению с тем, что мы наблюдали при изучении влияния RBER.
Рассмотрим, увеличивает ли наличие других ошибок вероятность возникновения неисправляемых ошибок.
На Рисунке 7 показана вероятность появления неисправляемой ошибки в данном месяце эксплуатации диска в зависимости от того, случались ли на диске различные типы ошибок в какой-то момент предыдущего периода эксплуатации (желтый цвет полосок) или в предыдущем месяце (зеленый цвет полосок), и сравнение этой вероятности с вероятностью появления неисправляемой ошибки (красные полоски) в последующем месяце.
Мы видим, что все типы ошибок увеличивают вероятность появления неисправляемых ошибок. При этом максимальное увеличение имеет место, когда предыдущая ошибка была замечена сравнительно недавно (т. е. в предыдущем месяце – зеленые полоски на графике выше, чем желтые) или если предыдущая ошибка являлась также неисправляемой ошибкой. Например, вероятность возникновения неисправляемой ошибки через месяц после другой неисправляемой ошибки составляет почти 30% по сравнению с 2%-й вероятностью увидеть неисправляемую ошибку в любом другом месяце. Но окончательные ошибки записи, мета-ошибки и ошибки стирания также увеличивают вероятность UE более чем в 5 раз.
Рис. 7. Месячная вероятность возникновения неисправляемых ошибок привода как функция зависимости от наличия предыдущих ошибок различного типа.
Таким образом, предыдущие ошибки, в частности предыдущие неисправляемые ошибки, увеличивают шанс последующего появления неисправляемых ошибок более чем на порядок.
Блок представляет собой секцию памяти, в которой выполняются операции стирания. В нашем исследовании мы различаем блоки, которые получили повреждения в полевых условиях, и блоки, которые уже имели заводские повреждения при поставке приводов пользователям.
В нашем исследовании приводы объявляли блок поврежденным после окончательной ошибки чтения, записи или стирания, и, соответственно переназначали его (то есть блок исключался из дальнейшего использования и любые данные, которые были размещены в данном блоке и которые можно было восстановить, перенаправлялись в другой блок).
Табл. 4. Статистика наличия поврежденных блоков, возникающих в процессе полевых условий эксплуатации, и наличие поврежденных блоков, возникших в процессе изготовления диска в заводских условиях.
В верхней половине Таблицы 4 приведена статистика поврежденных блоков в приводах, проходящих полевые испытания. Верхняя строчка показывает долю приводов с поврежденными блоками по каждой из 10-ти моделей приводов, средняя — среднее количество поврежденных блоков для тех дисков, которые содержат поврежденные блоки, нижняя строчка — среднее количество поврежденных блоков среди дисков с поврежденными блоками.
Мы рассматривали только приводы, которые были запущены в производство по крайней мере четыре года назад, и только те поврежденные блоки, которые возникли на протяжении первых 4-х лет полевых испытаний. Нижняя половина таблицы приводит статистику по приводам, в которых имелись поврежденные блоки, возникшие при фабричном изготовлении.
Мы пришли к выводу, что поврежденные блоки являются частым явлением: в полевых условиях в зависимости от модели они встречаются у 30-80% дисков. Исследование функции кумулятивного распределения (CDF) для количества поврежденных блоков приводов показало, что большинство дисков с поврежденными блоками имеют лишь небольшое количество таких блоков: медианное количество bad blocks для дисков с поврежденными блоками в зависимости от модели составляет от 2 до 4. Однако если количество поврежденных блоков привода больше медианного числа, то обычно оно намного больше. Это явление иллюстрирует Рисунок 8.
Рис. 8. Рисунок, демонстрирующий увеличение количества поврежденных блоков в зависимости от количества первоначально поврежденных блоков.
На Рисунке 8 показано, как развивается медианное число поврежденных блоков приводов с ростом числа уже имеющихся поврежденных блоков. Синяя линия соответствует моделям MLC, красные пунктирные линии — моделям SLC. В частности, для приводов MLC мы наблюдаем резкое увеличение числа поврежденных блоков после второго обнаруженного поврежденного блока, при этом медианное число подскакивает до 200, то есть у 50% дисков, у которых обнаружены 2 поврежденных блока, со временем возникает 200 и более поврежденных блоков.
Пока у нас нет доступа к подсчетам ошибок на уровне чипа, поврежденные блоки считаются сотнями, вероятно, из-за сбоев самого чипа, поэтому Рисунок 8 указывает, что после появления нескольких поврежденных блоков существует высокий шанс отказа целой микросхемы. Этот результат может служить потенциальной возможностью для прогнозирования отказов микросхем, если основываться на предыдущих подсчетах bad blocks и учитывать также другие факторы, такие как возраст, рабочая нагрузка и циклы PE.
Кроме определения частоты появления bad blocks, мы также заинтересованы в выяснении того, как обнаруживаются поврежденные блоки – в процессе операций записи или стирания, когда сбой блока незаметен для пользователя, или при возникновении окончательной ошибки чтения, которая видна пользователю и создает риск потери данных. Хотя у нас нет данных об отдельных сбоях блоков и о том, как они были обнаружены, мы можем обратиться к наблюдаемым частотам различных типов ошибок, которые указывают на сбой блока. Возвращаясь к Таблице 2, мы видим, что для всех моделей частота ошибок стирания и ошибок записи ниже, чем для окончательных ошибок чтения, то есть большинство поврежденных блоков обнаружены в результате возникновения непрозрачных ошибок, а именно при операциях чтения.
Выше мы рассмотрели динамику возникновения bad blocks в полевых условиях. Здесь же отметим, что практически все диски (>99% для большинства моделей) содержали фабричный брак в виде поврежденных блоков, причем их количество сильно различается между моделями, начиная от медианного числа меньше 100 для 2 моделей SLC, и заканчивая более типичным значением более 800 для остальных моделей. Распределение заводских поврежденных блоков соответствует нормальному распределению, при этом средние и медианные величины близки по значению. Интересно то, что количество фабричных поврежденных блоков в какой-то степени предсказывают появление других проблем привода в полевых условиях. Например, мы обратили внимание, что для всех моделей приводов, кроме одной, у 95% дисков, имеющих фабричные bad blocks, более высокая доля появления новых поврежденных блоков в полевых условиях и более высокая доля появления окончательных ошибок записи, чем у среднего диска той же модели. Они также имеют более высокую долю развития некоторых типов ошибок чтения (либо окончательных, либо не окончательных). Диски в 5% процентиле имеют долю ошибок тайм-аута ниже средней. Таким образом, мы пришли к следующим выводам относительно bad blocks: повреждение блоков является довольно распространенным явлением, наблюдаемым у 30-80% приводов, которые имеют хотя бы один такой блок. При этом наблюдается сильная зависимость: если на диске содержится хотя бы 2-4 поврежденных блока, существует 50% шанс, что за этим последуют сотни поврежденных блоков. Почти все диски поступают с фабричными поврежденными блоками, что дает основание прогнозировать их развитие в полевых условиях, так же, как и развитие некоторых других типов ошибок.
В нашем исследовании считается, что микросхема диска вышла из строя, если вышло из строя больше 5% блоков, или если число ошибок диска в течение последнего интервала времени превысило предельное значение. Некоторые фабричные флэш-накопители содержат запасной чип, так что в случае сбоя одного чипа диск задействует второй. В нашем исследовании приводы обладали такой же функцией. Вместо работы на запасном чипе, поврежденные микросхемы памяти исключались из дальнейшего использования, и привод продолжал работать с уменьшенной производительностью на остальных чипах.
Первая строка Таблицы 5 показывает распространенность испорченных чипов. Мы видим, что у 2-7% дисков в течение первых четырех лет эксплуатации возникают сбои чипов. Те приводы, которые не имеют механизма маппирования испорченных чипов, требуют ремонта и возвращаются производителю.
Табл. 5. Доля различных моделей дисков с неисправными чипами, требующих ремонта и замененных в течение первых 4-х лет полевых испытаний.
Мы также рассмотрели симптомы, которые приводят к тому, что чип помечается как неисправный: во всех моделях около двух третей чипов помечаются поврежденными после образования 5% поврежденных блоков и одна треть чипов помечается неисправной после достижения граничного количества дней с ошибками.
Мы обратили внимание, что поставщики всех чипов флэш-памяти для данных приводов давали гарантию, что число поврежденных блоков на один чип не превысит 2% до достижения предельного количества циклов PE. Следовательно, две трети неисправных чипов, у которых из строя вышло более 5% блоков, не соответствуют гарантии производителя.
Привод подлежит замене или ремонту, если в нем возникают проблемы, требующие вмешательства технического персонала. Во второй строке Таблицы 5 приведена доля дисков, потребовавших ремонта в какой-то момент времени в течение первых 4-х лет эксплуатации. Мы наблюдаем существенные различия в потребностях проведения ремонта у дисков различных моделей. В то время как для большинства моделей лишь у 6-9% в какой-то момент времени возникает потребность ремонта, некоторые модели приводов, например SLC-B и SLC-C, требуют ремонта соответственно в 30% и 26% случаев. Глядя на относительную частоту ремонтов, то есть отношение дней эксплуатации привода к количеству ремонтных случаев, третья строка Таблицы 5), мы наблюдаем диапазон от пары тысяч дней между ремонтными событиями для худших моделей до 15000 дней между ремонтами для лучших моделей.
Мы также рассмотрели частоту повторных ремонтов: на протяжение всего периода эксплуатации 96% дисков проходят всего 1 ремонт. Исследование парка эксплуатируемых дисков показало, что примерно 5% приводов постоянно заменялись в течение 4-х лет с момента ввода в эксплуатацию (четвертая строка Таблицы 5), в то время как среди худших моделей (MLC — B и SLC-B) было заменено около 10% приводов. Среди замененных дисков около половины отправлялось на ремонт, при этом подразумевалось, что, по крайней мере, половина всех ремонтов окажутся успешными.
Приводы типа eMLC и SLC привлекают потребительский рынок более высокой ценой Кроме того, что они характеризуются наибольшей выносливостью, то есть высоким количеством циклов перезаписи, покупатели считают, что подобная продукция высшего сегмента SSD характеризуется общей надежностью и стойкостью. В данном разделе статьи мы попробовали дать оценку справедливости этого мнения.
Возвращаясь к Таблице 3, мы видим, что это мнение верно по отношению к дискам SLC относительно RBER, поскольку этот коэффициент на порядок ниже, чем у приводов технологии MLC и eMLC. Однако таблицы 2 и 5 показывают, что диски SLC не обладают лучшей надежностью: частота их замены и ремонта, а также частота непрозрачных ошибок не ниже аналогичных показателей приводов, изготовленных с использованием других технологий.
Приводы eMLC показывают более высокий RBER, чем MLC-диски, даже если учитывать, что нижние границы RBER для приводов MLC в худшем случае могут быть выше до 16 раз. Однако возможно, что эти различия имеют место благодаря меньшей литографии, нежели благодаря другим технологическим отличиям. Основываясь на вышеприведенных наблюдениях, мы заключаем, что приводы SLC обычно не более надежны, чем MLC-приводы.
Очевидный вопрос заключается в том, как надежность flash-дисков соотносится с надежностью их главных конкурентов – жестких дисков HDD.
Мы находим, что когда дело доходит до частоты замены дисков, выигрывают flash-приводы. Согласно предыдущим исследованиям, проведенным в 2007 году, ежегодно заменяется около 2-9% общего количества HDD, что значительно больше 4-10% SSD, замененных на протяжение 4 лет после начала эксплуатации. Однако, флэш-приводы менее привлекательны, когда дело доходит до частоты ошибок. Более чем у 20% флэш-приводов в течение 4-х лет эксплуатации развиваются неисправляемые ошибки, у 30-80% появляются поврежденные блоки и у 2-7% выходят из строя чипы. Данные одной из исследовательских работ 2007 года указывают на появление поврежденных секторов всего лишь у 3,5% HDD на протяжении 32-х месяцев. Это довольно низкое число, но с учетом того, что общее количество секторов HDD на порядок превышает количество блоков или чипов SSD, и эти сектора меньше блоков, худшие характеристики SSD кажутся не настолько серьезными.
В целом, мы пришли к выводу, что флэш-накопители требуют замены гораздо реже в пределах нормативного срока службы, чем жесткие диски. С другой стороны, по сравнению с HDD, у SSD возникает больше неисправляемых ошибок.
Существует большой объем исследовательских работ по теме надежности flash-чипов на основе контролируемых лабораторных экспериментов с малым числом чипов, ориентированных на выявление тенденций возникновения ошибок и их источников. Например, некоторые ранние работы 2002-2006 годов исследуют сохранение, программирование и нарушение операций прочтения флэш-чипов, а в части последних работ изучаются тенденции появления ошибок в новейших MLC-микросхемах. Нас интересовало поведение флэш-накопителей в полевых условиях, поэтому результаты наших наблюдений иногда отличаются от результатов ранее опубликованных исследований. Например, мы считаем, что RBER не является надежным показателем вероятности появления неисправляемых ошибок и что RBER растет с циклами РЕ линейно, а не экспоненциально.
Есть только одно, недавно опубликованное полевое исследование ошибок флэш-памяти, основанные на данных, собранных в Facebook — «Широкомасштабное изучение сбоев флэш-памяти в полевых условиях» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. «A large-scale study of flash memory failures in the field». In Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS ’15, ACM, стр. 177–190). Это и наше исследования дополняют друг друга, так как они очень мало пересекаются.
Данные исследования Facebook состоят из одного беглого взгляда на парк флэш-носителей, состоящих из очень молодых (с точки зрения их использования по сравнению с пределом значений циклов PE) дисков, и содержат информацию только о неисправляемых ошибках, в то время как наше исследование основано на временных интервалах, охватывающих весь жизненный цикл дисков и включает в себя подробную информацию о различных типах ошибок, в том числе исправляемых, различные типы аппаратных сбоев, а также приводы различных технологий (MLC, eMLC, SLC). В результате наше исследование охватывает более широкий диапазон режимов ошибок и отказов, включая влияние износа на протяжение всего жизненного цикла.
С другой стороны, исследование Facebook учитывает роль некоторых факторов (температура, потребляемая мощность шины, использование буфера DRAM), которые нами не учитывались.
Наши исследования пересекаются только в двух небольших пунктах, и в обоих случаях мы приходим к несколько разным выводам:
В этой статье представлен ряд интересных выводов, касающихся надежности флэш-памяти в полевых условиях эксплуатации. Некоторые из них соответствуют общепринятым предположениям и ожиданиям, большая же часть выводов является неожиданной. Ниже мы приводим выводы, основанные на результатах проведенного нами исследования.
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 2. XIV конференция ассоциации USENIX. Технологии хранения файлов
5.5. Неисправляемые ошибки и литография
Интересно, что влияние литографии на неисправляемые ошибки менее ясно, чем в случае с RBER, где меньшая литография, как и ожидалось, приводит к более высокому RBER. Например, Рисунок 6 показывает, что модель SLC-B имеет более высокую скорость развития неисправляемых ошибок, чем модель SLC — A, хотя SLC-B имеет более большую литографию (50нм по сравнению с 34нм у модели SLC-A). Кроме того, модели серии MLC с меньшим рабочим размером (модель MLC-B), как правило, не имеют более высоких показателей неисправимых ошибок, чем другие модели.
Фактически, в течение первой трети своей жизни (количество циклов РЕ от 0 до 1000) и в последней трети жизни (>2200 циклов PE) эта модель имеет меньшую частоту UE, чем, например, модель MLC-D. Вспомним, что все приводы MLC и SLC используют один и тот же механизм ECC, поэтому эти последствия не могут быть отнесены к различиям в ECC.
В целом, мы находим, что литография оказывает на неисправляемые ошибки меньший эффект, чем ожидалось, и меньший эффект по сравнению с тем, что мы наблюдали при изучении влияния RBER.
5.6. Влияние других типов ошибок в сравнении с неисправляемыми ошибками
Рассмотрим, увеличивает ли наличие других ошибок вероятность возникновения неисправляемых ошибок.
На Рисунке 7 показана вероятность появления неисправляемой ошибки в данном месяце эксплуатации диска в зависимости от того, случались ли на диске различные типы ошибок в какой-то момент предыдущего периода эксплуатации (желтый цвет полосок) или в предыдущем месяце (зеленый цвет полосок), и сравнение этой вероятности с вероятностью появления неисправляемой ошибки (красные полоски) в последующем месяце.
Мы видим, что все типы ошибок увеличивают вероятность появления неисправляемых ошибок. При этом максимальное увеличение имеет место, когда предыдущая ошибка была замечена сравнительно недавно (т. е. в предыдущем месяце – зеленые полоски на графике выше, чем желтые) или если предыдущая ошибка являлась также неисправляемой ошибкой. Например, вероятность возникновения неисправляемой ошибки через месяц после другой неисправляемой ошибки составляет почти 30% по сравнению с 2%-й вероятностью увидеть неисправляемую ошибку в любом другом месяце. Но окончательные ошибки записи, мета-ошибки и ошибки стирания также увеличивают вероятность UE более чем в 5 раз.
Рис. 7. Месячная вероятность возникновения неисправляемых ошибок привода как функция зависимости от наличия предыдущих ошибок различного типа.
Таким образом, предыдущие ошибки, в частности предыдущие неисправляемые ошибки, увеличивают шанс последующего появления неисправляемых ошибок более чем на порядок.
6. Сбои аппаратного обеспечения
6.1. Поврежденные блоки
Блок представляет собой секцию памяти, в которой выполняются операции стирания. В нашем исследовании мы различаем блоки, которые получили повреждения в полевых условиях, и блоки, которые уже имели заводские повреждения при поставке приводов пользователям.
В нашем исследовании приводы объявляли блок поврежденным после окончательной ошибки чтения, записи или стирания, и, соответственно переназначали его (то есть блок исключался из дальнейшего использования и любые данные, которые были размещены в данном блоке и которые можно было восстановить, перенаправлялись в другой блок).
Табл. 4. Статистика наличия поврежденных блоков, возникающих в процессе полевых условий эксплуатации, и наличие поврежденных блоков, возникших в процессе изготовления диска в заводских условиях.
В верхней половине Таблицы 4 приведена статистика поврежденных блоков в приводах, проходящих полевые испытания. Верхняя строчка показывает долю приводов с поврежденными блоками по каждой из 10-ти моделей приводов, средняя — среднее количество поврежденных блоков для тех дисков, которые содержат поврежденные блоки, нижняя строчка — среднее количество поврежденных блоков среди дисков с поврежденными блоками.
Мы рассматривали только приводы, которые были запущены в производство по крайней мере четыре года назад, и только те поврежденные блоки, которые возникли на протяжении первых 4-х лет полевых испытаний. Нижняя половина таблицы приводит статистику по приводам, в которых имелись поврежденные блоки, возникшие при фабричном изготовлении.
6.1.1. Возникновение поврежденных блоков в полевых условиях
Мы пришли к выводу, что поврежденные блоки являются частым явлением: в полевых условиях в зависимости от модели они встречаются у 30-80% дисков. Исследование функции кумулятивного распределения (CDF) для количества поврежденных блоков приводов показало, что большинство дисков с поврежденными блоками имеют лишь небольшое количество таких блоков: медианное количество bad blocks для дисков с поврежденными блоками в зависимости от модели составляет от 2 до 4. Однако если количество поврежденных блоков привода больше медианного числа, то обычно оно намного больше. Это явление иллюстрирует Рисунок 8.
Рис. 8. Рисунок, демонстрирующий увеличение количества поврежденных блоков в зависимости от количества первоначально поврежденных блоков.
На Рисунке 8 показано, как развивается медианное число поврежденных блоков приводов с ростом числа уже имеющихся поврежденных блоков. Синяя линия соответствует моделям MLC, красные пунктирные линии — моделям SLC. В частности, для приводов MLC мы наблюдаем резкое увеличение числа поврежденных блоков после второго обнаруженного поврежденного блока, при этом медианное число подскакивает до 200, то есть у 50% дисков, у которых обнаружены 2 поврежденных блока, со временем возникает 200 и более поврежденных блоков.
Пока у нас нет доступа к подсчетам ошибок на уровне чипа, поврежденные блоки считаются сотнями, вероятно, из-за сбоев самого чипа, поэтому Рисунок 8 указывает, что после появления нескольких поврежденных блоков существует высокий шанс отказа целой микросхемы. Этот результат может служить потенциальной возможностью для прогнозирования отказов микросхем, если основываться на предыдущих подсчетах bad blocks и учитывать также другие факторы, такие как возраст, рабочая нагрузка и циклы PE.
Кроме определения частоты появления bad blocks, мы также заинтересованы в выяснении того, как обнаруживаются поврежденные блоки – в процессе операций записи или стирания, когда сбой блока незаметен для пользователя, или при возникновении окончательной ошибки чтения, которая видна пользователю и создает риск потери данных. Хотя у нас нет данных об отдельных сбоях блоков и о том, как они были обнаружены, мы можем обратиться к наблюдаемым частотам различных типов ошибок, которые указывают на сбой блока. Возвращаясь к Таблице 2, мы видим, что для всех моделей частота ошибок стирания и ошибок записи ниже, чем для окончательных ошибок чтения, то есть большинство поврежденных блоков обнаружены в результате возникновения непрозрачных ошибок, а именно при операциях чтения.
6.1.2. Возникновение поврежденных блоков в заводских условиях
Выше мы рассмотрели динамику возникновения bad blocks в полевых условиях. Здесь же отметим, что практически все диски (>99% для большинства моделей) содержали фабричный брак в виде поврежденных блоков, причем их количество сильно различается между моделями, начиная от медианного числа меньше 100 для 2 моделей SLC, и заканчивая более типичным значением более 800 для остальных моделей. Распределение заводских поврежденных блоков соответствует нормальному распределению, при этом средние и медианные величины близки по значению. Интересно то, что количество фабричных поврежденных блоков в какой-то степени предсказывают появление других проблем привода в полевых условиях. Например, мы обратили внимание, что для всех моделей приводов, кроме одной, у 95% дисков, имеющих фабричные bad blocks, более высокая доля появления новых поврежденных блоков в полевых условиях и более высокая доля появления окончательных ошибок записи, чем у среднего диска той же модели. Они также имеют более высокую долю развития некоторых типов ошибок чтения (либо окончательных, либо не окончательных). Диски в 5% процентиле имеют долю ошибок тайм-аута ниже средней. Таким образом, мы пришли к следующим выводам относительно bad blocks: повреждение блоков является довольно распространенным явлением, наблюдаемым у 30-80% приводов, которые имеют хотя бы один такой блок. При этом наблюдается сильная зависимость: если на диске содержится хотя бы 2-4 поврежденных блока, существует 50% шанс, что за этим последуют сотни поврежденных блоков. Почти все диски поступают с фабричными поврежденными блоками, что дает основание прогнозировать их развитие в полевых условиях, так же, как и развитие некоторых других типов ошибок.
6.2. Поврежденные чипы памяти
В нашем исследовании считается, что микросхема диска вышла из строя, если вышло из строя больше 5% блоков, или если число ошибок диска в течение последнего интервала времени превысило предельное значение. Некоторые фабричные флэш-накопители содержат запасной чип, так что в случае сбоя одного чипа диск задействует второй. В нашем исследовании приводы обладали такой же функцией. Вместо работы на запасном чипе, поврежденные микросхемы памяти исключались из дальнейшего использования, и привод продолжал работать с уменьшенной производительностью на остальных чипах.
Первая строка Таблицы 5 показывает распространенность испорченных чипов. Мы видим, что у 2-7% дисков в течение первых четырех лет эксплуатации возникают сбои чипов. Те приводы, которые не имеют механизма маппирования испорченных чипов, требуют ремонта и возвращаются производителю.
Табл. 5. Доля различных моделей дисков с неисправными чипами, требующих ремонта и замененных в течение первых 4-х лет полевых испытаний.
Мы также рассмотрели симптомы, которые приводят к тому, что чип помечается как неисправный: во всех моделях около двух третей чипов помечаются поврежденными после образования 5% поврежденных блоков и одна треть чипов помечается неисправной после достижения граничного количества дней с ошибками.
Мы обратили внимание, что поставщики всех чипов флэш-памяти для данных приводов давали гарантию, что число поврежденных блоков на один чип не превысит 2% до достижения предельного количества циклов PE. Следовательно, две трети неисправных чипов, у которых из строя вышло более 5% блоков, не соответствуют гарантии производителя.
6.3. Ремонт и замена приводов
Привод подлежит замене или ремонту, если в нем возникают проблемы, требующие вмешательства технического персонала. Во второй строке Таблицы 5 приведена доля дисков, потребовавших ремонта в какой-то момент времени в течение первых 4-х лет эксплуатации. Мы наблюдаем существенные различия в потребностях проведения ремонта у дисков различных моделей. В то время как для большинства моделей лишь у 6-9% в какой-то момент времени возникает потребность ремонта, некоторые модели приводов, например SLC-B и SLC-C, требуют ремонта соответственно в 30% и 26% случаев. Глядя на относительную частоту ремонтов, то есть отношение дней эксплуатации привода к количеству ремонтных случаев, третья строка Таблицы 5), мы наблюдаем диапазон от пары тысяч дней между ремонтными событиями для худших моделей до 15000 дней между ремонтами для лучших моделей.
Мы также рассмотрели частоту повторных ремонтов: на протяжение всего периода эксплуатации 96% дисков проходят всего 1 ремонт. Исследование парка эксплуатируемых дисков показало, что примерно 5% приводов постоянно заменялись в течение 4-х лет с момента ввода в эксплуатацию (четвертая строка Таблицы 5), в то время как среди худших моделей (MLC — B и SLC-B) было заменено около 10% приводов. Среди замененных дисков около половины отправлялось на ремонт, при этом подразумевалось, что, по крайней мере, половина всех ремонтов окажутся успешными.
7. Сравнение MLC, eMLC и SLC — приводов
Приводы типа eMLC и SLC привлекают потребительский рынок более высокой ценой Кроме того, что они характеризуются наибольшей выносливостью, то есть высоким количеством циклов перезаписи, покупатели считают, что подобная продукция высшего сегмента SSD характеризуется общей надежностью и стойкостью. В данном разделе статьи мы попробовали дать оценку справедливости этого мнения.
Возвращаясь к Таблице 3, мы видим, что это мнение верно по отношению к дискам SLC относительно RBER, поскольку этот коэффициент на порядок ниже, чем у приводов технологии MLC и eMLC. Однако таблицы 2 и 5 показывают, что диски SLC не обладают лучшей надежностью: частота их замены и ремонта, а также частота непрозрачных ошибок не ниже аналогичных показателей приводов, изготовленных с использованием других технологий.
Приводы eMLC показывают более высокий RBER, чем MLC-диски, даже если учитывать, что нижние границы RBER для приводов MLC в худшем случае могут быть выше до 16 раз. Однако возможно, что эти различия имеют место благодаря меньшей литографии, нежели благодаря другим технологическим отличиям. Основываясь на вышеприведенных наблюдениях, мы заключаем, что приводы SLC обычно не более надежны, чем MLC-приводы.
8. Сравнение с HDD
Очевидный вопрос заключается в том, как надежность flash-дисков соотносится с надежностью их главных конкурентов – жестких дисков HDD.
Мы находим, что когда дело доходит до частоты замены дисков, выигрывают flash-приводы. Согласно предыдущим исследованиям, проведенным в 2007 году, ежегодно заменяется около 2-9% общего количества HDD, что значительно больше 4-10% SSD, замененных на протяжение 4 лет после начала эксплуатации. Однако, флэш-приводы менее привлекательны, когда дело доходит до частоты ошибок. Более чем у 20% флэш-приводов в течение 4-х лет эксплуатации развиваются неисправляемые ошибки, у 30-80% появляются поврежденные блоки и у 2-7% выходят из строя чипы. Данные одной из исследовательских работ 2007 года указывают на появление поврежденных секторов всего лишь у 3,5% HDD на протяжении 32-х месяцев. Это довольно низкое число, но с учетом того, что общее количество секторов HDD на порядок превышает количество блоков или чипов SSD, и эти сектора меньше блоков, худшие характеристики SSD кажутся не настолько серьезными.
В целом, мы пришли к выводу, что флэш-накопители требуют замены гораздо реже в пределах нормативного срока службы, чем жесткие диски. С другой стороны, по сравнению с HDD, у SSD возникает больше неисправляемых ошибок.
9. Другие исследования в этой области
Существует большой объем исследовательских работ по теме надежности flash-чипов на основе контролируемых лабораторных экспериментов с малым числом чипов, ориентированных на выявление тенденций возникновения ошибок и их источников. Например, некоторые ранние работы 2002-2006 годов исследуют сохранение, программирование и нарушение операций прочтения флэш-чипов, а в части последних работ изучаются тенденции появления ошибок в новейших MLC-микросхемах. Нас интересовало поведение флэш-накопителей в полевых условиях, поэтому результаты наших наблюдений иногда отличаются от результатов ранее опубликованных исследований. Например, мы считаем, что RBER не является надежным показателем вероятности появления неисправляемых ошибок и что RBER растет с циклами РЕ линейно, а не экспоненциально.
Есть только одно, недавно опубликованное полевое исследование ошибок флэш-памяти, основанные на данных, собранных в Facebook — «Широкомасштабное изучение сбоев флэш-памяти в полевых условиях» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. «A large-scale study of flash memory failures in the field». In Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS ’15, ACM, стр. 177–190). Это и наше исследования дополняют друг друга, так как они очень мало пересекаются.
Данные исследования Facebook состоят из одного беглого взгляда на парк флэш-носителей, состоящих из очень молодых (с точки зрения их использования по сравнению с пределом значений циклов PE) дисков, и содержат информацию только о неисправляемых ошибках, в то время как наше исследование основано на временных интервалах, охватывающих весь жизненный цикл дисков и включает в себя подробную информацию о различных типах ошибок, в том числе исправляемых, различные типы аппаратных сбоев, а также приводы различных технологий (MLC, eMLC, SLC). В результате наше исследование охватывает более широкий диапазон режимов ошибок и отказов, включая влияние износа на протяжение всего жизненного цикла.
С другой стороны, исследование Facebook учитывает роль некоторых факторов (температура, потребляемая мощность шины, использование буфера DRAM), которые нами не учитывались.
Наши исследования пересекаются только в двух небольших пунктах, и в обоих случаях мы приходим к несколько разным выводам:
- в исследовании Facebook рассмотрена частота появления неисправляемых ошибок, причем эти ошибки изучаются как функция использования дисков. Авторы исследования наблюдают значительную «детскую смертность» приводов, которую они называют «раннее обнаружение» и «ранний отказ», в то время как мы этого не делаем. Различия в результатах могут объясняться как тестированием приводов в двух компаниях, что могло повлиять на картину «детской смертности», так и тем, что исследование Facebook больше сфокусировано на ранней стадии жизни диска (без рассмотрения ключевых точек через пару сотен циклов PE для дисков, чье предельное значение PE измеряется десятками тысяч). Наше же исследование носит более макроскопический характер и охватывает весь срок жизни привода;
- исследование Facebook делает вывод, что ошибки нарушения чтения не оказывают существенного влияния. Наш взгляд на ошибки этого типа более дифференцирован, показывая, что нарушение чтения не создает неисправляемые ошибки и что ошибки нарушения чтения происходят с достаточно высокой частотой, чтобы повлиять на RBER в полевых условиях.
10. Выводы
В этой статье представлен ряд интересных выводов, касающихся надежности флэш-памяти в полевых условиях эксплуатации. Некоторые из них соответствуют общепринятым предположениям и ожиданиям, большая же часть выводов является неожиданной. Ниже мы приводим выводы, основанные на результатах проведенного нами исследования.
- У 20 — 63% дисков возникает по крайней мере одна неисправляемая ошибка в течение первых четырех лет эксплуатации, причем наиболее распространенны непрозрачные неисправляемые ошибки – им подвержены от двух до 6 дней из 1000 дней эксплуатации дисков.
- В большинстве дней эксплуатации дисков возникает по крайней мере одна исправляемая ошибка, однако другие типы прозрачных ошибок, т. е. ошибок, незаметных пользователю, редки по сравнению с непрозрачными ошибками.
- Мы находим, что стандартная метрика RBER как показатель надежности диска не является достаточно хорошим способом прогнозирования отказов, которые случаются на практике. В частности, более высокий RBER не обязательно приводит к высокой частоте неисправляемых ошибок.
- Мы считаем, что стандартная метрика измерения неисправимых ошибок UBER не достаточно объективна, так как не увидели взаимосвязи между UE и количеством считываний. Из-за этого нормализация неисправляемых ошибок по количеству прочитанных битов будет искусственно увеличивать частоту ошибок для дисков с низким количеством операций прочтения.
- Как RBER, так и количество неисправляемых ошибок растут по мере роста циклов PE, однако темпы роста ниже, чем ожидается, происходят линейно, а не экспоненциально, при этом отсутствуют резкие скачки при превышении диском предельного количества циклов PE, установленных производителем для рабочих условий эксплуатации.
- В то время как износ, возникающий при эксплуатации диска, часто находится в центре внимания, отметим, что независимо от возраста привода, время, проведенное в полевых условиях, влияет на надежность диска.
- Приводы SLC, которые нацелены на корпоративный рынок и относятся к высшему сегменту продукции, не более надежны, чем приводы MLC, относящиеся к более низкому сегменту SSD-дисков.
- Мы заметили, что чипы с меньшим размером литографии имеют тенденцию к возникновению более высоких значений RBER, но это не обязательно связано с наибольшей частотой непрозрачных ошибок, например, неисправляемых ошибок.
- Несмотря на то, что SSD требуют более редкой замены, чем HDD, они имеют более высокую частоту возникновения проблем, которые могут повлиять на пользователя, например, частоту неисправляемых ошибок.
- Предыдущие ошибки различных типов позволяют прогнозировать возникновение неустранимых ошибок в перспективе. В настоящее время мы проводим исследование на тему того, как стандартные методы машинного обучения могут с высокой точностью предсказать появление неисправляемых ошибок в зависимости от возраста диска и наличия предыдущих ошибок.
- Разброс частоты повреждений блоков и чипов довольно значителен: в зависимости от модели, у 30-80% приводов появляется хотя бы один плохой блок и у 2-7% выявляется хотя бы один неисправный чип в первые четыре года эксплуатации. Последнее обстоятельство подчеркивает важность механизмов разметки (маппирования) поврежденных чипов, иначе диски с поврежденными чипами будут отправляться в ремонт или обратно производителю.
- Как правило, диски имеют либо пару поврежденных блоков, либо наоборот, слишком большое их количество, которое позволяет предположить, что грядущий отказ чипа можно спрогнозировать на основе предыдущего количества поврежденных блоков (и, возможно, с учетом некоторых других факторов). Заметим, что диск с большим первоначальным количеством заводских поврежденных блоков имеет более высокую вероятность появления большего числа поврежденных блоков в полевых условиях, а также более предрасположен к возникновению определенных типов ошибок.
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
leonidru
Мне очень трудно было читать этот текст.
Например «сравнение с HDD»… в 2007 году, 2-9%, значительно больше, 4-10%, за три года (х.з. в каком году).
и так по всему тексту.