Приветствую всех Хабровчан!

Предлагаю сегодня немного поговорить о восстановлении информации с неисправных SSD накопителей. Но для начала, прежде, чем мы познакомимся с технологией спасения драгоценных кило- мега- и гигабайт, прошу обратить внимание на приведенную диаграмму. На ней мы попытались расположить наиболее популярные модели SSD согласно вероятности успешного восстановления данных с них.


Как нетрудно догадаться, с накопителями, расположенными в зеленой зоне, обычно возникает меньше всего проблем (при условии, что инженер обладает необходимым инструментарием, разумеется). А накопители из красной зоны способны доставить немало страданий как их владельцам, так и инженерам-восстановителям. В случае выхода из строя подобных SSD шансы вернуть назад потерянные данные на сегодняшний день слишком малы. Если ваш SSD расположен в красной зоне или рядом с ней, то я бы советовал делать backup перед каждой чисткой зубов.

Те, кто уже сегодня сделал backup, добро пожаловать под кат.

Тут следует сделать небольшую оговорку. Некоторые компании умеют чуть больше, некоторые чуть меньше. Результаты, проиллюстрированные на диаграмме, представляют из себя нечто среднее по индустрии по состоянию на 2015 год.

На сегодняшний день распространены два подхода к восстановлению данных с неисправных SSD.

Подход №1. Вычитывание дампов NAND flash микросхем


Решение задачи что называется в лоб. Логика проста. Пользовательские данные хранятся на микросхемах NAND flash памяти. Накопитель неисправен, но что, если сами микросхемы в порядке? В абсолютном большинстве случаев так и есть, микросхемы работоспособны. Часть данных, хранящихся на них, может быть повреждена, но сами микросхемы функционируют нормально. Тогда можно отпаять каждую микросхему от печатной платы накопителя и считать ее содержимое с помощью программатора. А после попробовать собрать логический образ накопителя из полученных файлов. Этот подход в настоящее время используется при восстановлении данных с usb flash накопителей и различных карт памяти. Сразу скажу, что работа эта не из благодарных.

Трудности могут возникнуть еще на этапе считывания. Микросхемы NAND flash памяти выпускаются в разных корпусах, и для конкретной микросхемы в комплекте с программатором может не оказаться нужного адаптера. Для таких случаев в комплекте обычно есть некоторый универсальный адаптер под распайку. Инженер вынужден, используя тонкие проводки и паяльник, соединить нужные ножки микросхемы с соответствующими контактами адаптера. Задача вполне решаемая, но требует прямых рук, определенных навыков и времени. Сам то я с паяльником знаком не близко, поэтому такая работа вызывает уважение.



Не будем также забывать, что в SSD таких микросхем будет скорее всего 8 или 16, и каждую придется распаять и считать. Да и сам процесс вычитывания микросхемы тоже быстрым не назовешь.
Ну а дальше остается только из полученных дампов собрать образ и дело в шляпе! Но тут то и начинается самое интересное. Не буду углубляться в подробности, опишу только основные задачи, которые предстоит решить инженеру и используемым им ПО.

Битовые ошибки


Природа микросхем NAND flash памяти такова, что в сохраненных данных непременно появляются ошибки. Отдельные ячейки памяти начинают читаться неверно, причем стабильно неверно. И это считается нормой ровно до тех пор пока количество ошибок внутри определенного диапазона не превысит некоторый порог. Для борьбы с битовыми ошибками используются коды коррекции (ECC). При сохранении пользовательских данных, накопитель предварительно делит блок данных на несколько диапазонов и каждому диапазону добавляет некоторые избыточные данные, которые позволяют обнаружить и исправить возможные ошибки. Количество ошибок, которые могут быть исправлены определяется мощностью кода.

Чем выше мощность кода, тем длиннее последовательность приписываемых байт. Процесс вычисления и добавления упомянутой последовательности называется кодированием, а исправления битовых ошибок — декодированием. Схемы кодирования и декодирования обычно аппаратно реализованы внутри контроллера накопителя. При выполнении команды чтения накопитель наряду с прочими операциями выполняет также исправление битовых ошибок. С полученными файлами дампов необходимо провести ту же процедуру декодирования. Для этого нужно определить параметры используемого кода.

Формат страниц микросхем памяти


Единицей чтения и записи у микросхем памяти выступает единица, именуемая страницей. Для современных микросхем размер страницы равен приблизительно 8 КБ или 4 КБ. Причем это значение не является степенью двойки, а немного больше. Т. е. внутри страницы можно разместить 4 или 8 КБ пользовательских данных и еще что-нибудь. Эту избыточную часть накопители используют для хранения кодов коррекции и некоторых служебных данных. Обычно страница поделена на несколько диапазонов. Каждый диапазон состоит из области пользовательских данных (UA) и области служебных данных (SA). Последняя как раз и хранит внутри себя коды коррекции, которые защищают данный диапазон.



Все страницы имеют один и тот же формат, и для успешного восстановления необходимо определить каким диапазонам байт соответствуют пользовательские данные, а каким служебные.

Скремблирование VS Шифрование


Большинство современных SSD не хранят пользовательские данные в открытом виде, вместо этого они предварительно скремблируются или зашифровываются. Разница между этими двумя понятиями достаточно условна. Скремблирование — это некоторое обратимое преобразование. Основная задача этого преобразования получить из исходных данных нечто похожее на случайную последовательность бит. Данное преобразование не является криптостойким. Знание алгоритма преобразования позволяет без особого труда получить исходные данные. В случае с шифрованием знание одного лишь алгоритма ничего не дает. Необходимо также знать и ключ для расшифровки. Поэтому, если в накопителе используется аппаратное шифрование данных, и вам неизвестны параметры шифрования, то из считанных дампов данные восстановить не получится. Лучше даже не приступать к этой задаче. Благо большинство производителей честно признаются в том, что используют шифрование.

Более того, маркетологи сумели сделать из этой преступной (с точки зрения восстановления данных) функциональности опцию, которая якобы дает конкурентное преимущество над другими накопителями. И ладно если бы были отдельные модели для параноиков, в которых была бы качественно сделана защита от несанкционированного доступа. Но сейчас, видимо, настало время, когда отсутствие шифрования считается плохим тоном.
В случае со скремблированием дела обстоят не так печально. В накопителях оно реализовано как побитовая операция XOR (сложение по модулю 2, исключающее «ИЛИ»), выполненная над исходными данными и некоторой сгенерированной последовательностью бит (XOR паттерном).

Часто эту операцию обозначают символом ?.

Поскольку
X ? X = 0
То для получения исходных данных необходимо произвести побитовое сложение прочитанного буфера и XOR паттерна:
(X ? Key) ? Key = X ? (Key ? Key) = X ? 0 = X

Остается определить XOR паттерн. В самом простом случае для всех страниц применяется один и тот же XOR паттерн. Иногда накопитель генерирует длинный паттерн, скажем длиной в 256 страниц, тогда каждая из первых 256 страниц микросхемы складывается со своим куском паттерна, и так повторяется для следующих групп из 256 страниц. Но бывают случаи и посложнее. Когда для каждой страницы индивидуально генерируется свой паттерн на основании какого-то закона. В таких случаях помимо прочего нужно еще попытаться разгадать этот закон, что уже, мягко скажем, непросто.

Сборка образа


После выполнения всех предварительных преобразований (исправление битовых ошибок, устранение скремблирования, определение формата страницы и, возможно, некоторых других) заключительным этапом идет сборка образа. В силу того, что количество циклов перезаписи для ячеек микросхемы ограничено, накопители вынуждены использовать механизмы выравнивания износа, чтобы продлить время жизни микросхем. Следствием этого является то, что пользовательские данные сохранены не последовательно, а хаотично разбросаны внутри микросхем. Очевидно, что накопителю необходимо как-то запоминать куда он сохранил текущий блок данных. Для этого он использует специальные таблицы и списки, которые так же хранит на микросхемах памяти. Множество этих структур принято называть транслятором. Вернее будет сказать, что транслятор это некая абстракция, которая отвечает за преобразования логических адресов (номера секторов) в физические (микросхема и страница).

Соответственно, чтобы собрать логический образ накопителя, необходимо разобраться с форматом и назначением всех структур транслятора, а также знать как их найти. Некоторые из структур являются достаточно объемными, поэтому накопитель не хранит ее целиком в одном месте, а она также оказывается кусками разбросана по разным страницам. В таких случаях должна быть структура, описывающая это распределение. Получается некий транслятор для транслятора. На этом обычно останавливаются, но можно пойти еще дальше.

Данный подход к восстановлению данных заставляет полностью эмулировать работу накопителя на низком уровне. Отсюда вытекают плюсы и минусы этого подхода.

Минусы:
  • Трудоемкость. Поскольку мы полностью эмулируем работу накопителя, нам придется выполнить всю грязную работу за него.
  • Риск потерпеть фиаско. Если не удастся решить хотя бы одну из поставленных задач, то о восстановлении не может быть и речи. А вариантов много: невозможность прочитать микросхемы, потому что программатор их не поддерживает; неизвестные коды коррекции; неизвестный XOR паттерн; шифрование; неизвестный транслятор
  • Риск еще больше угробить накопитель. Помимо трясущихся рук риском является сам нагрев микросхем памяти. Для изношенных микросхем это может привести к появлению дополнительного числа битовых ошибок.
  • Время и стоимость работ

Плюсы:
  • Широкий круг задач. Все, что нужно от накопителя, это работающие микросхемы памяти. Неважно в каком состоянии остальные элементы.


Подход №2. Технологический режим


Очень часто разработчики SSD помимо реализации работы накопителя согласно спецификации наделяют его также дополнительной функциональностью, которая позволяет протестировать работу отдельных подсистем накопителя и изменить ряд конфигурационных параметров. Команды накопителю, позволяющие это сделать, принято называть технологическими. Они также оказываются весьма полезными при работе с неисправными накопителями, повреждения которых носят программный характер.

Как уже было сказано выше, со временем в микросхемах памяти неизбежно появляются битовые ошибки. Так вот, согласно статистике, причиной выхода из строя SSD в большинстве случаев является появление некорректируемых битовых ошибок в служебных структурах. То есть на физическом уровне все элементы работают нормально. Но SSD не может корректно инициализироваться из-за того, что одна из служебных структур повреждена. Такая ситуация разными моделями SSD обрабатывается по-разному. Некоторые SSD переходят в аварийный режим работы, в котором функциональность накопителя значительно урезана, в частности, на любые команды чтения или записи накопитель возвращает ошибку. Часто при этом, чтобы как-то просигнализировать о поломке, накопитель меняет некоторые свои паспортные данные. Например, Intel 320 series вместо своего серийного номера возвращает строку с кодом ошибки. Наиболее часто встречаются неисправности из серии «BAD_CTX %код ошибки%”.

В таких ситуациях очень кстати оказывается знание технологических команд. С помощью них можно проанализировать все служебные структуры, также почитать внутренние логи накопителя и попытаться выяснить, что же все таки пошло не так в процессе инициализации. Собственно скорее всего для этого и были добавлены техно-команды, чтобы производитель имел возможность выяснить причину выхода из строя своих накопителей и попытаться что-то улучшить в их работе. Определив причину неисправности, можно попытаться ее устранить и вновь вернуть накопитель к жизни. Но все это требует по-настоящему глубинных знаний об архитектуре устройства. Под архитектурой здесь я в большей степени понимаю микропрограмму накопителя и служебные данные, которыми она оперирует. Подобным уровнем знаний обладают разве что сами разработчики. Поэтому, если Вы к ним не относитесь, то Вы либо должны обладать исчерпывающей документацией на накопитель, либо Вам придется потратить изрядное количество часов на изучение данной модели. Понятное дело разработчики не спешат делиться своими наработками и в свободном доступе таких документаций нет. Говоря откровенно, я вообще сомневаюсь, что такие документации существуют.

В настоящее время производителей SSD слишком много, а новые модели появляются слишком часто, и на детальное изучение не остается времени. Поэтому практикуется немного другой подход.

Среди технологических команд очень полезными оказываются команды, позволяющие читать страницы микросхем памяти. Таким образом можно считать целиком дампы через SATA интерфейс накопителя, не вскрывая корпус SSD. Сам накопитель в таком случае выступает в роли программатора микросхем NAND flash памяти. В принципе, подобные действия даже не должны нарушать условий гарантии на накопитель.

Часто обработчики техно-команд чтения микросхем памяти реализованы так, что есть возможность оставить исправление битовых ошибок, а иногда и расшифровку данных, на стороне накопителя. Что, в свою очередь, значительно облегчает процесс восстановления данных. По сути остается только разобраться с механизмами трансляции и, можно сказать, решение готово.

На словах то оно, кончено, все просто звучит. Но на разработку подобных решений уходит немало человеко-часов. И в результате мы добавляем в поддержку всего одну модель SSD.

Но зато сам процесс восстановления данных упрощается колоссально! Имея подобную утилиту, остается только подключить накопитель к компьютеру и запустить эту утилиту, которая с помощью техно-команд и анализа служебных структур построит логический образ. Дальше остается только анализ разделов и файловых систем. Что тоже может быть непростой задачей. Но в большинстве случаев построенный образ без особого труда позволяет восстановить большую часть пользовательских данных.

Минусы:
  • Сложность и стоимость разработки. Достаточно немногие компании могут себе позволить содержать свой отдел разработок и проводить подобного рода исследования.
  • Решения индивидуальны.
  • Ограниченный круг задач. Не ко всем накопителям применим данный подход. SSD должен быть физически исправен. Также, редко, но все же бывает, что повреждения некоторых служебных структур, исключает возможность восстановления пользовательских данных.

Плюсы:
  • Простота.
  • В некоторых случаях позволяет обойти шифрование. По сути подход к восстановлению данных с помощью технологических команд на сегодняшний день является единственным известным способом восстановить данные с некоторых накопителей, использующих аппаратное шифрование данных.


Заключение


На войне все средства хороши. Но лично я отдаю предпочтение второму подходу как более тонкому инструменту. И наиболее перспективному, поскольку все более широкое распространение аппаратного шифрования исключает возможность восстановления информации с „сырых“ дампов микросхем. Однако и у первого подхода есть своя ниша задач. По большому счету это те задачи, которые нельзя решить с использованием технологических функций накопителя. В первую очередь это накопители с аппаратной неисправностью, и при этом нет возможности определить поврежденный элемент, или характер повреждений исключает ремонт. И браться за дело рекомендуется только в том случае, если уже есть успешный опыт восстановления информации с подобной модели SSD, или есть информация о решении. Необходимо знать, с чем придется столкнуться: используется ли шифрование или скремблирование, какой XOR паттерн вероятнее всего используется, известен ли формат транслятора (есть ли сборщик образа). В противном случае шансы на успех невелики, по крайней мере оперативно решить задачу не получится. К тому же нагрев негативно влияет на изношенные микросхемы памяти, в результате чего могут появиться дополнительные битовые ошибки, которые, в свою очередь, могут привнести свою ложку дегтя в последующем.

На этом пока все. Берегите себя! И да хранит ваши данные backup!

Комментарии (57)


  1. volkanin
    20.05.2015 17:35
    +5

    Ничего, что я под кат заглянул до того как бэкап сделал? Он у меня по расписанию на 23 часа настроен…
    А вам спасибо за статистику, со своим контроллером мне можно спать ещё спокойнее.


    1. alabram Автор
      20.05.2015 18:05
      +1

      Ничего.
      Всегда рад поделиться опытом. Спасибо, что заглянули.


  1. k0ldbl00d
    20.05.2015 18:30

    Не храню критичных данных на SSD. За два с лишним года владения OCZ Vertex 3 был один сбой, но тогда я просто обновил прошивку SSD и переустановил ОС. С тех пор проблем не испытывал.


    1. alabram Автор
      20.05.2015 18:40

      Хорошо, что не храните. Будьте внимательны со своим SSD. К сожалению статистика для него не самая лучшая. 1-2 года назад достаточно часто обращались с просьбой восстановить.


  1. AndrewN
    20.05.2015 20:04

    AMD Radeon R7?
    У них проблемы с фантазией…


    1. mcdebugger
      20.05.2015 20:53
      -1

      Причём на Indilinx'е :)


      1. Dim0FF
        20.05.2015 23:16
        +2

        1. AndrewN
          21.05.2015 06:05

          ну гуглить-то я умею
          имел ввиду, что придумать название не смогли другое…


  1. robert_ayrapetyan
    20.05.2015 20:25
    +2

    Нет ли здесь такого момента, что диски из зеленой зоны умирают более «молодыми и здоровыми»?


    1. alabram Автор
      20.05.2015 21:28

      Скорее нет. Просто разработанные методики восстановления, их возможности и характер неисправностей каждого семейства накопителей индивидуальны. Вот и получается, что для одних семейств существующий инструментарий покрывает больший процент случаев.


  1. VenomBlood
    20.05.2015 20:57
    +5

    Результаты, проиллюстрированные на диаграмме, представляют из себя нечто среднее по индустрии по состоянию на 2015 год.
    График вам маркетологи рисовали? Где проценты подписаны? Левая точка — 0%, а правая — 2%? Или левая 90% а правая 95%? Или Indilinx 3 как самый зеленый — имеет 100% восстановимость?


    1. alabram Автор
      20.05.2015 23:10
      +3

      Диаграмму рисовал я. Я скорее хотел проиллюстрировать вероятность успешного восстановления одного семейства относительно другого, при этом не хотел привязываться к абсолютным значениям. Значения для каждого семейства выбраны, что называется на глаз. Левая точка — 0, правая — приблизительно 90%.


  1. SgtRiggs91
    20.05.2015 21:55

    А по Intel DC S3500 есть какая-то статистика? Насколько я знаю, там стоит контроллер собственной разработки Intel. У меня на таком ОС крутится. Бэкапы делаю регулярно! :)


    1. alabram Автор
      20.05.2015 23:18
      +1

      В настоящий момент для данной модели нет общедоступного инструмента или методологии восстановления данных. Поэтому если кто-то и умеет работать с ними, то таких компаний в мире единицы. Мне они не известны. Вполне вероятно, что ни у кого нет инструментария.


      1. SgtRiggs91
        21.05.2015 00:57

        Сурово. Спасибо за ответ!


        1. navion
          21.05.2015 01:17

          Он же серверный, а там обычно RAID, бекап и превентивная замена.


  1. XogN
    20.05.2015 22:02

    Смотрю на свой старый Vertex 2 емкостью в 60 гигов.
    Держать на нем что либо, кроме системы и программ проблематично, просто места не хватит.
    Какой процент пользователей использует SSD диски небольшой емкости?
    Получается, что для большинства из них, сбой SSD повлечет за собой максимум переустановку системы?


    1. alabram Автор
      20.05.2015 23:25
      +1

      Насколько я могу судить, сейчас в ходу накопители емкостью ~120GB.
      Очень часто на восстановленном SSD оказывается один системный раздел. Люди любят хранить что-то на рабочем столе или в папке «Мои документы».


  1. Milfgard
    20.05.2015 22:24
    +3

    Каждый раз когда читаю такие топики, ощущения как от хорошего детектива. Спасибо.


  1. lolmaus
    21.05.2015 00:09

    А как насчет статистики поломок? Какие ломаются чаще, какие реже?


  1. alabram Автор
    21.05.2015 00:43
    +1

    Затрудняюсь ответить. Вообще Samsung-и считаются достаточно надежными, однако на восстановление их приходит достаточно. Возможно сказывается их популярность. С другой стороны с накопителями Plextor обращаются редко, но вот насколько они распространены среди пользователей сказать не могу. В свое время много было обращений с накопителями OCZ Vertex 2/3/4, Agility 3/4, Octane.
    Из свежих накопителей на ум никто не приходит. Но, возможно, просто их время пока еще не пришло.


    1. ploop
      21.05.2015 00:54

      Plextor вошел в моду не так давно. Сейчас популярны в основном из-за цены.
      Да и себе недавно его взял (M6S 128GB), скорости хорошие, цена бюджетная. Ну а что до надёжности — народ не жалуется, да и не страшно — как обычно система с софтом на нём.


      1. icCE
        21.05.2015 02:22

        > Ну а что до надёжности — народ не жалуется

        Народ как раз активно жалуется, см ниже.


    1. navion
      21.05.2015 01:20

      А Corsair на LAMD приходилось ковырять? В каком виде они хранят данные?


    1. icCE
      21.05.2015 02:21

      У plextor M6 проблема с прошивкой.
      Почитать, что и как можно тут
      forums.overclockers.ru/viewtopic.php?f=24&t=473790&sid=d566f9e67a011b8504dd795de36017bb

      от себя скажу, что мне удалось реально самому воспроизвести исчезновения данных на данной серии.
      Серия M5 была намного лучше. OCZ были проблемы очень частые под os x, лечилось сменой прошивки.

      Сам я на текущий момент плавно перебрался на Samsung 850 pro, есть что сказать о нем? Хотя думаю что нет :)

      Да еще неплохо дела у Intel, Intel 730 свой контролер, не быстрый но с хорошим запасом прочности, может быть актуально в системах где нет поддержки TRIM.