В ближайшие три года общее количество цифровых данных увеличится в три раза и достигнет 175 миллиардов терабайт. Надежно сохранить такое количество информации на жестких дисках и магнитных лентах будет практически невозможно, строительство дата-центров тоже не спасет ситуацию, поэтому ученые сейчас активно работают над технологией хранения данных в ДНК.

В этой статье мы расскажем, что из себя представляют ДНК-накопители, в чем их преимущества и недостатки, и по шагам разберем, как информацию сохранять в молекуле и извлекать из нее.

Что такое ДНК-накопители

ДНК-накопители данных — технология, которая использует молекулу ДНК для хранения данных. Один грамм ДНК может хранить в себе до 215 миллионов гигабайтов данных. В 2019 году ученые из американского стартапа Catalog оценили потенциал подхода и закодировали 16 GB текста англоязычной Википедии в синтетическую ДНК.

В будущем, когда технология станет массовой, ДНК сможет заменить флешки, жесткие диски, магнитные ленты и другие накопители, которые занимают много места, быстро выходят из строя и не позволяют хранить информацию несколько сотен лет.

Преимущества технологии

Большая плотность хранения. Плотность хранения ДНК в 1009 раз больше, чем на  жестком диске, и это еще не предельная потенциальная вместимость.

Потенциальная плотность хранения ДНК по сравнению с другими технологиями хранения. Источник: KARIN STRAUSS
Потенциальная плотность хранения ДНК по сравнению с другими технологиями хранения. Источник: KARIN STRAUSS

Долгое хранение. От температуры окружающей среды зависит срок хранения данных. Так, при плюсовой температуре молекула сохранится 2 000 лет, а при -20°C — 2 000 столетий.

Постоянство строения ДНК. Технологии со временем устаревают, в отличие от строения молекулы ДНК, которое не меняется уже 3 млрд лет.

Экологичность. Серверы оставляют углеродный след, а для функционирования ДНК не нужно электричество, поэтому технология практически не влияет на экологию.

Недостатки технологии

Высокая стоимость. Стоимость загрузки одного мегабайта составляет примерно $1, но к 2030 году стоимость хранения данных ДНК может упасть до $1 за терабайт.

Низкая скорость загрузки. Сейчас скорость загрузки данных низкая, но ученые уже создали прототип ДНК-чипа, который сможет записывать до 20 Гб в день.

Микрочип будет использоваться для параллельного выращивания нескольких нитей ДНК. Источник: BBC
Микрочип будет использоваться для параллельного выращивания нескольких нитей ДНК. Источник: BBC

Низкая скорость поиска. Поиск информации в ДНК занимает много времени, но с помощью химического метода ученые планируют ускорить процесс в тысячу раз. 

Большой размер устройства. Устройство Shannon от Catalog занимает площадь небольшой комнаты. Сейчас ученые работают совместно с компанией Seagate, чтобы уменьшить его размеры и создать «лабораторию на чипе».

Как информация хранится в ДНК

Цифровые данные, которые хранятся в компьютере, зашифрованы в виде последовательностей из нулей и единиц. Чтобы записать данные на ДНК, необходимо перевести их из двоичной системы в четверичную, выстроить в цепочку и перенести в молекулу. Подробнее о процессе рассказали ниже.

Преобразование данных

Первый шаг включает преобразование исходных данных, которые обычно представлены в двоичной форме (состоят из 0 и 1), в формат, который может быть представлен в ДНК. В ДНК четыре основания: аденин (A), цитозин (C), гуанин (G) и тимин (T). Один из распространенных подходов заключается в том, чтобы сопоставить каждые два бита двоичных данных с одним из четырех оснований ДНК. Например, можно использовать A для обозначения 00, C — для 01, G — для 10 и T — для 111.

Синтез ДНК

После того как данные преобразованы в последовательность оснований ДНК, необходимо создать соответствующие молекулы ДНК. Это делается с помощью синтеза ДНК, который включает химическое «строительство» молекулы ДНК по одному основанию за раз. Этот процесс осуществляют с помощью специальных машин — синтезаторов ДНК. Последовательность создается в соответствии с порядком A, C, G и T, который был определен на этапе преобразования данных.

Хранение данных

После того как молекулы ДНК синтезированы, их можно хранить. Молекула ДНК плотная и стабильная, что позволяет хранить в ней огромное количество данных на  маленьком пространстве. Она также устойчива ко многим проблемам, которые могут разрушить традиционные формы хранения данных, такие как магнитные или оптические носители. При условии хранения ДНК в контролируемой среде (например, при низкой температуре) данные могут сохраняться от сотен до тысяч лет.

Извлечение данных

Извлечение данных из ДНК — это, по сути, обратный процесс преобразования. ДНК секвенируется путем синтеза (SBS), который считывает последовательность A, C, G и T в ДНК. Затем эта последовательность преобразуется обратно в двоичный формат и воссоздает исходные цифровые данные.

Современные технологии секвенирования ДНК занимают длительное время для считывания данных, поэтому хранение данных ДНК в настоящее время больше подходит для долгосрочного архивного хранения, а не для данных, к которым необходимо часто обращаться.

Коррекция ошибок

В процессе синтеза и секвенирования могут возникать ошибки, например, пропущенные или лишние основания. Для решения этой проблемы исследователи разработали алгоритмы коррекции ошибок, которые позволяют выявлять и исправлять их. Например, избыточность (хранение нескольких копий данных) и проверка на четность (добавление дополнительных «контрольных» битов, которые можно использовать для проверки точности данных).

Перспективы технологии хранения данных в ДНК 

Рынок разработок в области цифровой ДНК-памяти в прошлом году достиг $105,5 млн и, по прогнозам, будет расти на 69,8% в год. Исследованиями в этой области занимаются технологические компании, такие как GenomTech, HelixWorks и Catalog Technologies, научные институты и даже Агентство национальной безопасности США.

В 2023 году российский ученый Максим Никитин из Московского физико-технического института (МФТИ) сделал открытие, которое вращается вокруг идеи молекулярной коммутации. Этот эффект позволяет регулировать функции генов с колоссальным разнообразием.

Максим Никитин за работой в лаборатории. Источник: Zanauku.mipt
Максим Никитин за работой в лаборатории. Источник: Zanauku.mipt

Молекулярная коммутация может произвести революцию в области хранения данных в ДНК, предоставив новый механизм для хранения и извлечения информации. Это потенциально может повысить эффективность хранения данных ДНК, сделать его более коммерчески жизнеспособным и ускорить его внедрение.

Уже сейчас можно говорить, что потенциал ДНК-накопителей огромен. Если бы все когда-либо созданные фильмы были отформатированы в ДНК, они могли бы уместиться в объеме, меньшем, чем кубик сахара. Хотя технология все еще находится на стадии разработки, хранение данных ДНК может стать массовым уже через пять лет, то есть примерно к 2028 году.

Комментарии (4)


  1. interm
    28.06.2023 12:50

    Например, можно использовать A для обозначения 00, C — для 01, G — для 10 и T — для 111.

    Должно быть 11.


  1. SADKO
    28.06.2023 12:50
    +2

    Сама идея, вполне имеет право на существование, но ИМХО использование конкретно ДНК для хранения данных подобно бессмысленному и беспощадному антропоморфизму роботов из комиксов. Смысл ДНК в ином, а для тупого хранения данных приспособят специальные, простые молекулы и получат в разы большую плотность и скорости...


    1. nikhotmsk
      28.06.2023 12:50

      Скорее бы его изобрели. Тогда можно было бы выкачать все редкие торренты и спасти их от цифрового забвения


      1. 6p45c
        28.06.2023 12:50

        А зачем их спасать? Если они настолько редкие что их раздавать никто не хочет, то туда им и дорога.