Для экспериментов с долговременным хранением данных




Корпорация Microsoft закупает 10 миллионов нитей синтетической ДНК у биологического стартапа Twist Bioscience. Такое количество биоматериала требуется для проверки, насколько он подходит для долговременного хранения информации.

Плотность информации в ДНК давно привлекает внимание учёных: в одном грамме ДНК помещается 1 зеттабайт (миллиард терабайт) данных и хранится без изменений тысячи лет в соответствующих условиях. Дело за малым: научиться дёшево и надёжно считывать и записывать информацию.

В минувшие годы неоднократно проводились успешные эксперименты с записью бинарных данных в пары оснований ДНК. Ещё в 2010 году биологи из Гонконга сумели внедрить в клетку бактерии E.coli синтетическую ДНК, а в 2012 году учёные из Гарварда записали 643 килобайта данных в ДНК, поставив новый рекорд по количеству записанной информации.

Для кодирования информации в ДНК используется четверичная система счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G). Например, специалисты из Китайского университета Гонконга переводили текст в цифры по таблице ASCII (i = 105; G = 71; E = 69; M = 77), затем в четверичную систему (105 > 1221; 71 > 0113; 69 > 0111; 77 > 0131), а потом в цепочку нуклеотидов.

iGem > 1221011301110131 > ATCTATTGATTTATGT

Специалисты из Гарварда использовали другой метод. Во-первых, они принципиально отказались от использования живых организмов, а внедряли синтетическую ДНК в молекулу, сгенерированную на коммерческом ДНК-чипе. Таким образом, записанная информация не может быть потеряна из-за генетических мутаций при эволюции организма-носителя. Во-вторых, они использовали не текст ASCII, а бинарный код — файл с книгой, с сохранением форматирования HTML и иллюстраций JPEG. Код разбили на 96-битные блоки, включая 19-битный уникальный адрес каждого блока (на диаграмме показан красным цветом).



С тех пор методы кодирования данных постепенно совершенствовались. Улучшались и технологии считывания информации из ДНК. Свою лепту внесли и исследователи из Microsoft Research: недавно они опубликовали научную работу на эту тему.

Twist Bioscience специализируется на технологиях записи информации в ДНК с помощью специальной машины для массового производства синтетических ДНК, которую сконструировали в компании. Основные клиенты Twist Bioscience — исследовательские лаборатории, которые занимаются изготовлением генетически изменённых бактерий, необходимых в определённых химических реакциях для производства специфических препаратов. Использование генетического материала для хранения информации — новое направление в деятельности Twist Bioscience.

Сделанные по заказу синтетические ДНК заданной конфигурации стоят около 10 центов за пару оснований. Компания Twist Bioscience рассчитывает в ближайшем будущем снизить цену до 2 центов.

«Они сообщают нам последовательность ДНК, мы производим цепочку с нуля», — сказала исполнительный директор Twist Bioscience Эмили Лепруст (Emily Leproust) по поводу контракта с Microsoft. Изготовленный биоматериал отправляют в Microsoft, при этом биоинженеры Twist Bioscience даже не знают, какая конкретно информация закодирована в молекулах, поскольку у них отсутствует ключ для расшифровки.

В лабораторных условиях с помощью искусственного старения Microsoft проверит, сохранит ли ДНК информацию в течение 1000 лет.

Считывание информации с ДНК производится методом генетического секвенирования. За последние 20 лет стоимость этой процедуры значительно снизилась. Например, проект секвенирования человеческого генома продолжался с 1993 по 2003 годы и обошёлся примерно в $3 млрд. Сегодня такую процедуру можно выполнить за $1000.

Если падение цен продолжится такими темпами и удастся снизить уровень ошибок считывания, то ДНК действительно можно будет рассматривать как приемлемый носитель информации. Нужно снизить цены ещё в 10 000 раз — и технология пойдёт в массы, уверена Эмили Лепруст.

Комментарии (30)


  1. Vjatcheslav3345
    28.04.2016 15:47

    А нельзя ли использовать кремнийорганические соединения для синтеза устойчивых носителей информации?


  1. Desiderio
    28.04.2016 16:07
    -1

    del


  1. leidek
    28.04.2016 16:10
    +2

    А потом за девушками будут бегать агенты Microsoft и настойчиво просить получить «обновление»?


    1. ALHIMIK1992
      28.04.2016 17:20
      +3

      Позвольте вставлю вам флешку с пакетом обновлений)


      1. DrSavinkov
        28.04.2016 18:09
        +1

        У вас коннектор не соответствует.


        1. ALHIMIK1992
          29.04.2016 09:10

          Переходник можно подобрать


    1. strlock
      29.04.2016 07:01

      Потом у всех на коже будет зелеными буквами высвечиваться настойчивая просьба обновить ДНК до 10-й версии.


  1. Astrohas
    28.04.2016 16:31

    Microsoft -> Матрица
    Пойду ка за таблеткой


  1. Coob
    28.04.2016 16:48

    10 центов за базовую пару

    За пару оснований.


    1. alizar
      28.04.2016 16:51

      ok


  1. Idot
    28.04.2016 17:16

    … а затем может найтись хакер который для такого устройства хранения напишет универсальный вирус. Или просто тупо запишет на такое устройство реальный вирус, который как известно состоит из ДНК.


    1. Greendq
      29.04.2016 16:54

      У вирусов в основном РНК вместо ДНК используется. Парочка исключений не считается :)


  1. tree
    28.04.2016 17:22

    Есть риск того что им закажут какой-нибудь смертельный вирус а они особо не парясь произведут его? У них стоит антивирус для ДНК? :)


  1. BiSeTrojanov
    28.04.2016 18:02

    10 центов за базовую пару = log(8)/log(4) * 1024 * 1024 * $0.1 за мегабайт = ~$160 000 за мегабайт.
    Даже если мы поделим эту цифру на 10^4, это всё равно $16.5 млрд за терабайт


    1. Mad__Max
      30.04.2016 20:47

      Сильно сдается, что вы всего на 10 поделили, вместо 10^4. Ну либо млн и млрд попутали


      1. Vinchi
        03.05.2016 23:11

        16 млн за 1 ТБ


  1. norlin
    28.04.2016 18:39

    в одном грамме ДНК помещается 1 зеттабайт (миллион терабайт) данных
    А можно пояснить, о чём действительно идёт речь?
    Ведь в обычной ДНК в каждой молекуле из этого грамма будет одинаковая информация (ну, плюс-минус на повреждения и мутации).

    Или имеется в виду ДНК-цепочка такой длины, что её вес составит 1 грамм? Тогда можно поверить.


    1. sielover
      28.04.2016 19:13

      „Обычная“ ДНК — это выделенная из клеточных ядер?)
      Конечно, имеется ввиду искусственно синтезированная ДНК. Надо же как-то информацию записать, а менять нуклеотиды прямо внутри цепочки, насколько мне известно, еще никто не умеет. Но это ведь не обязательно должна быть цельная цепочка из секстиллиона нуклеотидов, а просто отдельно хранимые фрагменты, доступные для «считывания».
      P.S. Для автора: зеттабайт ? это миллиард терабайт (109?1012), а не миллион.


      1. norlin
        28.04.2016 19:37

        Понятно что синтезированная. В данном случае, это значения не имеет.
        Я просто не понимаю, что имеется в виду под "в 1 грамме хранится столько-то хренабайт".


        1. Krey
          29.04.2016 15:39

          Цепочка длинной в 1Гигабазу весит примерно 1 пикограмм. Вот если нарезать таких цепочек суммарным весом на 1 грамм и записать на них инфу получится столько то с учетом кодирования.
          У человека «размер» ДНК 3Гигабазы, у хвостатых амфибий аж 149Гбаз (да, да, намного больше). Синтезированные хз какие, наверное это не принципиально и определяется технологией и удобством.


          1. norlin
            29.04.2016 15:41

            Или имеется в виду ДНК-цепочка такой длины, что её вес составит 1 грамм?
            Ну, то есть, как я и предположил.

            Но вот измерение «в граммах» сильно запутывает, т.к. граммы как таковые тут вообще не при чём. Всё равно, что объём жёстких дисков в тоннах замерить, например.


  1. Aminokislota
    28.04.2016 20:04

    Главные вопросы не столько в стоимости, сколько в скорости записи и считывания.
    Со стеклом бы давно уже прорыв сделали, однако запись и чтение пока настолько сложны и долги, что все это является научными работами, а не коммерческой технологией.


    1. DrZlodberg
      29.04.2016 10:55

      Больше интересно — как оно там хранится? На сколько я понимаю способа записать и прочитать одну один конкретный фрагмент нет, и все эти «хренабайты» — это теоретический предел. Который, даже если и будет достигнут — будут изрядные проблемы с поиском нужного фрагмента в огромной куче молекул.
      Или там потребуется для каждой молекулы персональный синтезатор/ридер со всей обвязкой, системой подачи битов для записи (как физических — нуклеотидов, так и цифровых) и т.д. Собственно в живой клетке днк занимает незначительную часть, в основном это как раз эта обвязка, хотя для этого случая там много лишнего.


  1. macrop
    28.04.2016 21:29

    В майкософте рамсы попутали или переводчик сочинил…
    У человека полная ген.последвательность, легко на самой древней дискете умешается.
    И даже так, с копиями, носитель ненадёжный, если он не живой…


    1. laughing_one
      28.04.2016 23:19

      > У человека полная ген.последвательность, легко на самой древней дискете умешается.

      Что Вы понимаете под ген.последовательностью? Например, у человека свыше 3 млрд. нуклеотидных пар — на какую древнюю дискету Вы это уместите?


      1. Vjatcheslav3345
        29.04.2016 08:23
        +1

        Не обращайте внимания — это путешественник из будущего к нам залетел:)


    1. lim
      29.04.2016 12:44

      На дискете нет, а вот CD бы подошел — 3*10^9 * 2 / 8=750Mb


      1. Krey
        29.04.2016 15:23

        Непохоже на правду. На 2 умножать нельзя так как азотистые основания связываются совершенно определенным образом, т.е. можно считать что одна из половинок нуклеотидной пары это информация избыточности (целостности и.т.п.) ну и «бит» в ДНК это четыре возможных значения, а не два как в бинари, так что наверно еще в квадрат возвести. Т.е. 128Гигов примерно. Хотя я тож наверное накосячил.


        1. Mad__Max
          30.04.2016 20:57

          Конечно накосячили. Двойка в формуле у lim это не 2 цепочки ДНК, а как раз 2 бита кодируемые одной парой оснований. В результате кол-во пар умножаем на 2 — получаем объем данных в битах. И потом делим на 8, чтобы получить объем в байтах. Как раз объем одного CD примерно получается для одной полной копии ДНК.

          В квадрат (или другую степень) возводить нужно если хотим обратную операцию — из количества кодируемых бит получить количество возможных значений (2 бита — 2^2 = 4 значений, 8 бит — 2^8 = 256 значений и т.д.)


  1. sokol_yasniy
    29.04.2016 14:20

    Подобные эксперименты ещё в 2009 году проводили, читал как то в старом выпуске журнала Chip. Что то с тех пор недалеко продвинулись они.