Запустить сервис планирует стартап Catalog. Компания разрабатывает специальную установку, которая позволит ежедневно записывать терабайт данных в 500 трлн ДНК-молекул.

Далее расскажем о подходе, используемом Catalog, и других свежих разработках на ДНК-поприще.


/ фото University of Michigan CC

Подробности проекта


Классический подход к записи данных в ДНК предполагает преобразование последовательности битов ? нулей и единиц ? в последовательность из четырех базовых оснований ДНК. Например, азотистые основания аденин (A), тимин (T), гуанин (G) и цитозин ( С) можно представить так: A = 00, T = 01, G = 10, C = 11.

Пользуясь этим подходом, в 2016 году компании Microsoft удалось «увековечить» 200 Мбайт текста и видео в синтетических молекулах ДНК (о чем мы уже писали в одном из постов). Однако такой способ плохо подходит для массовой записи данных, при этом являясь дорогостоящим.

Вместо того чтобы использовать миллионы ДНК-цепочек, исследователи из Catalog предлагают генерировать большое количество различных ДНК-молекул, состоящих не более чем из 30 пар оснований. Затем за счет ферментативных реакций эти предварительно подготовленные «кусочки» формируют особые паттерны, которые и кодируют информацию. Таким образом, вместо того чтобы представлять одно азотистое основание, биты выстраиваются в многомерные матрицы. А группы молекул отражают положение битов в этих матрицах.

Девин Лик (Devin Leake), руководитель исследовательского направления Catalog, приводит следующую аналогию: «Представьте, что у вас есть книга. Вы можете скопировать её вручную: букву за буквой. Точно также можно писать данные в ДНК ? молекулу за молекулой. Этот подход использовали в Microsoft. Мы же предлагаем создать своеобразный «печатный станок», где молекулы ДНК будут гарнитурой. Таким образом, переставляя предварительно сгенерированные молекулы, мы работаем сразу с целыми словами, расставляя их в нужном порядке».

Используя этот метод, исследователи из Catalog успешно записали и восстановили данные в ДНК. Для этого они использовали стихотворение The Road Not Taken (в одном из переводов ? «Другая дорога») Роберта Фроста. Сейчас компания решает задачу масштабирования платформы под нужды ИТ-компаний и правительственных организаций.

По словам одного из основателей Catalog Хинджана Парка (Hyunjun Park), такой подход позволит сделать терабайтные ДНК-хранилища коммерчески выгодными уже к началу 2019 года. Однако точная стоимость услуги хранения данных, которую будет предлагать стартап, пока неизвестна.

Аналогичные разработки


Как уже было отмечено, вопросами создания ДНК-хранилищ занимаются в Microsoft. И с 2016 года исследователи из компании продвинулись в своих разработках: в феврале 2018 они создали «библиотеку праймеров» для организации произвольного доступа к ДНК. Каждый из праймеров «привязан» к конкретной цепочке, потому с помощью полимеразной цепной реакции можно выбрать любую из них (и получить доступ к записанным данным).


/ фото Col Ford and Natasha de Vere CC

В компании надеются, что такой подход вкупе с новым, менее восприимчивым к ошибкам алгоритмом записи и чтения данных, в будущем поможет создать ДНК-хранилища объемом в несколько терабайт. В планах ИТ-гиганта предоставлять ДНК-хранилище as a service. Компания задалась целью осуществить задумку к 2020 году.

Взаимовыгода ДНК и AI


С записью информации на ДНК-носитель уже нет особых трудностей: компании придумали способы автоматизации. А вот процесс считывания информации по-прежнему сложен и требует много времени. Чтобы решить и эту проблему компания Lifebit планирует использовать системы ИИ. В Lifebit разрабатывают облачную платформу Deploit на базе алгоритмов МО, которая позволит автоматизировать процесс чтения информации из ДНК-носителей.

Таким образом, машинное обучение поспособствует в организации ДНК-хранилищ. Однако справедливо и обратное ? молекулы ДНК используются для создания систем искусственного интеллекта. Например, в этой сфере работают исследователи из Caltech.

Принцип работы их нейронной сети основан на химических реакциях, получивших название смещение нитей (механизм репликации ДНК, известный у некоторых вирусов), когда нить, называемая входящей, вытесняет одну из нитей оригинальной ДНК. «Интеллектуальную систему» уже научили распознавать цифры, написанные от руки.

Цифра отрисовывается на квадратной плоскости, разделенной на сто одинаковых ячеек (10x10) ? своеобразные пиксели. Каждая из этих ячеек представлена молекулой ДНК, которая «знает», есть ли на этом пикселе кусочек цифры. После все молекулы смешивают в одной пробирке, и «ДНК-сеть» дает свой ответ с помощью флуоресцентных сигналов. Пробирка начинает излучать свечение, цвет которого зависит от распознанной цифры. Например, зеленый и желтый цвета означают цифру пять, а зеленый и красный ? цифру девять.

В планах исследователей сформировать у нейронной сети некое подобие памяти, чтобы она «запоминала» обучающие векторы и использовала их для решения других задач.

O Catalog

Catalog ? это американский стартап, основанный в 2016 году, который занимается разработкой технологий хранения данных в молекулах ДНК. Штаб-квартира располагается в Бостоне, Массачусетс.



P.S. Пара дополнительных материалов из Первого блога о корпоративном IaaS:




Основное направление нашей деятельности — предоставление облачных сервисов:

Виртуальная инфраструктура (IaaS) | PCI DSS хостинг | Облако ФЗ-152 | Аренда 1С в облаке

Комментарии (16)


  1. denis-19
    04.08.2018 20:05

    Т.е. стандарта и понимания как лучше архивировать данные ДНК, делать запись и хранить их, в общем, пока нет.
    Архиватор ДНК на кикстартере бы хорошо взлетел походу…


  1. ra3vdx
    05.08.2018 00:30

    По-моему, это стоящая (в долгосрочной перспективе) технология.
    Это вам не гидрофобные покрытия у водяных лилий тырить)

    В порядке произвольных размышлений — эволюция, грубо говоря, методом «встряхивания и отбора» вырастила лучшие [на текущий момент] решения для нашего бренного мира. К сожалению, технологии пока достаточно «сырые», но я верю, что в конце концов мы и эту технологию [хранения данных] слижем у природы.
    И станем ещё ближе к их обработке и сильному ИИ.
    К чему это приведёт? Я не знаю.


    1. ClearAirTurbulence
      05.08.2018 01:05

      С одной стороны да, но вот гидрофобной плёнки мне тоже очень не хватает…


    1. arvitaly
      05.08.2018 08:28
      +1

      В порядке произвольных размышлений — эволюция, грубо говоря, методом «встряхивания и отбора» вырастила лучшие [на текущий момент] решения для нашего бренного мира.

      А почему вы считаете, что эволюция вырастила лучшие решения? Ведь эволюция, грубо говоря, подстраивалась под внешние условия, которые могли меняться гораздо быстрее скорости самой эволюции. Например, собственно человек, как отдельная особь, очевидно, не является эталоном для выживания в современной дикой природе. Да и вряд ли когда-либо являлся.


      1. ra3vdx
        05.08.2018 15:30

        Потому что худшие — вымерли.
        У человека есть мозг (тоже, кстати, продукт эволюции), который дал ему преимущество и позволил приспосабливаться к окружающей среде быстрее отбора. Почему Вы не подумали об этом обстоятельстве?
        Дарвиновское «fittest» не означает «сильнейший».


        1. arvitaly
          05.08.2018 17:49

          Мне кажется, мозг человека не дает ему преимуществ в одиночку, он дает ему возможность объединяться в гигантские группы особей, чего не могут позволить себе другие виды.
          Если исходить из такой посылки, то мы можем применить нечто вроде закона Парето и сказать: «Человеку досталась одна уникальная фича, составляющая 20% организма, которая позволила виду доминировать над остальными. При этом, 80% остальных составляющих, руки, ноги и т.д. не имеют никакого значения.»


          1. ra3vdx
            05.08.2018 18:07

            В гигантские группы объединяются и павианы, например. Когда они идут по саванне толпой 2000 особей — прячутся даже леопарды (у павианов клыки больше, чем у леопарда).
            Наша сила — в возможности сотрудничества с большим числом особей — но не с бесконечным — число Данбара у нас всего-то около 150.
            Но это не значит, что другие животные сотрудничать не могут. У тех же шимпанзе бывает совместная охота, у косаток… Даже слоны могут сотрудничать друг с другом (долгое время не могли поставить корректный эксперимент с ними). Франс Де Вааль много расскажет об этом.


            1. arvitaly
              05.08.2018 18:45

              Но ведь нужно оценивать еще и качество коммуникации, Харари в «Sapiens» вот считает, что именно возможность обмениваться вымышленной информацией (мифами) отличает наши способности от других видов. Религии, законы, другие соц.системы — все это мифы, существующие только в сознании людей, которые, тем не менее, позволяют объединяться в существенно большие группы, чем 2000 — миллионы и миллиарды.
              А главный современный миф — научные знания, я думаю, позволит и совсем другие порядки.


              1. ra3vdx
                05.08.2018 21:09

                Наука — это не миф, а распределённая система знаний.

                И я не думаю, что так уж распространено явление, когда какой-то начальник непосредственно взаимодействует с 2000+ подчиненными.
                Есть ещё одна «надстройка» над мозгом — культура называется. В широком смысле — легенды, письменность, теперь ещё и интернет и Big Data.


  1. sotnikdv
    05.08.2018 02:21

    Господа, а зачем это хранилище? Какие задачи оно решает?

    На начальном этапе это:
    — высокая плотность записи
    — ужасная latency
    — вероятность потери информации (ДНК — молекула подверженная сбоям, т.е. от природы берем механизмы репарации и от себя много-много механизмов избыточности и коррекции ошибок)
    — вероятность неверного считывания (наворачиваем контрольные суммы, коррекция ошибок и дублирование)

    Предположим, что-то мы решим. Так вот, а ради чего собственно?

    Технология быстрого и точного чтения ДНК, несомненно продвинет вперед медицину и кучу других областей. Технология создания произвольной ДНК (если решим проблему с ошибками методами, НЕ основанными на избыточности) запустит медицину и сельское хозяйство в стратосферу, образно говоря.

    Но хранилище зачем?

    P.S. Нейросети да, интересно, но как-то очень нишево.


    1. AlterMax
      05.08.2018 09:10

      Хранилище тоже весьма кстати будет — тем же генетикам понадобится хранить отдельные гены и геномы целиком. Здесь хранение в нативном виде будет оптимально.

      А еще например можно хранить видео — частичная потеря информации не критична в таком случае и как холодное хранилище — может быть вполне себе удачным вариантом. Основное преимущество — надежность и долговечность ИМХО.


      1. sotnikdv
        05.08.2018 12:07

        В нативном виде смысла нет в хранилище. Если мы умеем читать-писать на лету и быстро. Проще хранить в цифре.

        Надежность и долговечность вызывает у меня сомнение, она таки повреждается легче, чем ячейки флеш-памяти или магнитная поверхность. И мы не говорим про количество ошибок в кодировании и декодировании данных.

        Технологии развиваются и это круто. Но есть у меня подозрение, что это хранилище — не более чем рекламный трюк ради финансирования исследований.


  1. Here_and_Now
    05.08.2018 10:22

    Хотелось бы задать вопрос знающим людям: а вирус слепить в такой системе разве нельзя? Помню из курса биологии, что есть вирусы, которые представляют собой просто ДНК или РНК. Что помешает злоумышлинникам закодировать такие вирусы в хранилище и при считывании/обслуживании выпустить их наружу.


    1. sotnikdv
      05.08.2018 12:08

      Это еще что. Погуглите прионы


  1. adeptoleg
    05.08.2018 13:47

    Нежизнеспособно и не выдерживает никакой критики(особенно с стороны безопасности ведь если в минимальном кластере возможно создание вредоносного для всей системы элемента то он сам собой может там возникнуть в процессе записи инфы). Сильно сомневаюсь что скорость чтения особенно с современными тенденциями в ближайшие лет 100 будет адекватной. Кроме того меня терзают смутные сомнения что это всё какой то жирный фейк. Ну в смысле если они уже могут генетические цепочки тасовать с такой легкостью что уже прям задумываются над созданием из ДНК хранилищ то я не понимаю в чем сложность к примеру сделать препараты для восстановления скажем клеток печени по заданным шаблонам и.т.д… Думается мне будь там хоть в пол процента так радужно об этом бы уже трубили по всем новостным каналам с кучей фантазий на тему как через 5 лет мы все помолодеем и станем бессмертными


    1. struvv
      05.08.2018 14:20

      сложность в том, что информация содержится не в ДНК. Считай ДНК это исходный код(очень упрощённо), в котором миллиарды GLOBAL VARIABLES, куча сцепленности и прочего говнокода. И у тебя текущего state нету(метилирование, гистоны и прочие механизмы), а он зависит от всего — окружающей среды, вплоть до было 20 мин холодно, а сейчас жарко, истории итд итп. Короче «дебаггера» нет, а без него вообще никакого толку нет