Для экспериментов с долговременным хранением данных
Корпорация Microsoft закупает 10 миллионов нитей синтетической ДНК у биологического стартапа Twist Bioscience. Такое количество биоматериала требуется для проверки, насколько он подходит для долговременного хранения информации.
Плотность информации в ДНК давно привлекает внимание учёных: в одном грамме ДНК помещается 1 зеттабайт (миллиард терабайт) данных и хранится без изменений тысячи лет в соответствующих условиях. Дело за малым: научиться дёшево и надёжно считывать и записывать информацию.
В минувшие годы неоднократно проводились успешные эксперименты с записью бинарных данных в пары оснований ДНК. Ещё в 2010 году биологи из Гонконга сумели внедрить в клетку бактерии E.coli синтетическую ДНК, а в 2012 году учёные из Гарварда записали 643 килобайта данных в ДНК, поставив новый рекорд по количеству записанной информации.
Для кодирования информации в ДНК используется четверичная система счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G). Например, специалисты из Китайского университета Гонконга переводили текст в цифры по таблице ASCII (i = 105; G = 71; E = 69; M = 77), затем в четверичную систему (105 > 1221; 71 > 0113; 69 > 0111; 77 > 0131), а потом в цепочку нуклеотидов.
iGem > 1221011301110131 > ATCTATTGATTTATGT
Специалисты из Гарварда использовали другой метод. Во-первых, они принципиально отказались от использования живых организмов, а внедряли синтетическую ДНК в молекулу, сгенерированную на коммерческом ДНК-чипе. Таким образом, записанная информация не может быть потеряна из-за генетических мутаций при эволюции организма-носителя. Во-вторых, они использовали не текст ASCII, а бинарный код — файл с книгой, с сохранением форматирования HTML и иллюстраций JPEG. Код разбили на 96-битные блоки, включая 19-битный уникальный адрес каждого блока (на диаграмме показан красным цветом).
С тех пор методы кодирования данных постепенно совершенствовались. Улучшались и технологии считывания информации из ДНК. Свою лепту внесли и исследователи из Microsoft Research: недавно они опубликовали научную работу на эту тему.
Twist Bioscience специализируется на технологиях записи информации в ДНК с помощью специальной машины для массового производства синтетических ДНК, которую сконструировали в компании. Основные клиенты Twist Bioscience — исследовательские лаборатории, которые занимаются изготовлением генетически изменённых бактерий, необходимых в определённых химических реакциях для производства специфических препаратов. Использование генетического материала для хранения информации — новое направление в деятельности Twist Bioscience.
Сделанные по заказу синтетические ДНК заданной конфигурации стоят около 10 центов за пару оснований. Компания Twist Bioscience рассчитывает в ближайшем будущем снизить цену до 2 центов.
«Они сообщают нам последовательность ДНК, мы производим цепочку с нуля», — сказала исполнительный директор Twist Bioscience Эмили Лепруст (Emily Leproust) по поводу контракта с Microsoft. Изготовленный биоматериал отправляют в Microsoft, при этом биоинженеры Twist Bioscience даже не знают, какая конкретно информация закодирована в молекулах, поскольку у них отсутствует ключ для расшифровки.
В лабораторных условиях с помощью искусственного старения Microsoft проверит, сохранит ли ДНК информацию в течение 1000 лет.
Считывание информации с ДНК производится методом генетического секвенирования. За последние 20 лет стоимость этой процедуры значительно снизилась. Например, проект секвенирования человеческого генома продолжался с 1993 по 2003 годы и обошёлся примерно в $3 млрд. Сегодня такую процедуру можно выполнить за $1000.
Если падение цен продолжится такими темпами и удастся снизить уровень ошибок считывания, то ДНК действительно можно будет рассматривать как приемлемый носитель информации. Нужно снизить цены ещё в 10 000 раз — и технология пойдёт в массы, уверена Эмили Лепруст.
Комментарии (30)
leidek
28.04.2016 16:10+2А потом за девушками будут бегать агенты Microsoft и настойчиво просить получить «обновление»?
ALHIMIK1992
28.04.2016 17:20+3Позвольте вставлю вам флешку с пакетом обновлений)
strlock
29.04.2016 07:01Потом у всех на коже будет зелеными буквами высвечиваться настойчивая просьба обновить ДНК до 10-й версии.
Idot
28.04.2016 17:16… а затем может найтись хакер который для такого устройства хранения напишет универсальный вирус. Или просто тупо запишет на такое устройство реальный вирус, который как известно состоит из ДНК.
Greendq
29.04.2016 16:54У вирусов в основном РНК вместо ДНК используется. Парочка исключений не считается :)
tree
28.04.2016 17:22Есть риск того что им закажут какой-нибудь смертельный вирус а они особо не парясь произведут его? У них стоит антивирус для ДНК? :)
BiSeTrojanov
28.04.2016 18:0210 центов за базовую пару = log(8)/log(4) * 1024 * 1024 * $0.1 за мегабайт = ~$160 000 за мегабайт.
Даже если мы поделим эту цифру на 10^4, это всё равно $16.5 млрд за терабайт
norlin
28.04.2016 18:39в одном грамме ДНК помещается 1 зеттабайт (миллион терабайт) данных
А можно пояснить, о чём действительно идёт речь?
Ведь в обычной ДНК в каждой молекуле из этого грамма будет одинаковая информация (ну, плюс-минус на повреждения и мутации).
Или имеется в виду ДНК-цепочка такой длины, что её вес составит 1 грамм? Тогда можно поверить.sielover
28.04.2016 19:13„Обычная“ ДНК — это выделенная из клеточных ядер?)
Конечно, имеется ввиду искусственно синтезированная ДНК. Надо же как-то информацию записать, а менять нуклеотиды прямо внутри цепочки, насколько мне известно, еще никто не умеет. Но это ведь не обязательно должна быть цельная цепочка из секстиллиона нуклеотидов, а просто отдельно хранимые фрагменты, доступные для «считывания».
P.S. Для автора: зеттабайт ? это миллиард терабайт (109?1012), а не миллион.norlin
28.04.2016 19:37Понятно что синтезированная. В данном случае, это значения не имеет.
Я просто не понимаю, что имеется в виду под "в 1 грамме хранится столько-то хренабайт".Krey
29.04.2016 15:39Цепочка длинной в 1Гигабазу весит примерно 1 пикограмм. Вот если нарезать таких цепочек суммарным весом на 1 грамм и записать на них инфу получится столько то с учетом кодирования.
У человека «размер» ДНК 3Гигабазы, у хвостатых амфибий аж 149Гбаз (да, да, намного больше). Синтезированные хз какие, наверное это не принципиально и определяется технологией и удобством.norlin
29.04.2016 15:41Или имеется в виду ДНК-цепочка такой длины, что её вес составит 1 грамм?
Ну, то есть, как я и предположил.
Но вот измерение «в граммах» сильно запутывает, т.к. граммы как таковые тут вообще не при чём. Всё равно, что объём жёстких дисков в тоннах замерить, например.
Aminokislota
28.04.2016 20:04Главные вопросы не столько в стоимости, сколько в скорости записи и считывания.
Со стеклом бы давно уже прорыв сделали, однако запись и чтение пока настолько сложны и долги, что все это является научными работами, а не коммерческой технологией.DrZlodberg
29.04.2016 10:55Больше интересно — как оно там хранится? На сколько я понимаю способа записать и прочитать одну один конкретный фрагмент нет, и все эти «хренабайты» — это теоретический предел. Который, даже если и будет достигнут — будут изрядные проблемы с поиском нужного фрагмента в огромной куче молекул.
Или там потребуется для каждой молекулы персональный синтезатор/ридер со всей обвязкой, системой подачи битов для записи (как физических — нуклеотидов, так и цифровых) и т.д. Собственно в живой клетке днк занимает незначительную часть, в основном это как раз эта обвязка, хотя для этого случая там много лишнего.
macrop
28.04.2016 21:29В майкософте рамсы попутали или переводчик сочинил…
У человека полная ген.последвательность, легко на самой древней дискете умешается.
И даже так, с копиями, носитель ненадёжный, если он не живой…laughing_one
28.04.2016 23:19> У человека полная ген.последвательность, легко на самой древней дискете умешается.
Что Вы понимаете под ген.последовательностью? Например, у человека свыше 3 млрд. нуклеотидных пар — на какую древнюю дискету Вы это уместите?Vjatcheslav3345
29.04.2016 08:23+1Не обращайте внимания — это путешественник из будущего к нам залетел:)
lim
29.04.2016 12:44На дискете нет, а вот CD бы подошел — 3*10^9 * 2 / 8=750Mb
Krey
29.04.2016 15:23Непохоже на правду. На 2 умножать нельзя так как азотистые основания связываются совершенно определенным образом, т.е. можно считать что одна из половинок нуклеотидной пары это информация избыточности (целостности и.т.п.) ну и «бит» в ДНК это четыре возможных значения, а не два как в бинари, так что наверно еще в квадрат возвести. Т.е. 128Гигов примерно. Хотя я тож наверное накосячил.
Mad__Max
30.04.2016 20:57Конечно накосячили. Двойка в формуле у lim это не 2 цепочки ДНК, а как раз 2 бита кодируемые одной парой оснований. В результате кол-во пар умножаем на 2 — получаем объем данных в битах. И потом делим на 8, чтобы получить объем в байтах. Как раз объем одного CD примерно получается для одной полной копии ДНК.
В квадрат (или другую степень) возводить нужно если хотим обратную операцию — из количества кодируемых бит получить количество возможных значений (2 бита — 2^2 = 4 значений, 8 бит — 2^8 = 256 значений и т.д.)
sokol_yasniy
29.04.2016 14:20Подобные эксперименты ещё в 2009 году проводили, читал как то в старом выпуске журнала Chip. Что то с тех пор недалеко продвинулись они.
Vjatcheslav3345
А нельзя ли использовать кремнийорганические соединения для синтеза устойчивых носителей информации?