В скором времени человечество будет генерировать так много данных, что привычные хранилища перестанут справляться. Чтобы решить эту проблему, ученые обратились к практически безграничному природному вместилищу информации – ДНК. По мнению исследователей, ДНК – идеальная среда для хранения, поскольку она ультра-компактная и может сохранять свои свойства сотни тысяч лет, если обеспечить соответствующие условия хранения. Об этом свидетельствует недавнее восстановление ДНК из костей 43-тысячелетнего предка человека, найденного в пещерах Испании.
В новом исследовании ученые из Колумбийского университета и Нью-Йоркского центра генома (NYGC) продемонстрировали, что алгоритм, предназначенный для стриминга видео на смартфоне, может практически полностью раскрыть потенциал ДНК в хранении и сжатии дополнительной информации в четырех нуклеотидных основаниях.
Идея и общие соображения о возможностях записи, хранения и поиска информации в молекулах ДНК принадлежат Михаилу Нейману – советскому ученому-физику. В 1964 году в журнале «Радиотехника» был опубликован материал, в котором описывалась технология этого процесса и устройство хранения данных – олигонуклеотиды Неймана (MNeimON).
В 2012 году генетикам из Гарвардского университета удалось закодировать черновик книги из 53,4 тысяч слов, 11 изображений и одну программу. Они выяснили, что в каждом кубическом миллиметре ДНК можно сохранить 5,5 петабайт данных. Год спустя исследователям Европейского института биоинформатики удалось сохранить, а затем полностью извлечь и воспроизвести около 0,6 мегабайт текстовых и видео-файлов: 154 сонета Шекспира, фрагмент знаменитого выступления Мартина Лютера Кинга «У меня есть мечта» длиной 26 секунд, научная работа о структуре ДНК Джеймса Уотсона и Фрэнсиса Крика, фотографии штаб-квартиры EBI в Хинкстоне и файл, описывающий методы преобразования данных. Все файлы ДНК воспроизводила с точностью, варьирующейся между 99,99% и 100%.
Янив Эрлих (Yaniv Erlich) и его коллега Дина Зелински (Dina Zielinski), научный сотрудник NYGC выбрали шесть файлов для кодирования и записи в ДНК – компьютерную операционную систему KolibriOS, французский фильм 1896 года «Прибытие поезда на вокзал Ла-Сьота», код 50-долларовой подарочной карты Amazon, компьютерный вирус, изображения с пластинок «Пионера» и исследование Клода Шеннона в области теории информации 1948 года.
Ученые собрали эти файлы в один, а затем поделили данные на короткие строки двоичного кода. С помощью фонтанных кодов, они случайным образом упаковали строки в «капли» фонтана – блоки и конвертировали сочетания 00, 01, 10, 11 в четыре нуклеотидных основания: аденин (А), цитозин (С), гуанин (G) и тимин (Т). Чтобы затем собрать эти блоки воедино, команда ученых добавила метки для каждой «капли».
Всего исследователи сгенерировали около 72 тысяч таких цепочек ДНК, каждая из которых содержала в себе приблизительно 200 оснований. Они собрали эту информацию в текстовый файл и отправили его в Сан-Франциско, где стартап Twist Bioscience, занимающийся синтезом ДНК, превратил цифровые данные в биологические. Две недели спустя команда Эрлиха получила пробирку с молекулами ДНК.
Используя технологии секвенирования для чтения нитей ДНК и специальное ПО для перевода генетического кода обратно в двоичный файл, они успешно восстановили файлы. Сколько занимает чтение и запись, ученые пока не уточняют.
Группа исследователей, возглавляемая Эрлихом, также продемонстрировала, что ее алгоритм, умножая образец ДНК с помощью полимеразной цепной реакции, может сгенерировать и безошибочно восстановить практически неограниченное количество копий образца, и даже копий его копий.
Эрлих запускает операционную систему на виртуальной машине и играет в «Сапера»
Однако самым впечатляющими возможностями алгоритма оказалась способность разместить 215 петабайт данных в одном грамме ДНК – в 100 раз больше, чем удалось достигнуть при помощи других методов и алгоритмов.
Емкость хранения данных ДНК теоретически ограничена двумя цифрами для каждого нуклеотида, а также биологическим устройством ДНК. Кроме того, чтобы собрать и прочитать записанные фрагменты, требуется включить дополнительную информацию, что впоследствии снижает емкость до 1,8 двоичных символов в нуклеотиде. Алгоритм «фонтан ДНК» позволяет разместить в среднем 1,6 бит в каждом нуклеотиде – это на 60% больше, чем удавалось ранее, а также близко к пределу в 1,8 бит.
Главным препятствием на пути широкого распространения технологии остается ее стоимость. Исследователи потратили 7 тысяч долларов, чтобы синтезировать ДНК и заархивировать 2 мегабайта данных, и еще 2 тысячи, чтобы расшифровать ее. И хотя стоимость секвенирования ДНК постепенно снижается, то ее синтез все еще обходится в круглую сумму. Инвесторы не готовы вкладывать тонны денег только ради того, чтобы синтез упал в цене.
Эрлих и его команда предлагают другой способ решения проблемы: снизить цену на синтез ДНК можно, если производить молекулы более низкого качества, а затем использовать стратегию кодирования по типу «фонтана ДНК», чтобы исправить молекулярные ошибки.
Научная работа опубликована в журнале Science 3 марта 2017 года
DOI: 10.1126/science.aaj2038
Комментарии (97)
maxpsyhos
06.03.2017 11:58+1Фига себе у чувака с 1-го видео комп. 40 процессорных ядер на одной машине и какое-то космическое количество оперативы. Конечно, на таком карт-ридере данные с ДНК неплохо расшифровываются :)
mad_god
06.03.2017 12:28+1через десять лет такая мощность будет в каждых часах
gxcreator
06.03.2017 14:05+1*смотрю на бенчмарки Sandy Bridge от 2005 года *
*смотрю на бенчарки Kaby Lake 2017 года*
ну хз, за 12 лет не так и выросла производительность.tlittle
06.03.2017 14:24+1Оооо… Бэнчмарки от 2005 года на архитектуру 2011?
2005 год — это эра Prescott. Производительность выросла в разы — пропорционально количеству ядер. Не считая расширений наборов команд.Varim
06.03.2017 19:15Оооо… Бэнчмарки от 2005 года на архитектуру 2011?
да кого вообще волнует архитектура, это большинству вообще не интересно.
2005 год — это эра Prescott.
Производительность выросла в разы — пропорционально количеству ядер
Всё еще повседневные приложения не используют все ядра.
Скорость исполнения инструкций повседневных приложений может и выросла в раза два, не более, если судить например по скорости билда MS VS, но не в десятки раз как нам втирает «закон» Мура.
Производительность под какие то специфические приложения может и выросла в десятки раз.tlittle
06.03.2017 21:34Во-первых, кого вообще интересуют повседневные приложения? Производительность выросла в десятки раз, а то, что «повседневные приложения» ее не хотят или не умеют использовать — это не проблема вычислительных систем. У меня, например, сборка мира идет в 8 потоков и грузит мой i7 на 100% или близко к тому.
Во-вторых, мне гораздо интереснее, как товарищ видел бенчмарки 2005 года на архитектуру 2011.
FenixArt
06.03.2017 23:41Я тридешник и вот лично для меня скорости выросли даже не в десятки раз, а больше. В 2005 у меня был еще гигарцевый Дюрон от АМД и 256 мег памяти.
Сейчас у меня i7 на 6 ядер(и 12 потоков) с частотой 3,6 и 16 гиг оперативки.
Тогда мне отрендерить картинку 1024х760 была мукой на час.
Сейчас я за 20 минут рендерю А3 формат.
И это если смотреть только через призму процессорной мощности.
А если взять видекарты то там рост в тысячи раз. Кроме умопомрачительных игр, теже видеокарты сейчас можно использовать для рендеринга, так вот то что я рендерю на своем процессоре А3 формат 20 минут, на одной GTX 1080 я отрендерю минуты за две.YaakovTooth
08.03.2017 02:19По себе людей не судят.
Это я к тому, что априори кастрированный Duron на гигагерц — это начало нулевых, а не 2005. 256 мегабайт памяти — тоже ни разу не 2005 год.
Короче, равнять в лоб рендеринг на топовой видеокарте с рендерингом на офисном полукамне — отдаёт чем-то не совсем приятным.FenixArt
08.03.2017 02:33ну припустим в 2006 у меня был двухядерный пень на 2.4 и 2 гига памяти, но особо это не меняет картину.
И мы тут не про камень говорим а про прогресс, вычислительная мощность это не только процессор это разные ее части, суперкомпьютеров собраных на видеокартах довольно много и занимаются они колоссальными просчетами. Не учитывать и эту сторону развития нельзя.YaakovTooth
08.03.2017 02:37Я не знаю от лица какой группы лиц вы сейчас говорите что вы обсуждаете в ней, но здесь, вроде бы, обсуждается тезис того, что через десять лет в абстрактных часах будет 256 гигабайт оперативной памяти (зачем?) и 40 вычислительных ядер (для чего?).
Опять же, я лишь заметил, что ссылаться на собственный опыт „у меня было” — вообще некорректно, т.к. по вашему ответу мне можно сделать вывод, что за год объём памяти вырос в восемь раз, а тактовая частота — в пять. Хотя это чушь собачья.
Lorien_Elf
07.03.2017 00:29Закон Мура ничего не говорит о производительности. Он говорит об экспоненциальном росте количетва транзисторов.
Bratak
08.03.2017 02:07+1В так называемом «законе Мура» ни слова не говорится о производительности.Производительность процессоров растет, это реальная величина, ее можно измерить и сравнить, а вы свои субьективные гуманитарные суждения оставьте в стороне-для другого случая.
saboteur_kiev
09.03.2017 18:07+1Как же испохабили слово гуманитарий…
Раньше, гуманитарий это был человек, который знал (хорошо) несколько иностранных языков, отлично разбирался в литературе, мог сходу выложить аналитику текста по грамматике и по семантике. А сейчас — прям ругательство какое-то.
gxcreator
06.03.2017 20:42ОК, за 6 лет получается. Не так сильно и выросла.
tlittle
06.03.2017 21:53-1За 5 лет — (янв.2011, i7-2920XM — май 2016, i7-6950X) количество ядер выросло от 4 до 10, т.е., в 2.5 раза. Теперь берите эти же 10 ядер и умножайте на 2.5 * 2.5 (5 лет + 5 лет). Сколько ядер получили?
Человек, конечно, несколько утрировал, но по сути он прав. В 1991 году я трогал руками Искру-1030 с ее 512 оперативки и думал, как хорошо было бы иметь такую гору памяти (в сравнении со спектрумом). В 95 году я, с 4Мб оперативки, читал журнал мурзилку (Компьютерру, что ли), которая говорил — для запуска новой версии автокада для тестирования надо минимум 16Мб, а для простых проектов — уже 32Мб, и не представлял, как же получить эти 16Мб. В 2000 я уже доставлял вторую планку на 128Мб. Так вот мощности компов что 91, что 95, что 2000 уже вполне умещаются в кармане в виде телефона и во всяких смарт-часах. Через несколько лет удивление от увиденных 40 потоков вычислений сменится пренебрежением.arturfed
07.03.2017 21:20+1Очень сомневаюсь, что через несколько лет… Везде есть предел, когда дальше просто нерентабельно. В 90-х и 2000-х тактовая частота росла экспоненциально, и вы также полагали, что через несколько лет мы не будем удивляться 10Ггц? Но мы от них так же далеко как и 10 лет назад. Тоже самое и с ядрами. До 2009-2011 росло довольно быстро, но последние 3-4 года ничего почти не меняется (имею в виду пк). В общем вряд ли в ближайшие 5-10 лет 40 ядер станет обычным делом...
tlittle
08.03.2017 00:27-1В 2000-м я продавал компьютеры и полагал, что этот бизнес просуществует еще пару-тройку лет, после чего наступит насыщение рынка. Не наступило. 650МГц, которые у меня были на тот момент, хватало практически на любые задачи, не было потребности в 10ГГц. Сейчас потребность есть, ее решили просто — взяли 6 ядер по 3.5 ГГц — вот тебе и суммарная производительность на уровне 10ГГц на одно ядро. Да, есть физическое ограничение. Будем думать, каким грязным хаком его обойти.
Что касается «не меняется». Какой самый распространенный интерфейс для SSD был три года назад? Какой сейчас? Насколько GF 1080 мощнее и экономичнее 980? В последние пару лет активизировались технологии виртуальной реальности. С совершенствованием технологий будет возникать потребность в новых вычислительных мощностях для массового рынка как минимум для того, чтобы обеспечить такое же качество картинки, которое имеем сейчас, на оба глаза. 4 года назад я гордо сообщал, что у меня 100Мбит безлимитного интернета и первый вопрос был — а зачем тебе так много? А сейчас я думаю, не переключиться ли на более быстрый тариф. Все должно развиваться параллельно, постепенно.
В общем вряд ли в ближайшие 5-10 лет 40 ядер станет обычным делом...
10 лет — это огромный срок для наиболее востребованной отрасли человеческой жизни, коей на текущий момент (несомненно для меня) является вычислительная техника. Гадать можно сколько угодно — возьмут и реализуют обещанные оптические процессоры и будут смеяться на нашими 6-ю ядрами — ведь гораздо эффективнее одно ядро с частотой 40ГГц. Но то, что изменения будут и будут значительные — я могу гарантировать. Не верите? Давайте проверим…arturfed
08.03.2017 13:05-1Полностью оптический компьютер или квантовый у нас дома через 10 лет? Люди склонны завышать ожидания от технологического развития. Помню после просмотра фильма 5-ый элемент, я думал лет через 20-30 так и будет: машыны будут летать и т.д.
Кремниевым полупроводниковым процессорам еще есть куда развиваться. Например кеш памяти — думаю за этим следующая гонка производителей процессоров. 10-16 ядер по 4-5 Ггц с кешем 1Гб и оперотивкой 64-128 Гб ну и видюхой какой-нибудь HBM4 — таким я вижу обычненький пк через 10 лет. И этого будет достаточно. Зачем больше то? Для чего?
tlittle
08.03.2017 20:03-1Человек, ты совсем не способен читать буквы?
Гадать можно сколько угодно — возьмут и реализуют обещанные оптические процессоры
Где написано про «Полностью оптический компьютер или квантовый»? Более того, это одно из предположений. Не получится оптические — реализуют другие. «То, что изменения будут и будут значительные — я могу гарантировать». Для чего больше чем 64 Гб (это, кстати, то, над чем я думал 3 года назад — не смог установить больше 32 ввиду ограничений чипсета) — я тебя уверяю, придумают.arturfed
09.03.2017 16:33+1Тем не менее даже до электронно-оптического процессора в наших пк еще далеко. Да и не особо нужно. Так как это слишком дорого, даже для коммерческих целей. Дешевле будет перейти на производство 5нм процессоров. О начале новой эры и технологиях будущего слышу уже много лет. На хабре в заголовках каждую неделю начинается новая эра. Когда пк позволят играть с погружением в виртуальную реальность, с разрешением 4к, 100fps, с хорошей глубиной цветов и тд. — это будет предел для пк. Куда мощнее если человек не способен будет увидеть разницу? Так же как разрешение экранов подошло к пределу. Эдакая технологическая сингулярность наступит лет через 10-15.
tlittle
09.03.2017 23:48-1Человек, ты способен понимать буквы? Оптический процессор, еще какой-то новый процессор — это предположение!
Гадать можно сколько угодно
Сколько еще раз тебе повторить? Ты привязался половине предложения, забыв про его начало. Когда пк позволят игратьс разрешением 4к, тогда пойдут к 8к, к увеличению количества полигонов, к обсчету каждого листика на дереве итд. Ты думаешь что, достигли 4к ультра-супер-пупер и все, остановили разработки? Ха-х.
Никто не говорит о новой эре. Прогресс от 8080 до Katmai — это новая эра? Прогресс от Katmai до Core2duo — новая эра? От Core2duo до i7 — новая эра? Нет никакой новой эры, есть развитие. И на текущий момент я вижу, что микропроцессорная техника развивается наиболее интенсивно. 40ядер — новая эра? Тебе на видео показали, что 40 ядер — текущая реальность, о какой новой эре ты говоришь.
Посмотрим через 10 лет :)arturfed
10.03.2017 01:52-1От intel 4004 до нынешних процессоров — всё одна эра кремниевых полупроводниковых процессоров. Новая эра — это новый тип: оптический, квантовый, биологический или еще какой-нибудь.
4к потом 8к, а дальше 16к? Вы 4к шлем одевали? Возьмите телефон с разрешением 4к и попытайтесь разглядеть там пиксели. Без лупы никак. Поэтому вы не увидите разницы между 4к и 8к. Предел человеческого глаза 350-400 dpi ( точно не помню — гуглите сами). Ну и обсчитали вы каждый листочек на дереве, а дальше что? Всё! До такой графики и осталось лет 10. И с ней справятся всё теже электронные пк, и без 40 ядер.
Я говорю про рентабельность. 40 ядер, оптический или квантовый компьютер — никогда не понадобится обычному пользователю (для игр, сёрфинга, просмотра кино..) пк дома. Поэтому и производить их массого никто не будет. Кому надо тот и сейчас воткнёт себе и 80 ядер, и тонну оперативки — это и ежу понятно. Просто обычным делом — это не будет. Через 10 лет точно. Готов поспорить.
tlittle
10.03.2017 11:07У меня все хорошо со зрением. Я вижу разницу между FHD и 2k телефоном. Телефон 4к, к сожалению, в руках не держал. В VR BOX отлично вижу пиксели на телефоне 2k. Не просто вижу, а отлично вижу, с непривычки они даже раздражают. Т.е., если мы говорим о 4к на один глаз, то на два глаза надо 8. И то, на 4к/глаз, подозреваю, пиксели будут отчетливо видны. 4k шлем — это какой? Окулус я надевал, разрешением не интересовался. Пиксели видел. Далее мы берем панель с диагональю 6 метров (стена комнаты) и делаем такое разрешение, чтобы с метра изображение на стене выглядело красивым. Сколько точек надо? Вам не нужна такая игрушка? И мне не нужна, а наши дети будут убеждены, что без сменных обоев жить нельзя.
Сколько листочков обсчитывает современный движок? А тот гипотетический движок из будущего будет обсчитывать каждый листочек, учитывая не только динамическое освещение, но и силу ветра, массу листка, упругость веточки, и то, что один листочек закрывает другой.
А про «никогда» — это вы правильно заявили. Люблю такие заявления. Сразу вспоминаются «цитата» от БГ про 640к…
Новую эру предсказываете Вы. Я заявил прямо: " Через несколько лет удивление от увиденных 40 потоков вычислений сменится пренебрежением". Поищите. Все остальное с моей стороны: «Гадать можно сколько угодно». Прогресс будет и я это знаю. Не может не быть. Куда расти (хотя бы с точки зрения реалистичности компьютерных движков) точно есть.arturfed
10.03.2017 15:30VR-шлемы с системой отслеживания движений глаз. Пусть даже 8к. Все равно предел есть и он близок. Я не говорил, что рости уже совсем некуда, пока есть, но лет через 10-15 уже будет некуда. Именно в персональных компьютерах, самых обычных пользователей. Про другие ничего не говорю — там понятно всё будет развиваться. И квантовые и биологические. Для того же ИИ.
В общем до встречи через 10 лет. Покажете мне свой 6-метровый телек с разрешением 32к.
Psychopompe
07.03.2017 01:47Mad__Max
15.03.2017 01:44+1Не понял где это там видно. Но вообще 2е видео с декодированием архива из днк-кода сделано на MacBook Air с процессором 2.2GHz Intel Core i7 и 8 ГБ памяти. Заняло это 9 минут.
Кодирование (создание архива) в отличии от классических архивов наоборот быстрее чем распаковка — 2.5 минуты на том же ноутбуке.
А 40 поточная машина это сервер Amazon Cloud на котором они разные варианты кодирования тестировали, чтобы быстро сразу кучу вариантов перебрать и сравнить.
Можно такой же в аренду дистанционно всего от 0.5$/час работы взять: m4.10xlarge = 40 потоков, 160 ГБ памяти
IvUyr
06.03.2017 12:02-1Вот интересно, если взять какую-нибудь «природную» ДНК и попытаться прогнать её на распознавание, что получится… И увидим ли мы «комментарии» в коде?
Doverchiviy_kot
06.03.2017 12:28+1Индусский код там будет, да и сложно будет воспроизвести среду программирования для ДНК языка.
wtigga
06.03.2017 12:34+2Там будут те же самые ноли и единички, которые без ключа не расшифровать (даже если бы и было что).
DaylightIsBurning
06.03.2017 14:03+1Дык сделали уже — «Геном Человека». «Комментариев» не обнаружили. Тут вся проблема в «распознавании». Что распознавать? Что искать?
tormozedison
06.03.2017 21:30+1Если не увидим, это не будет означать ничего. Исполняемый код — не то место, где логично искать комментарии. За редкими исключениями вроде известного «Лёха, Лёха, ты могуч».
Wan-Derer
07.03.2017 16:12+1Наоборот. Накодить троянчик в ДНК, засунуть в клетку и поместить в питательную среду. И посмотреть что вырастет.
zedalert
06.03.2017 12:21Может мы уже все и так играем роль маленьких бекапчиков какой-то информации.
safari2012
06.03.2017 15:46В каком-то фильме про супермена в нём так закодировали жителей всей его планеты…
Vnuchok
06.03.2017 16:19ага, или ходячие флешки. А так, да, тема обширная, как для серьёзных мыслей, так и для каналов типа РенТВ или СТС
Halt
06.03.2017 12:33+5Надо поздравить хабравчан-авторов Колибри. Их операционка все-таки вошла в историю, пусть и не так, как они могли предполагать :)
tormozedison
06.03.2017 21:50Она и по-другому вошла в историю. Её железнодорожники применили для скоростной обработки видеопотока. Не помню, с какой именно целью, что-то из области дефектоскопии.
isotoxin
06.03.2017 12:37-1Какой смысл записывать KolibriOS, потом считывать ее и запускать на виртуальной машине?
Ну я еще могу понять, зачем связываться с «реальными» данными, а не нагененрить их рандомно (может так они проверяют надежность записи данных с определенной энтропией). Но запускать OS на виртуальной машине? Зачем? Это единственный способ убедиться, что прочитанные данные те же что были записаны? Какой-то дешевый пиар.prostosergik
06.03.2017 12:57+5С сравните 2 строчки, если бы вы прочитали их в новостях:
«Ученым удалось записать и прочитать в молекуле ДНК примерно 2 мб данных с точностью 99.99%»
«Ученые залили в ДНК фотку котика и игру Веселый Фермер и в нее можно играть и котика видно!»
Что лучше будет воспринято обывателем?
semen-pro
06.03.2017 12:53-1Было бы интересно использовать днк некоторого организма в качестве ключа шифрования…
DaylightIsBurning
06.03.2017 14:09+1Так используйте, в чём проблема? Геномы доступны (23214 штуки на сегодня)! Но зачем?
websurfer
06.03.2017 13:44Тогда, с помощью какого либо устройства, каждый будет сохранять в своей ДНК, свои селфи.
i_Max2
06.03.2017 14:09Интересно, а так что то кодируя в ДНК, есть какая то возможность что сгенеренный ДНК в конце вырастит в что ядовитое или зубастое и потом расплодится и убьет человечество… ну типа не получится какой то злой вирус или микроб?
Arxitektor
06.03.2017 14:12Жать что пока нельзя реализовать идею о генной памяти.
Когда у человека уже будут после рождения и по мере развития в голове появляться необходимые знания.
daiver19
06.03.2017 14:4599.9 процентов — этого явно недостаточно. Интересно, какой алгоритм коррекции ошибок они использовали (если использовали) и каков характер ошибок (если выпадает целый монолитный кусок данных, например, то это уже проблема).
DaylightIsBurning
06.03.2017 15:49если выпадает целый монолитный кусок данных, например, то это уже проблема
почему же? Достаточно коды коррекции равномерно по всему геному размазать, типа как RAID5 работает.daiver19
06.03.2017 15:51+1Ну я ж не говорю «нерешаемая проблема» :) Просто интересно, что они делали и что еще предстоит сделать для получения достаточной надежности.
Delics
06.03.2017 18:12Этого более чем достаточно.
Алгоритмы коррекции ошибок могут успешно работать в гораздо более худших условиях.daiver19
06.03.2017 18:15+1Ну так вопрос как раз в том, использовали ли они коррекцию ошибок. Т.е. если они использовали какой-либо алгоритм и в итоге всё равно получили 99.9 процентов либо 99.9 — это просто надежность чтения. После перечитывания мне показалось, что коррекцию не использовали, но кто знает.
Mad__Max
15.03.2017 01:04+2Там же написано, что для кодирования информации использовали фонтанные коды
Это не система коррекции ошибок, а кодирования, позволяющая считывать данные в произвольном порядке мелкими кусками. Но за счет избыточности (примерно 10% — 1.6 бит полезной информации на 1.8 бит «сырых» данных) количество ошибок снижается где-то на порядок.
«Аппаратный» уровень ошибок(непосредственно чтения) проскакивает на видео и есть в оригинальной статье — около 1-3% нуклеотидных последовательностей прочитано с ошибками и забракованы.
Но помимо этого у них и система коррекции ошибок была — по 2 байта (16 бит) избыточной информации на каждый пакет из 32 байт полезных данных (Код Рида-Соломона). За счет них все файлы были восстановлены со 100% точностью, несмотря на аппаратный уровень ошибок в несколько %.
Agilent Technologies in Santa Clara, California, synthesized the strings and shipped them back to the researchers, who were able to reconstruct all of the files with 100% accuracy.
In practice, decoding took ~9 min with a Python script on a single CPU of a standard laptop (movie S1). The decoder recovered the information with 100% accuracy after observing only 69,870 oligos out of the 72,000 in our library (fig. S10). To further test the robustness of our strategy, we down-sampled the raw Illumina data to 750,000 reads, equivalent to one tile of an Illumina MiSeq flow cell. This procedure resulted in 1.3% oligo dropout from the library. Despite these limitations, the decoder was able to perfectly recover the original 2.1 Mbytes in 20 of 20 random down-sampling experiments. These results indicate that beyond its high information density, DNA Fountain also reduces the amount of sequencing required for data retrieval, which is beneficial when storing large-scale information.
Откуда журналисты взяли 99.9% не понятно. Наверно как обычно бредят.daiver19
15.03.2017 01:13+1Спасибо за пояснение. Безусловно, я мог найти эту информацию самостоятельно, но как-то хотелось её увидеть в статье)
Falstaff
06.03.2017 15:19+1Вот здесь я просто не могу не процитировать Уоттса, меня подмывает. :)
Nowadays it seemed like half the technical data on the planet were being stored genetically. Try sequencing a lung fluke and it was even money whether the base pairs you read would code for protein or the technical specs on the Denver sewer system.
saboteur_kiev
06.03.2017 17:15+1А что по поводу
размагничиванияхранения данных в ДНК? Через 10 лет прочитается?IgeNiaI
06.03.2017 18:01-1По мнению исследователей, ДНК – идеальная среда для хранения, поскольку она ультра-компактная и может сохранять свои свойства сотни тысяч лет, если обеспечить соответствующие условия хранения. Об этом свидетельствует недавнее восстановление ДНК из костей 43-тысячелетнего предка человека, найденного в пещерах Испании.
saboteur_kiev
06.03.2017 19:14+1Как я понял, восстановили многократно повторяющуюся цепочку, а не уникальный контент, сохраненный в множестве цепочек...?
Вообще, белки же разлагаются со временем?Mad__Max
15.03.2017 01:12+1Многократно повторяющуюся это потому что перед чтением ее размножают. (ПЦР реакция)
А так изначально была только одна копия, которую синтезировали по сгенерированной цифровой последовательности и передали на обратную расшифровку. Точнее в образце было 72 тыс. коротких кусочков ДНК по 200 пар оснований в каждом, при минимально необходимом количестве для хранения такого объема информации около 50 тыс. подобных кусочков.
ClearAirTurbulence
06.03.2017 22:23-1если обеспечить соответствующие условия хранения. Об этом свидетельствует недавнее восстановление ДНК из костей 43-тысячелетнего предка человека, найденного в пещерах Испании.
Idot
06.03.2017 18:15Если эта опасная технология станет дешёвой и распространиться, то любой желающий террорист сможет записать код вируса. А вирусу для заражения достаточно одной лишь ДНК.
kamaikin
06.03.2017 18:22+1Для этого, нужно долго учиться… любому желающему террористу бомбу сделать проще… или готовыми вирусами воспользоваться.
MTyrz
06.03.2017 23:14+1Собственно говоря, за исключением ретровирусов, вирусу для заражения не нужно ни одной ДНК.
MTyrz
07.03.2017 18:05+1По просьбе уважаемого Idot публикую наш диалог в личке.
@Idot: А что мешает при общедоступности технологии напечатать «ретровирус»?
Я: Да и обычный РНК-вирус вроде ничто не мешает.
За исключением порога входа в профессию, конечно. Я не то, чтобы спорил с вашим утверждением: оно мне не очень нравится, как идея — но пока аргументов против у меня не набирается. Я скорее поправлял фактологию.
Idot: А зачем «вход в профессию»?
Что воспользоваться пишущим DVD не нужно быть ни программистом, ни сисадмином, ни электронщиком. Необходимо и достаточно где-нибудь скачать вирус и отправить на запись.
Я: Кажется, один аргумент у меня нашелся. Нынешняя ситуация вполне позволяет примерно каждому получить и применить довольно много весьма неприятных химических веществ. Лично я в школьные годы из интереса синтезировал иприт (и потом долго думал, как его надежно и безопасно разложить — придумал таки). Тем не менее, никакого массового применения ХО мы не наблюдаем. Чуть ли не единственный случай у меня на памяти — это теракт в токийском метро.
Биологическое оружие, как показала практика, в частности японская во Второй Мировой, менее эффективно, и плюс к тому гораздо сложнее в обращении. Выше шанс поражения самого террориста, и много тяжелее добиться эффективного распространения. Вирусы вообще нужно приводить в довольно определенное состояние, свое для каждой категории, чтобы они смогли кого-то заразить, а не сгинули бесследно и бесполезно.
Idot: Дело не в эффективности, дело в доступности. Если из-за распространения такой технологии синтезировать вирус станет проще, чем достать компоненты для пояса шахида…
allcreater
07.03.2017 13:00+1Вирусу (как минимум, подавляющему их большинству) кроме ДНК/РНК нужна ещё и белковая оболочка — капсид. Без капсида вероятность попадания ДНК в клетку минимальная. Но да, эта проблема решаема: никто не мешает синтезировать белки по уже существующей ДНК.
К тому же, доступность технологии, скорее всего, будет взаимозависима со сложностью откатить изменения. Легко создать вирус, но и антивирусный препарат (вектор, выпиливающий вирусный код из клеток, или натренированные имунные клетки) тоже будет, скорее всего доступен.
Mad__Max
15.03.2017 02:04+1Рабочий вирус (имеется ввиду биологический, а не компьютерный в виде простого файла) по этой технологии в принципе не создать.
Тут информация хранится в виде коротких огрызков ДНК по несколько сотен пар оснований, а не в виде целой ДНК. Такого количества даже один приличный белок закодировать не хватит, не говоря уже о целом организме.
Простейший вирусы используют хотя бы несколько десятков белков и имеют генетический код в десятки тысяч пар оснований.
И для хранения информации сильно наращивать длину одиночного куска не имеет смысла — это обходится дороже (синтез сложнее) и увеличивается вероятность ошибок.
alhel
06.03.2017 20:36Наверно данные, записанные таким способом очень удобно потом копировать, поместить в бактерию, она все размножит. А копирайтеры будущего будут писать вирусы, которые ищут не лицензионные данные и удаляют их.
Mad__Max
15.03.2017 01:58+1Для копирования ДНК цепочек давно изобрели ПЦР
И в этой работе они ее испытали — информация нормально считывается и после многократного копирования при помощи ПЦР.
Это страшный сон копирастов, у них нулей на калькуляторе не хватит считать «упущенную выгоду»:
Intotal the nine step amplication process has the potential to create 300 * 25^9 *2 = 2.28 quadrillion copies.
kromobis
06.03.2017 20:36+1Интересно, какая скорость считывания/записи?
SvSh123
07.03.2017 11:10+1Скорость секвенирования ДНК. Медленно, короче говоря.
Нужно, наверное, привинтить какой-то интерфейс к рибосомам. :) Без средств быстрого чтения эта технология вряд ли выйдет за пределы лабораторий.
Но звучит многообещающе.DaylightIsBurning
08.03.2017 00:53+1так рибосома тоже не ахти какая быстрая…
SvSh123
09.03.2017 09:08Рибосома занимается сборкой молекулы. Если похожая штуковина будет просто преобразовывать считанный код в электрический сигнал, дело пойдет намного быстрей.
DaylightIsBurning
09.03.2017 11:47+1Рибосома занимается синтезом белков — трансляцией. И скорость такого синтеза весьма невысокая, максимум пару десятков аминокислот в секунду. То есть синтез даже небольшого белка занимает минимум несколько секунд. Это примерно 20*5 бит/с — очень медленно. И этот процесс тоже происходит с ошибками.
SvSh123
09.03.2017 14:33+1Ну, там на «пропускную способность» влияет то, насколько быстро подцепится т-РНК с нужной аминокислотой.
shadrap
06.03.2017 20:36А что-то я упустил, каким образом авторы пакуют 1.6 бит на нуклеотид? Это алгоритмовая упаковка нового фонтана...?
Mad__Max
15.03.2017 02:06+1На пару нуклеотидов, которая в теории может хранить 2 бита информации (т.к. может принимать 4 разных варианта состояний).
На практике получили почти 1.6 бита на пару из 2 бит теоретического предела.shadrap
15.03.2017 12:02Да, спасибо, это я не внимательно спутал входной поток информации и выносимый алгоритмом. Вначале показалось, как здорово они ужали фонтанный алгоритм, что на него 0.2бита приходится..., потом я понял, что речь об общем потоке.
Equin0x
07.03.2017 05:04Скоро ГМО продукты будут снабжаться встроенными в ДНК рекламными роликами биотех компаний.
Mitch
09.03.2017 00:14-1Вспомнился старый рассказ, кажется Курта Воннегута.
Там двое ученых (М и Ж) живущие в разных, сильно конфликтующих между собой странах, каждый в своей сверхсекретной лаборатории без доступа к сети переписывались кодируя сообщения в мусорную часть днк гриппа и ожидая пока штамм с сообщением дойдет до другой страны.
Потом они решили завести ребенка и М закинул в вируса код своей днк в качестве сообщения.
Find_the_truth
Берем ДНК человека, переводим в цифру и загружаем в ПеКу => Хаттабыч во плоти.
Find_the_truth
}{отт@бь)ч В оригинале было так.
safari2012
В такую ПЕККУ?
http://ru.clashofclans.wikia.com/wiki/%D0%9F.%D0%95.%D0%9A.%D0%9A.%D0%90