Секвенирование ДНК в последние десятилетия превратилось из узкой области, которой занималось небольшое число ученых, в одну из самых стремительно развивающихся технологий. Рост производительности и падение стоимости даже опережают закон Мура, и, из-за большой конкуренции на рынке и огромного спроса, развитие и дальше будет идти высокими темпами. Кроме того, развитие секвенирования привело к такому же буму в биоинформатике и коренным образом изменило биологию, и, постепенно, также основательно меняет медицину.



По катом я подробнее рассказываю, как это делают.

Что такое ДНК
Для начала, чтобы понимать сам процесс, немного необходимой теории.
ДНК — это полимерная цепь, состоящая из мономеров четырех типов, называемых нуклеотидами, последовательность которых и кодирует информацию об организме. Иначе говоря, ДНК можно представить как текст, написанный четырехбуквенным алфавитом. ДНК — молекула, состоящая из двух цепочек, и, хотя, последовательность нуклеотидов у них разная, последовательность одной цепочки можно однозначно восстановить, если известна последовательность другой. Поэтому цепочки называют комплементарными. (англ. Complement – дополнение) Это свойство используется при копировании клетки, когда цепочки ДНК расплетаются, и, на каждой, как на матрице, синтезируется вторая, и каждая из двух дочерних клеток получает свою двуцепочечную ДНК. Вся последовательность ДНК организма называется геномом. Например, геном человека состоит из 46 хромосом.

Несмотря на большое количество разнообразных, как экспериментальных, так и устаревших методов, мейнстримовые коммерческие методы довольно похожи, и, чтобы не делать оговорки каждый раз, сразу скажу, что речь дальше будет идти именно об этих мейнстримовых методах.

Как это выглядит в общем
Перед описанием технологии секвенирования, для интуитивного понимания, проведу следующую аналогию: стопку одинаковых газет взрывают так, что они разлетаются на небольшие кусочки с отрывками текста, а, затем, каждый из этих кусочков читают и, из этих прочтений восстанавливают текст первоначальной газеты.

Чтобы секвенировать ДНК, сначала ее выделяют из исследуемого образца, затем режут на небольшие фрагменты случайным образом, фрагменты называются ридами. От каждого рида оставляют по одной цепочке, и на этой цепочке, как на матрице, синтезируют вторую, причем, тип каждого следующего присоединяющегося нуклеотида как-то детектируют. Таким образом, записывая последовательность присоединившихся нуклеотидов, восстанавливают их последовательность в каждом риде. Затем, из последовательностей ридов с помощью компьютерных программ реконструируют геном.

Важный момент. Суммарная длина ридов должна многократно превышать длину исследуемой ДНК. Делается это потому, что, когда ДНК выделяют из образца, и когда ее режут, часть ее теряется, так что никто не гарантирует, что каждый ее участок попадет хотя бы в один рид. Поэтому, чтобы каждый участок гарантированно был бы прочтен, ДНК берут с большим запасом. Кроме того, при секвенировании возможны ошибки, и, чтобы более надежно прочитать ДНК, каждый ее участок следует прочитать несколько раз.


ДНК разрезают на риды, которые читают, и из них восстанавливают первоначальную последовательность

Такая методика используется не от хорошей жизни. Она добавляет множество трудностей, и, если бы исследователи могли взять и прочитать за раз целую последовательность генома, то они были бы счастливы, однако, это на данный момент невозможно.
У этого есть 2 причины. Первая — это ошибки, происходящие при чтении каждого нуклеотида. Они постепенно накапливаются, и, каждый следующий нуклеотид читается хуже предыдущего, и, в какой-то момент качество чтения настолько снижается, что дальше продолжать процесс бессмысленно. У разных методов секвенирования длина рида, которы они могут хорошо прочитать, составляет порядка десятков или сотен нуклеотидов. Вторая заключается в том, что ДНК — это очень длинная молекула, и, при скрупулезном чтении каждой буквы друг за дружкой, секвенирование заняло бы неприлично много времени, а в данном случае этот процесс легко распараллеливается, и можно одновременно читать миллионы и миллиарды ридов.



Illumina
Такая схема в общих чертах описывает все популярные методики секвенирования. Различаются они лишь методами детекции присоединившихся нуклеотидов при синтезе, и методикой подготовки материала.

На сегодняшний день самым распространенным является метод, который используется в секвенаторах компании Illumina. В этом методе сначала множество различных ридов прикрепляется к стеклянной пластине. Затем, с каждого рида делают множество копий на поверхности пластины так, чтобы на каждом ее небольшом участке располагались лишь одинаковые копии. Это делается для того, чтобы при последующем секвенировании получать сигнал не от одиночной молекулы, а от группы одинаковых молекул, располагающихся рядом. Так и сигнал легче считывать, и надежность считывания увеличивается. Эти молекулы являются одноцепочечными ДНК, и на них в процессе секвенирования синтезируются комплементарные цепи. Реакцию синтеза проводят следующим образом: К началу каждой молекулы присоединяется по одному нуклеотиду. Этот нуклеотид химически блокирован так, что после его присоединения синтез дальше не идет. Кроме того, к нему присоединена метка, которая под действием лазера люминесцирует. Причем, для каждого типа нуклеотидов цвет люминесценции разный. После присоединения нуклеотида пластину освещают лазером и фотокамера фиксирует цвета, которыми люминесцирует пластина. После этого блокировку снимают, метку также снимают, и присоединяют таким же образом следующий нуклеотид. Последовательность световых сигналов на каждом участке пластины в компьютере переводится в последовательность нуклеотидов, и, на выходе получается файл, содержащий последовательности ридов.


Секвенирование по методу Illumina
1 — геномная ДНК 2 — разрезается на риды 3 — к ридам прикрепляются адаптеры, с помощью которых они приклеиваются на 4 — пластину 5 — размножение ридов на пластине 6 — засовывам в секвенатор и 7 — секвенируем


Сборка и аннотирование генома
Если геномы близких организмов раньше не секвенировались, то из ридов, затем, с помощью программ, пытаются собрать единую последовательность нуклеотидов. Риды частично перекрываются, и, с помощью этих перекрытий пытаются выстроить единую последовательность. Здесь есть множество моментов, которые существенно осложняют дело. Например, можно загрязнить образец, и программа будет пытаться выстроить одну последовательность из ДНК разных организмов. Секвенатор может ошибиться при чтении рида, или неверно связать два места в геноме, потому что они очень похожи. На самом деле, сложностей так много, что всех тут не перечислишь. И, некоторые из них настолько сложно поддаются устранению, что, даже геном человека, самый важный и широко исследуемый геном, все еще не секвенирован до конца.


риды и внизу последовательность генома, которая реконструирована на их основе

Когда последовательность генома собрана, то нужно понять, что она значит. На ней находят участки, которые похожи на гены. Делается это следующим образом: В начале и конце генов находятся определенные «метки» из нуклеотидов, и, если на ДНК находят такие последовательности на таком растоянии, что между ними может уместиться ген, то такое место заносится в список потенциальных генов. Затем, этого претендента сравнивают с базой данных уже известных генов других организмов, и, если в ней находят ген, достаточно сильно похожий на этот участок, то ему присваивают функцию этого гена.

Если геном другого организма этого вида уже секвенировался, то его используют, для сборки. Так как геномы разных организмов одного вида различаются лишь незначительно, то для каждого рида находят место на секвенированном геноме, к которому он ближе всего, и на основе этого генома собирают новый.

P.S. На самом деле, компьютерная часть весьма сложна и интересна, но я писал именно обзор на пальцах для всех, и не хотел пихать сюда алгоритмы. На мое удивление, на хабре и гиктаймс материалов по этой теме очень мало, и, если тема вызовет интерес, напишу продолжение, в котором конкретнее напишу про сборку генома.

Комментарии (33)


  1. edvorg
    26.10.2015 00:29
    +7

    Очень интересное начало, хочется больше технических деталей


    1. baceolus
      26.10.2015 00:52

      про лабораторную часть, или компьютерную(сборка и аннотирование)?


      1. edvorg
        26.10.2015 01:12
        +2

        компьютерную :)


        1. baceolus
          26.10.2015 01:28
          +1

          будет сделано


          1. krox
            26.10.2015 05:54
            +10

            Да и про лабораторную хотелось бы почитать.


            1. baceolus
              26.10.2015 21:15

              фух, подождите. Сделаю, но не обещаю, что скоро


  1. doom369
    26.10.2015 02:33
    +1

    Подпишусь, очень интересно. Больше инфы =)!


  1. tushev
    26.10.2015 13:15
    +1

    А меня очень поразило, когда я узнал что длинна человеческой ДНК всего 3,1 млрд пар оснований, причем часть ДНК-кода вообще не рабочая (обломки вирусов и прочий мусор). Получается что объем кода некоторых операционных систем больше чем объем кода человека.


    1. begin_end
      26.10.2015 16:17
      +5

      Впрочем, что забавно, у некоторых операционных систем те же проблемы с мусором и обломками, если не вирусов, то забытого и не рабочего старого кода.


    1. urticazoku
      26.10.2015 18:25

      Вирусы могут быть и полезны: (раздел про плаценту). Меня больше горизонтальный перенос генов поразил и мобильные генетические элементы.


    1. mtivkov
      28.10.2015 14:22
      +1

      Есть еще эпигенетика.


    1. kochetkov_ii
      30.10.2015 22:14

      Где-то встречал, что ДНК — это на самом деле больше «железо», а не «операционка», а «операционка» — это окружающая ДНК среда.


  1. qbertych
    26.10.2015 15:42
    +1

    ошибки, происходящие при чтении каждого нуклеотида. Они постепенно накапливаются, и, каждый следующий нуклеотид читается хуже предыдущего, и, в какой-то момент качество чтения настолько снижается, что дальше продолжать процесс бессмысленно
    А в чем именно причина? Это тупо вероятностное присоединение не того нуклеотида, после чего начинается бардак?


    1. baceolus
      26.10.2015 19:59

      молекулы уничтожаютя под действием лазера, в какой-то цикл секвенирования молекула может не присоединить новый нулеотид, и начнет отставать от других на один цикл. Плюс, в ходе реакции меняются физико-химические свойства среды, что ухудшает дальнейшую реакцию. Честно говоря, не изучал этот вопрос отдельно, и не могу сказать, какой фактор тут лидирует, но что-то из этого.


      1. qbertych
        27.10.2015 11:08

        А сколько примерно времени занимает секвенирование и последующая обработка данных с ридов?


        1. baceolus
          27.10.2015 19:33

          от одного дня до пары недель. В зависимости от того, сколько ДНК, какой аппарат и каковы вычислительные мощности


  1. FokkerFace
    26.10.2015 16:09

    Я правильно понимаю что на последней картинке молекула номер 3864 определена с вероятностью 50%? Насколько это близко к реальности, т.е. как часто при анализе ДНК результаты будут включать и настолько недостоверные участки?


    1. Sioln
      26.10.2015 17:31

      Вот тут процесс описан подробнее и с множеством картинок и пояснений.
      www.bioinfor.com/zoom/support/tutorials.html

      Например, становится понятно, почему некоторые буквы красные.


  1. soniq
    26.10.2015 22:55
    +1

    Хм, понял что ничего не знаю.

    Вроде с одной стороны, цепочка ДНК одна для конкретного организма, но их в нем много одинаковых копий. С другой стороны, гены, хромосомы, РНК еще там как-то приобщена.

    Может кто-то описать, как эти сущности связаны и что (в общих чертах) делают?


    1. sielover
      26.10.2015 23:35

      Если уж совсем просто
      Ген ? участок ДНК, в котором закодирован один белок.
      Хромосома ? одиночная молекула ДНК, которая свернута в структуру определенной формы.
      С РНК сложнее, так как их несколько типов (мРНК, тРНК и др.).


      1. FokkerFace
        26.10.2015 23:53

        Вот я не биохимик и мне это совсем непросто :)


        1. sielover
          27.10.2015 00:14

          Ну я тоже не биохимик (хотя в универе имел полсеместра молекулярной биологии и 1 семестр биоинформатики), просто немного интересующийся.

          ДНК = полимерная цепочка из нуклеотидов (…TAGATCATATCTCAG…). Всего этих нуклеотидов в цепочке много, десятки и даже сотни миллионов. И вот 2 такие цепочки свернуты в двойную спираль, которая упакована в цельную структуру, которую и назвали хромосомой.
          В ДНК последовательностью нуклеотидов кватернарным кодом (т.к. нуклеотидов 4) закодированы все белки организма. Отдельный кусок, соответствующий одному белку, назвали геном


          1. FokkerFace
            27.10.2015 01:34

            Так намного доходчивей! Спасибо.


      1. soniq
        27.10.2015 02:09

        Просто нас в школе учили, что одной молекулы ДНК достаточно для создания всего организма. Теперь вы говорите, что ген — это участок последовательности, кодирующий отдельную функцию. Хорошо.

        Но что тогда такое хромосома. Ну, в смысле, понятно что капсула с полимером, но зачем их 23 разных пары, если достаточно одной молекулы этого полимера?


        1. sielover
          27.10.2015 02:24

          Ну всё-таки одной молекулы ДНК недостаточно, нужна целая клетка. А уж в ядре клетки содержится полный хромосомный набор (те самые 23 пары). А вот почему хромосом у человека именно 46 — уже за пределами моей компетенции в этой сфере.


          1. soniq
            27.10.2015 03:00

            Думаю, что никто пока точно не знает, зачем их именно 23, а не 22 или не 169, например.

            Но тогда получается, что то, что сейчас называют «секвенирование генома» — это попытка восстановить те 23 последовательности из хромосом зародыша, которые через много десятилетий выделились в виде непонятных обрывков в слюну взрослого человека? Чудесненько.


  1. catharsis
    27.10.2015 17:02
    +1

    Применяется ли в этом процессе ПЦР?
    Для чего массово применяется секвенирование?
    Правда ли, что сейчас секвенатор есть чуть ли не в каждой поликлинике?


    1. baceolus
      27.10.2015 19:32
      +2

      1 — ПЦР применяют для первоначального накопления ДНК (еще не порезанной на риды) а также хитрую разновидность ПЦР(мостиковую ПЦР) применяют во время размножения молекул на пластине

      2 — только после вашего вопроса понял, что об этом стоило написать в статье. Я буду писать продолжение, и там это распишу. На самом деле, круг задач такой большой, что можно книгу написать только для ответа на вопрос «а для чего это?» Биологам — анализ видового состава микробных сообществ, для реконструкции хода эволюции для поиска генов мишеней для лекарств у паразитов, для анализа генетической изменчивости у популяций и видов, для понимания «а что этот организм умеет» или «а какой ген за это отвечает?» и многое многое другое. Медикам — анализ геномов раковых клеток, диагностика генетических заболеваней (в том числе и у эмбрионов), анализ микрофлоры кишечника, изучают ДНК вирусов и бактерий в крови пациента, чтобы унать, чем он болен, активность генов у разных людей и в разных тканях(это секвенирование РНК, но оно делается так же) и еще много много другого

      3 — пока что нет. Все-таки секвенирование это не дешево. Плюс, нужен квалифицированный биоинформатик (много подводных камней и тонкостей), многие задачи проще решаются за счет копеечной ПЦР, плюс, мало методик извлечения информации из геномных данных. Но, вы видели, как падает стоимость секвенирования? Также быстро растет распространенность и появляются методики. Но, думаю, в каждой крупной больнице должен стоять


  1. NetBUG
    28.10.2015 20:45
    +1

    У меня есть идеологический вопрос про исходный материал.
    Зачастую им выступает слюна человека.
    Насколько я знаю, во рту живёт множество бактерий. Каким образом гарантируется, что на выходе будет моя ДНК, а не борщ из моей и какого-нибудь стафилококка, живущего во рту?
    Для крови и других биоматериалов же точность выше получаться должна. Или я где-то неправ?


    1. baceolus
      28.10.2015 22:32

      Честно говоря, конкретно этим я не занимался. Возможно, образцы очищают на этапе подготовки к секвенированию, но, вообще, последовательность человеческого генома хорошо известна, и «слюнные» риды лишь размещают на уже «эталонном» геноме человека, и, для анализа используют лишь те, которые более-менее оттуда. Те, что совсем из другой оперы, отбраковывают. На самом деле, я раскрою тему в следующей статье про компьютерную часть этого процесса


      1. Yuuri
        30.10.2015 19:49

        Извините, слегка промахнулся ответом :)


    1. Yuuri
      30.10.2015 19:59
      +1

      Всё почти как сказал baceolus. Когда в каком-нибудь 23andme анализируют образец вашей слюны, они занимаются строго говоря не полноценным секвенированием (что долго и дорого, даже при идеально чистом образце, даже сейчас), а поиском уникального для вас набора полиморфизмов (то есть, отличий в нуклеотидных последовательностях) на известном наборе фрагментов в их большой БД, что гораздо проще и дешевле, и более чем достаточно для обычных задач генотипирования вроде установления родства или определения склонности к болезням.


  1. catharsis
    29.10.2015 00:07

    geektimes.ru/post/48533
    Статья о ПЦР и генной инженерии.