В новый выпуск подкаста «Сушите вёсла» зашёл руководитель научной группы Института биоинформатики Юрий Барбитов. Обсудили профессию биоинформатика и всё вокруг неё: чем похожа на Data Science, почему полезна для человечества и как продвигает науку.

«Сушите вёсла» — подкаст про разработку, аналитику, тестирование и всё, что связано с созданием IT-продуктов. Его ведут разработчики red_mad_robot Артём Кулаков и Рома Чорыев. В эпизоде #16 обсудили, что происходит, когда информатика пересекается с биологией, и Юрий Барбитов попробовал объяснить нам простыми словами про геном, секвенирование и «мокрых биологов».

Ниже подкаст и ответы на несколько горячих вопросов про биоинформатику.

Тайминг

  • 1:50 — как попасть в биоинформатику;

  • 4:30 — что такое биоинформатика;

  • 10:20 — чем похожа на data science;

  • 17:02 — секвенатор и секвенирование;

  • 23:35 — как развивается биоинформатика и почему она важна;

  • 29:30 — риски в работе с данными и в лабораториях;

  • 35:17 — стоимость биоинформатических исследований;

  • 40.00 — про платформы Folding at Home, World Community Grid;

  • 50:25 — проблема с массивами данных в биоинформатике;

  • 55:15 — в каком состоянии находится биоинформатический софт;

  • 1:00:50 — где хранятся данные;

  • 1:05:09 — проблемы с хранилищами данных;

  • 1:15:00 — как обучиться на биоинформатика.

Что такое биоинформатика

Юрий считает, что у каждого специалиста своё представление о том, что это за область науки. Но герою выпуска ближе такое определение — биоинформатики придумывают, как обрабатывать большие массивы биологических данных, чтобы получить из них конкретные научные результаты.

Эта дисциплина немного похожа на эксперименты в биологии, когда учёный в лаборатории проводит опыты, занимается исследованиями и получает результаты. По словам Юрия, его коллеги называют это «мокрой биологией». 

«Мокрый биолог» делает в лаборатории разные манипуляции с живыми клетками, потом куда-то их засевает, пересевает, смешивает растворы. Человек, который занимается биоинформатикой, — dry biologist («сухой биолог»). Он, как и все программисты, выполняет рутинные задачи — пишет программы, скрипты, а потом их запускает. Отличие в том, что работа биоинформатика похожа на работу дата-сайентиста. Нужно не только написать, как обработать входные данные, и получить из них что-то. Ещё надо придумать, как всё это дело применить и как интерпретировать полученные результаты.

С какими данными работает биоинформатик

Впервые биоинформатику применили, когда люди начали заниматься геномом — это набор молекул ДНК с наследственной информацией. Геном есть у всех живых существ — от бактерий до людей. Если прочитать его и узнать всё про наследственную информацию, человечество научится исправлять наследственные ошибки, подбирать новые методы терапии и т.д.

Проблема в том, что наследственная информация очень большая — это очень длинный текст. Геном человека состоит из трёх миллиардов символов. Чтобы с ним правильно работать, его нужно для начала расшифровать.

Юрий Барбитов

руководитель научной группы Института биоинформатики

Представьте, что у вас была пачка газет и её сначала взорвали, а потом нужно попытаться этот «пазл» составить обратно, собрать исходную газетную страницу из разорванных кусочков. Примерно так работает прочитывание генетических текстов.

В основе расшифровки генома — метод секвенирования. Это прочитывание, восстановление последовательности. Биолог берёт длинную цепочку символов генома и «разрезает» на небольшие кусочки. Затем использует секвенаторы (молекулярно-биологические приборы) — они помогают реконструировать последовательность символов в каждом кусочке. Секвенатор выдаёт набор прочитанных последовательностей — они и станут исходными данными для биоинформатики.

Артём Кулаков

архитектор специальных проектов red_mad_robot

Если совсем на мой рабоче-крестьянский уровень опуститься, секвенатор — это такой специальный биологический компьютер. Мы в него что-то капаем, а он нам на экране буковки показывает.

Кто попадает в биоинформатику — биологи или айтишники

Это наука на стыке двух областей — биологии и информатики. Поэтому в неё приходят программисты и биологи. Наш гость пришёл со стороны биологии. Поступил в СПбГУ на биофак, работал на кафедре, специализировался на генетике. Параллельно слушал онлайн-курсы по программированию, а потом узнал про биоинформатику.

В какой-то момент коллеги сказали: «Раз тебе это так интересно, то лучше просто получить дополнительное образование по биоинформатике». Так я и попал в Институт биоинформатики.

Почему недостаточно описательной биологии и где искать лекарство от рака

По словам Юрия, биоинформатика развивается очень активно, потому что для биологии и медицины уже недостаточно описательных исследований. Нужно проанализировать всё то, что человечество открыло за это время.

Практически всё, что можно было описать, уже описано. В последние 50 лет биология перешла на уровень, когда нужно не просто описать, как выглядит зверушка, где она обитает и что делает. Биология хочет знать, как это всё работает. Она пытается понять, как устроены живые организмы.

Чтобы сделать ядерный реактор или ядерную бомбу, нужно было для начала подвести всю теорию — узнать, как устроены атомы, что такое распад и т. д. То же самое нужно проделать, чтобы вылечить человека, например, от рака и от большого количества других болезней. Необходимо понять, как устроен мир вокруг нас, как работают живые организмы, какие «крутилки» нужно «крутить», чтобы получить требуемый результат.

Исследования в биоинформатики — это дорого?

Необязательно. Прочитать геном одного человека стоит около тысячи долларов. Современные приборы позволяют читать геномы нескольких десятков человек. Но биоинформатика — это довольно хрупкая наука. Если «мокрый биолог» допустил ошибку в лаборатории или реагент изначально оказался некачественным, всё исследование нужно будет проводить заново. Из-за этого увеличится и бюджет, конечно же.

Многие исследования времязатратные. Ты долго-долго растил какую-то культуру раковых клеток и что-то с ними хотел сделать. А потом кто-нибудь пришел и не вытер ноги при входе в лабораторию или не надел халат правильно. Что-то попало в твою культуру, и всё сдохло.

О проблемах в профессии

#1 — колоссальные объёмы данных. Один прочитанный геном человека — это 100 гигабайт данных. Представьте, что вам нужно секвенировать сотни геномов.

В Великобритании люди пытаются отсеквенировать геномы всех новорожденных в течение кучи лет. Понятно, что это уже миллионы отдельных образцов, миллионы прочитанных геномов. И каждый, соответственно, по 100 гигабайт сырых данных. Это начинает уходить в космос по части объёма информации.

Данных уже так много, а найти эффективный метод для проверки гипотезы очень сложно. Учёные работали по-разному, получили разные результаты — и вся эта информация лежит в разных местах. Ну и как итог — собрать её из разных работ от разных людей очень непросто. Это может быть очень затратно и по времени, и по финансам.

#2 биоинформатический софт. Некоторые часто используемые программы активно разрабатывают и улучшают, но они заточены под стандартные задачи.

С таким программами можно работать. Но если задача хотя бы чуть-чуть является нестандартной и люди пишут какие-то новые инструменты, разрабатывают новые алгоритмы для решения какой-то менее популярной задачи, получается софт в ужасном состоянии.

Например, вижу статью про «десять биоинформатических инструментов», которые помогают решить конкретную какую-то задачу. Наверное, восемь из десяти программ уже не работают. Потому что человек удалил свой репозиторий на GitHub или вообще залил софт на какой-то, прости господи, SourceForge, где он и погиб. Так что либо софта вообще нет, либо его невозможно скомпилировать без длительного и больного исправления всех багов, которые автор туда внёс.

Как обучиться на биоинформатика и где искать работу

Юрий подробно рассказал, чему обучаться, чтобы попасть в биоинформатику. Послушайте, начиная с 1:15:00. Если вкратце — обучение недорогое, но долгое. Предложений на рынке мало, но на крутых спецов спрос всегда есть. Нужно самому искать проекты и задачи, предлагать помощь и обрастать контактами.

Если прямо фокусироваться на том, чтобы войти в область полноценно и с перспективой, обучение потребует больших временных инвестиций. Но это вполне может стать парт-тайм работой на 20 часов в неделю минимум.

Полезные материалы

Предыдущий выпуск подкаста «Сушите вёсла»

Flipper Zero: как создать «пацанский мультитул» для гиков.


Слушайте нас там, где удобно — SoundCloud, Apple, Google Podcasts, Яндекс.Музыка.

Заходите обсудить выпуск в Telegram-чат.

Комментарии (6)


  1. mindcaster
    04.08.2021 11:07

    Опять redmadrobot издевается над главной титаническими картинками :(


    1. redmadrobot Автор
      04.08.2021 11:35
      +1

      Не хотели мучать, но рука дрогнула при загрузке. Поправили.


  1. phanerozoi_evidence
    04.08.2021 11:34

    В принципе не обязательно быть биоинформатиком, чтобы заниматься биоинформатикой. Обычный не молекулярный биолог по классике работающий с морфологией вступает в область генетики, молекулярной биологии и биоинформатики, когда необходимо построить дерево. Он выбирает праймеры, разбирается в амплификации, ставит форез для контрольной проверки и отправляет на сиквенс, а дальше по обыкновению работает за "секвинатором" в роли, которого выступает обычный пк с программами (вектор, мега, маффт и пр.) и с генбанком.


    1. Fi5t
      04.08.2021 11:36

      Все так. Я как раз попытался поднять эту тему в выпуске, что дескать есть биолог, у него есть компьютер, биолог изучает какие-нибудь азы питона и все. Зачем под это целое название придумали? Но Юра все объяснил.


      1. phanerozoi_evidence
        04.08.2021 12:04
        +1

        Потому что биолог в этом плане потребитель, т.е я только занимаюсь биоинформатикой на всем готовом, а ведь биоинформатика она огромна и прекрасна, она включает в себя не только знания пользования конечного продукта, но и разработку новых компьютерных методов статистической обработки и анализа, усовершенствование вычислительных методов вычислительной биологии, например построение биологических и экологических моделей на основе всех экологических факторов переведенных на язык математики, разработки алгоритмов базы биологических данных и визуализацией этого всего добра до меня пользователя в удобопереваримом виде.


    1. phanerozoi_evidence
      04.08.2021 11:42
      +2

      Кстати я как-то написал гайд о построении дерева здесь:

      Медведи, хомяки, человекоподобные. Хомяк или медведь брат человеку с точки зрения биоинформатики? https://habr.com/p/539552/

      Статья Ваша очень хорошая. Сейчас без биоинформатики нельзя, однако и классику забывать нельзя тоже. Методы морфологии и микроскопии все также необходимы.