Почти год назад, летом 2017 года, на базе МФТИ состоялась традиционная летняя школа от Института биоинформатики. Основной темой школы в этом году стал интеллектуальный анализ данных. Почему? Количество получаемых данных в биологии и медицине растет с невероятной скоростью. В то же время обнаружить ранее неизвестные вещи в таком объеме информации вручную физически невозможно (да и классическими алгоритмами уже тоже сложновато), поэтому приходится использовать статистику и дополнять естественный интеллект искусственным.

Именно этим активно и занимались участники летней школы. В этом посте собрана 21 видеозапись лекций со слайдами и описанием для всех интересующихся темой анализа данных в биоинформатике. Лекции, которые можно смотреть без дополнительной подготовки, отмечены звёздочкой «*» (их больше половины).

image

1*. Введение в биоинформатику (Александр Предеус, Институт биоинформатики)

Видео | Слайды

В лекции рассмотрены основные области, в которых работают биоинформатики в науке и индустрии, особенности биоинформатики и причины ее популярности сегодня.


image

2*. Введение в машинное обучение (Григорий Сапунов, Intento)

Видео | Слайды

Постоянный рост количества данных способствует развитию все более и более сложных процессов обработки, поиска и извлечения информации. Один из способов решения подобных задач заключается в использовании искусственного интеллекта. Эта лекция посвящена краткому введению в основы машинного обучения. Григорий рассказал общую терминологию в этой области, а также описал виды задач, решаемых машинным обучением. Помимо этого, лекция знакомит с основными этапами машинного обучения, видами моделей и метриками качества полученных данных.

3*. Введение в Deep Learning (Григорий Сапунов, Intento)

Видео | Слайды

Глубокое обучение (или deep learning) в настоящее время набирает популярность из-за возможности не прописывать конкретные алгоритмы для решения задачи, а использовать обучение представлениям. Развитию этих методов также способствует увеличение вычислительной мощности процессоров. Лекция посвящена основам нейросетей: их видам (полносвязные нейросети, автоэнкодеры, свёрточные, рекуррентные) и решаемым ими задачам. Отдельно Григорий обрисовал современное состояние и тренды.


image

4*. Введение в онкогеномику и анализ омиксных данных в онкологии (Михаил Пятницкий, НИИ биомедицинской химии им. В.Н.Ореховича)

Видео | Слайды

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей — все эти биологические методы в приложении к “Big Data” дали ученым большой объем ценной информации о том, что отличает человека от других животных. Эта лекция посвящена «омикам» и их практическому использованию. Отдельно Михаил затронул использование этих данных в онкологии.


image

5. Мультиомика в биологии: интеграция технологий (Константин Оконечников, German Cancer Research Center)

Видео | Слайды

Бурное развитие экспериментальных технологий в молекулярной биологии, таких как например, секвенирование, позволили совместить в себе изучение большого спектра функциональных процессов происходящих в клетках, органах или даже целом организме. В лекции рассмотрено как правильно совмещать массивные экспериментальные данные, полученные из геномики, транксриптомики и эпигеномики для установления связей между компонентами происходящих биологических процессов. Наглядные примеры применения мультиомики выбраны из высоко востребованной области исследований раковых заболеваний с фокусом на педиатрическую онкологию.


image

6. Количественная генетика: история и перспективы (Юрий Аульченко, лаборатория теоретической и прикладной функциональной геномики ФЕН НГУ, группа методов генетического анализа, ИЦиГ СО РАН)

Видео | Слайды

Количественная генетика — точная наука, которая основывается на небольшом числе ключевых наблюдений и базовых моделей, позволяющих дать количественное описание природных (микро)эволюционных явлений и предсказать результаты генетических экспериментов. Она использует мощный математический аппарат. Многие современные методы статистики были изначально разработаны для решения проблем количественной генетики. Прорывное развитие молекулярно-биологических технологий за последнее десятилетие позволило характеризовать сотни тысяч живых организмов по миллионам геномных и других «омиксных» параметров. Общее количество проведенных экспериментов и уже накопленных данных колоссально. Актуальная задача современной количественной генетики — разработка моделей, которые позволят описать наследования многоуровневых фенотипических высокой размерности. В своей лекции Юрий дал краткий обзор истории количественной генетики и проблем, которые стоят перед этой наукой.


image

7*. Технологии секвенирования (Кирилл Григорьев, Caribbean Genome Center, University of Puerto Rico)

Видео | Слайды

Развитие и эволюция процессов секвенирования неразрывно связаны с эволюцией технологических возможностей. Лекция показывает историю и процесс развития технологий секвенирования от Сэнгера до наших дней. Отдельно Кирилл рассказал про преимущества и недостатки каждого из существующих в настоящее время методов, а также о характере получаемых данных и их применении в различных областях.



8. Транскриптомика: практические методы и применяемые алгоритмы (Александр Предеус, Институт биоинформатики)

Видео | Слайды

Транскриптомика уверенно заняла место в списке самых популярных задач, встающих перед NGS-биоинформатиками. Дифференциальный анализ экспрессии генов, кластеризация экспрессионных данных, и интерпретация полученных данных в терминах метаболических и сигнальных каскадов позволяют получить богатейшую информацию о практически любой системе. В лекции рассмотрены лучшие пайплайны, основные проблемные места в дизайне экспериментов и обработке, а также практические случаи удачного применения транскриптомных подходов.


image

9. Анализ данных NGS в медицинской генетике: определение, аннотация и интерпретация генетических вариантов (Юрий Барбитов, СПбГУ, Александр Предеус, Институт биоинформатики)

Видео | Слайды

Использование секвенирования нового поколения давно ушло за пределы классической науки и успешно применяется во многих других областях, в том числе в здравоохранении. Лекция посвящена ключевым аспектам анализа данных секвенирования нового поколения в медицинской генетике. Юрий показал весь путь от получения сырых ридов до постановки диагноза, с упоминанием трудностей, возникающих при определении, аннотации и интерпретации генетических вариантов. Отдельно он затронул распространенные ошибки, допускаемые на каждом из этапов обработки данных. В заключение дан краткий обзор перспективных направлений исследований, способных улучшить точность постановки диагноза с использованием методов высокопроизводительного секвенирования


10. Практическое применение ChIP-Seq и родственных методов (Александр Предеус, Институт биоинформатики)

Видео | Слайды

Методы ChIP-Seq, а также «геномного футпринтинга» (ATAC-Seq, FAIRE-Seq, DNase-Seq) широко применяются для нахождения механизмов регуляции биологических процессов, в частности, для транскрипционной регуляции. Потенциальное пространство изучаемых факторов очень многомерно, однако селективный подход позволяет получить богатую информацию о регуляции в системе на основании всего нескольких экспериментов. На примере конфликтующих современных теорий, Александр показал основные сложности интерпретации регуляторной информации, и способы консолидации полученных результатов.


image

11*. Что можно делать с данными iScan (Татьяна Татаринова, University of La Verne )

Видео | Слайды

Компания Illumina выпускает большое количество приборов под различные нужды. Чипирование позволяет быстро обнаруживать однонуклеотидные полиморфизмы (SNP) для большого количества образцов. Лекция посвящена обзору данных чипов iScan и их применению в клинической диагностике.


image

12. Глубокое обучение в вычислительной биологии (Дмитрий Фишман, University of Tartu)

Видео | Слайды

Глубокое обучение активно используется не только для улучшения машинного перевода или распознавания речи, но и позволяет решить многие проблемы в области вычислительной биологии. Лекция посвящена применению методов глубокого обучения на конкретных биологических примерах. Дмитрий рассказал о том, что нового происходит в биологии и медицине с использованием глубокого обучения, и можно ли говорить о том, что машины революционизируют медицину и биологию.


image

13*. Применение методов машинного обучения для поиска потенциальных патогенных мутаций в геноме человека (Анна Ершова, МФТИ, НИИ физико-химической биологии МГУ им. М.В. Ломоносова, ФНИЦ эпидемиологии и микробиологии им. Н.Ф. Гамалеи)

Видео | Слайды

Поиск патогенных мутаций стал актуальным в связи с секвенированием генома человека. Однако, вручную такую задачу решить просто невозможно. Лекция посвящена тому, как машинное обучение может помочь справиться с этой задачей.


image

14*. Иммуноинформатика (Вадим Назаров, НИУ ВШЭ, ИБХ РАН)

Видео | Слайды

Машинное обучение уже довольно давно активно применяется в самых разных сферах жизни, но в иммунологии для него нашли место совсем недавно. В этой лекции Вадим рассказал о нескольких примерах применения машинного и глубинного обучения в иммунологии, включая задачу предсказания связывания МНС-пептид комплексов и анализа репертуаров Т-клеточных рецепторов.


image

15*. Изучение адаптации к хозяину и развития резистентности в вирусах ВИЧ и гепатита С с помощью методов структурной биоинформатики (Ольга Калинина, Институт информатики общества Макса Планка)

Видео | Слайды

Вирус иммунодефицита человека (ВИЧ) и вирус гепатита С вызывают тяжелые заболевания, которые с трудом поддаются терапии. Как и многие другие ретро- и РНК-вирусы, эти вирусы быстро эволюционируют и, таким образом, могут приспосабливаться как к воздействию специфических антивирусных препаратов, так и к адаптивному иммунному ответу со стороны организма хозяина. В этой лекции Ольга показала, как с помощью комбинирования анализа последовательностей вирусных белков с анализом их пространственной структуры можно делать предсказания о развитии механизмов резистентности и взаимодействии вирусов с иммунной системой хозяина.


image

16. Предсказание эффекта мутаций (Василий Раменский, МФТИ)

Видео | Слайды

Современные методы секвенирования дают огромный объем информации о полиморфизме генома, то есть отличиях индивидуальных геномов друг от друга. Эти отличия (варианты) возникают в результате мутаций при репликации ДНК и частично фиксируются в популяции. Распространенность, локализация и функциональный эффект геномных вариантов сильно различаются – от полной летальности до отсутствия какого-либо влияния на индивидуальный фенотип. В лекции рассмотрены современные подходы к предсказанию функционального эффекта вариантов, используемые в персонализированной медицине, медицинской и популяционной генетике.


image

17. Многомасштабное моделирование и дизайн биологических молекул (Николай Дохолян, University of North Carolina at Chapel Hill)

Видео

Жизнь биологических молекул охватывает масштабы времени и длины, соответствующие шкалам времени и длины от атомного до клеточного. Следовательно, новые подходы к молекулярному моделированию должны быть по своей сути многомасштабными. В своей лекции Николай описал несколько методологий, разработанных в его лаборатории: алгоритм быстрого дискретного молекулярного динамического моделирования, белковый дизайн и инструменты структурной доработки. Используя эти методологии, можно описать несколько приложений, которые проливают свет на молекулярную этиологию кистозного фиброза и находят новые фармацевтические стратегии для борьбы с этим заболеванием, моделируют структуру трехмерной РНК и разрабатывают новые подходы к контролю белков в живых клетках и организмах.


image

18. Гомологичный фолдинг белков (Павел Яковлев, BIOCAD)

Видео

В современной структурной биологии есть ряд вычислительных методов, позволяющих с высокой достоверностью характеризовать биологические молекулы, их схожесть и различия, способы взаимодействия и функции. Для построения подобных вычислений входным параметром всегда выступает пространственная структура белка, однако ее получение может быть затруднен, несмотря на полувековой прогресс в области кристаллографии. Лекция посвящена решению этой проблемы с помощью гомологичного моделирования структур белков — построения трехмерных структур из схожих фрагментов. Для примера рассмотрены вариабельные домены антител — белков, обладающих уникальным структурным разнообразием вариабельных петель.


image

19. Как перестать медитировать и начать моделировать (Артур Залевский, МГУ им. М. В. Ломоносова)

Видео | Слайды

Большое количество данных, получаемых методом NGS, позволяет не только получать из этого биологические выводы, но и использовать их для моделирования. Построенные модели позволяют лучше понять биологические данные и получить еще больше биологического смысла из эксперимента. Лекция посвящена моделированию и начальным этапам этого процесса.


image

20*. Стоя на плечах гигантов, или зачем нужны консорциумы (Герман Демидов, Centre for Genomic Regulation, The Barcelona Institute of Science and Technology, Universitat Pompeu Fabra)

Видео | Слайды

За последние десятилетия развитие биологии было связано с накоплением массивов данных, огромных настолько, что отдельные исследовательские группы уже не справлялись с их биоинформатическим анализом. С целью решить эту проблему начали создаваться консорциумы из десятков лабораторий, такие как Human Genome Project, 1000GP, ENCODE и другие. Благодаря таким коллаборациям, в открытом доступе есть данные разнообразных типов, полученные с помощью различных технологий. Как результат, сравнение новых экспериментальных данных с уже существующими стало стандартной частью любого исследования. Консорциумы производят не только данные, но и биоинформатические пайплайны для их обработки, и стандартные форматы, и процедуры оценки качества. На этой лекции обсуждается, как работают консорциумы, как пользоваться результатами их работы и что делать, если вы вдруг обнаружили себя членом такого консорциума и вам нужно обрабатывать терабайты данных, а потом обмениваться результатами со всеми остальными участниками.


image

21*. Обзор биоинформатических компаний в России и мире (Андрей Афанасьев, yRisk)

Видео | Слайды

В современном мире наука и бизнес все более и более переплетаются. Не обошел этот тренд и область биоинформатики. Андрей рассказал об ожиданиях и реальности рынка, об историях успеха и историях провалов, о людях и местах, связанных с биоинформатикой.



Послесловие


Для тех, кто ничего не понял хочет развиваться в области биоинформатики — до 27 мая ещё открыт прием заявок на летнюю школу в этом 2018-м году. Сама школа пройдет 23–28 июля под Санкт-Петербургом. Есть шанс вскочить в последний вагон и гордо всем показывать пост с обзором лекций следующего года, говоря, что видели это лично.

В 2017 году школа проводилась при поддержке наших постоянных партнеров – компаний JetBrains, BIOCAD и EPAM Systems, за что им огромное спасибо.

Кстати, пост с лекциями позапрошлых школ.

Всем биоинформатики!

image

Комментарии (4)


  1. himegood
    22.05.2018 20:03
    +1

    Очень интересует данное напровление. Посмотрю в свобрдное время. И спасибо за статью.ц


  1. denisslvr
    23.05.2018 08:10

    Дичь дичайшая! Слова ради слов! Каждый год слышу что большенство "ноу-хау" бред. И всем пох, штампуют бред ради бреда и ещё нобелевки получают. Печалька.


  1. vladimir_monomarch
    24.05.2018 09:35

    Классная вещь! Побольше таких видео лекций! Очень интересная тема!


  1. Hateman31
    24.05.2018 18:27

    Не знал, что в России такое обширное коммьюнити на ниве биоинформатики.
    Спасибо за пост!