Летом 2019 года в седьмой раз проходила летняя школа по биоинформатике — недельный образовательный интенсив для ста студентов и недавних выпускников из разных городов и стран, делающих первые шаги в этой области.
Биологи, медики, программисты, математики, физики, химики — самые распространенные специальности участников школы — условно поделились на два потока «биологов» и «информатиков». Лекции и практики были посвящены различным биоинформатическим методам и их применению в медицине и биологии: начиная от эволюции и заканчивая анализом данных секвенирования одиночных клеток и старением.
Ниже мы делимся обзором, видеозаписями и слайдами 15 прошедших лекций. Помеченные звёздочкой «*» можно смотреть без подготовки или с базовыми знаниями.
Приятного просмотра!
1. *Знакомство с технологиями NGS | Барбитов Юрий, Институт биоинформатики
Видео | Слайды
Юрий рассказал про базовые методы секвенирования нового поколения (next generation sequencing, NGS) и механизмы, которые лежат в основе получения данных. В ходе рассказа объясняется механизм действия полимеразной цепной реакции (ПЦР), секвенирование по Сенгеру, разница между разными технологиями секвенирования второго и третьего поколения. Отдельно даются экспериментальные подходы, которые позволяют получать разные типы данных.
2. *Биоинформатические уловки для анализа древних ДНК | Татьяна Татаринова, University of La Verne
Видео | Слайды
Древняя ДНК привлекает внимание ученых как источник данных о видах и организмах, которых уже нет в живых в настоящее время. Однако из-за плохой сохранности ДНК метод биоинформатической обработки данных отличается и требует большого количества уловок. Именно о таких подходах рассказывает Татьяна на примере древней ДНК из останков народа хазар.
3. Секвенирование и анализ раковых геномов | Сергей Аганезов, Johns Hopkins University
Видео | Слайды
Соматические мутации в ходе развития рака могут сильно изменить кариотип генома в клетках и дать им популяционное преимущество, которое приводит к неконтролируемому разрастанию злокачественной опухоли. Анализ структурных генетических изменений в клетках таких опухолей играет важную роль в изучении причин возникновения и понимании процесса развития рака.
Лекция показывает, как методы и знания из областей теории графов, комбинаторики, и линейного программирования могут быть использованы для получения более точной и информативной картины структурных изменений в генома раковых клеток.
Сергей рассказывал про алгоритмические подходы для восстановления перестроенных геномных кариотипов в группах раковых клеток в отсеквенированных неоднородных злокачественных опухолях. Он также разобрал трудности, которые вносит негаплоидность геномов здоровых и раковых клеток, и описал модели для работы с результатами секвенирования неоднородных раковых опухолей.
4. *«Не-бесплотные» усилия разума: для чего в биомеде востребованы математика и программирование | Пётр Власов, Institute of Science and Technology
Видео | Слайды
В современной биологии, медицине и фармакологии всё чаще возникают исследовательские и прикладные задачи, требующие глубоких знаний физмата и IT-технологий.
Почему резкий рост объёмов экспериментальных и теоретических данных сблизил био-/мед-сферу с областью математики и IT? Как именно синергия математических/программных подходов и глубокого понимания биологии «проецируется» на современную разработку лекарственных препаратов и на персонализированную биомедицину? Что нового в последние годы удалось понять в ключевой для биомеда связи генотип-фенотип, в т.ч. в контексте самых различных заболеваний? Как это понимание позволяет обнаруживать новые «мишени» для терапии? И почему именно в таких исследованиях востребованы хорошие знания математики и программирования?
В своей лекции Петр обсудил эти и другие вопросы на примере конкретных ресурсов и инструментов анализа биомедицинских данных, а также некоторых фундаментальных исследовательских задач.
5. *Редактирование генома человека на уровне эмбриона | Денис Ребриков, РНИМУ им.Пирогова
Видео | Слайды
Система редактирования генома CRISPR позволяет вносить направленные изменения в нуклеотидную последовательность ДНК. Лектор рассказывал про то, как с помощью этой методики можно производить потенциальное редактирование человеческих эмбрионов на стадии зиготы, какие есть опасности и риски и как оценивают безопасность подхода. Также Денис дал обзор технологиям клонирования и научным подходам, которые лежат в основе этих процессов.
6. Почему Б-клетки такие разные? | Илария Тарасова, Walter and Eliza Hall Institute of Medical Research
Видео | Слайды
Как исследовать транскриптом активированных лимфоцитов, чтобы понять, экспрессия каких генов зависит от времени, а каких — от количества делений? В чем различия между Б-клетками и зачем такое количество функциональных типов в организме? Ответы на эти и другие вопросы даёт Илария в своей лекции.
7. *Курсы кройки и шитья: как дизайнерские белки применяют в медицине и биотехнологиях | Антон Чугунов, ИБХ РАН, Биомолекула
Видео | Слайды
Антон рассказал, какие существуют подходы к направленной модификации и даже дизайну «с нуля» белков, обладающих нужными свойствами. А ведь это и новые лекарства, и молекулы для биотехнологий, и даже новые возможности в энергетике.
8. Эпигенетическая регуляция и старение | Олег Шпынов, JetBrains Research
Видео | Слайды
Старение — комплексный процесс, которому подвержены живые организмы. В лекции Олег рассмотрел основные принципы эпигенетической регуляции, экспериментальные и вычислительные методы для обработки данных, включая комплексное решение для анализа данных ChIP-Seq — JBR Genome Browser и SPAN Semisupervised Peak ANalyzer.
В лекции также упоминаются часы метилирования — способ предсказания биологического возраста по уровню химических модификаций молекулы ДНК. В заключении слушателей ждет рассказ об исследовании эпигенома человека в процессах развития и старения, которое проводит Washington University in St.Louis и лаборатория JetBrains Research.
9. *Введение в машинное обучение | Григорий Сапунов, Intento
Видео | Слайды
Машинное обучение как область искусственного интеллекта продолжает привлекать внимание исследователей. Можно сказать, что это альтернатива программированию, которая может помочь выявить закономерности в данных, невидимые обычным глазом. Лектор подробно рассказывает про каждый этап обучения модели и про важность качества данных, подаваемых на вход.
10. Анализ данных RNA-seq | Алексей Сергушичев, Университет ИТМО
Видео | Слайды
Данные РНК-секвенирования (RNA-seq) позволяют оценить изменение экспрессии пула генов в тканях или целых организмах. Алексей рассказал про протоколы и секвенирование РНК в целом, подсчет количественных показателей и подходы к анализу дифференциальной экспрессии генов.
11. *Алгоритмы для сборки генома | Андрей Пржибельский, СПбГУ ЦАБ
Видео | Слайды
Сборка генома — сложный алгоритмический вычислительный процесс. Андрей говорил про алгоритмы сборки на основе графа де Брюйна и метрики, на которые важно обращать внимание при сборке.
12. Поиск редких болезнетворных аллелей с большим эффектом в финской популяции | Василий Раменский, ФГБУ «Национальный медицинский исследовательский центр профилактической медицины» Минздрава России
Видео | Слайды
Считается, что редкие геномные варианты сильно влияют на риски развития распространенных заболеваний и значения количественных фенотипических признаков. Несмотря на развитие технологий, современным исследованиям все еще не хватает достаточного количества образцов для достоверного выявления таких вариантов.
В изолированных популяциях, прошедших через этап сильного уменьшения численности, например, в финской, вредные аллели могут наблюдаться с гораздо большими частотами, чем в обычных популяциях. Секвенирование 78 генов у 6,000 финнов показало важность наличия больших и хорошо описанных когорт для успешного поиска редких вариантов.
В результате секвенирования экзомов 20,000 жителей северной и восточной Финляндии было обнаружено 43 новых ассоциации вредных вариантов с 25 признаками. Большинство обнаруженных новых вредных аллелей встречаются у финнов с частотами в 10-100 раз большими, чем в других европейских популяциях. Для выявления таких вариантов в других европейских популяциях потребовались бы выборки в сотни тысяч или даже миллионы индивидуумов.
Василий рассказал про принципиальную возможность обнаружения редких клинически значимых вариантов с помощью секвенирования достаточно больших когорт и про эффективность использования изолированных популяций для решения такой задачи.
13. *Поиск биомаркеров из протеомов и других экспрессионных данных методами машинного обучения | Елена Чуклина, ETH Zurich
Видео | Слайды
Елена рассказала про понятие биомаркеров и о том, как и насколько хорошо для их поиска работает машинное обучение. В лекции упоминаются разные типы машинного обучения и приводится пошаговый алгоритм реализации — Елена показывает на примерах, как это можно использовать в медицине на реальных протеомных данных и результатах анализа дифференциальной экспрессии генов.
14. *В мире протеомики | Павел Синицын, Max Planck Institute Of Biochemistry
Видео | Слайды
Павел рассказывает про различные принципы и подходы к получению данных в протеомике. Лектор подробно объясняет каждый этап получения данных, особенности отбора пептидов и показывает разницу в подходах bottom-up и top-down методов.
15. Изучение развития мозга на уровне одиночных клеток | Константин Оконечников, German Cancer Research Center
Видео | Слайды
Константин в своей лекции дает подробный обзор технологий секвенирования одиночных клеток и показывает, как данные одиночных клеток можно использовать в исследованиях мозга. Отдельно лектор разбирает подходы к обработке данных одиночных клеток.
Летние школы проходят ежегодно с 2013 года, и на YouTube-канале в открытом доступе скопилось много видеозаписей разных лет с широким охватом тем.
Сейчас открыт приём заявок на летнюю школу 2020, которая пройдёт в Санкт-Петербурге с 27 июля по 1 августа. А для желающих более глубоких знаний — до 22 февраля можно успеть на программу переподготовки по биоинформатике в Петербурге и Москве или нa выездной семинар по системной биологии.
Школа 2019 состоялась благодаря поддержке компаний JetBrains, BIOCAD и EPAM, за что им огромная благодарность.
Всем биоинформатики и до новых встреч!
P.S. — Предыдущие посты на Хабре с обзором лекций по биоинформатике: 2018, 2017, 2016.
Биологи, медики, программисты, математики, физики, химики — самые распространенные специальности участников школы — условно поделились на два потока «биологов» и «информатиков». Лекции и практики были посвящены различным биоинформатическим методам и их применению в медицине и биологии: начиная от эволюции и заканчивая анализом данных секвенирования одиночных клеток и старением.
Ниже мы делимся обзором, видеозаписями и слайдами 15 прошедших лекций. Помеченные звёздочкой «*» можно смотреть без подготовки или с базовыми знаниями.
Приятного просмотра!
1. *Знакомство с технологиями NGS | Барбитов Юрий, Институт биоинформатики
Видео | Слайды
Юрий рассказал про базовые методы секвенирования нового поколения (next generation sequencing, NGS) и механизмы, которые лежат в основе получения данных. В ходе рассказа объясняется механизм действия полимеразной цепной реакции (ПЦР), секвенирование по Сенгеру, разница между разными технологиями секвенирования второго и третьего поколения. Отдельно даются экспериментальные подходы, которые позволяют получать разные типы данных.
2. *Биоинформатические уловки для анализа древних ДНК | Татьяна Татаринова, University of La Verne
Видео | Слайды
Древняя ДНК привлекает внимание ученых как источник данных о видах и организмах, которых уже нет в живых в настоящее время. Однако из-за плохой сохранности ДНК метод биоинформатической обработки данных отличается и требует большого количества уловок. Именно о таких подходах рассказывает Татьяна на примере древней ДНК из останков народа хазар.
3. Секвенирование и анализ раковых геномов | Сергей Аганезов, Johns Hopkins University
Видео | Слайды
Соматические мутации в ходе развития рака могут сильно изменить кариотип генома в клетках и дать им популяционное преимущество, которое приводит к неконтролируемому разрастанию злокачественной опухоли. Анализ структурных генетических изменений в клетках таких опухолей играет важную роль в изучении причин возникновения и понимании процесса развития рака.
Лекция показывает, как методы и знания из областей теории графов, комбинаторики, и линейного программирования могут быть использованы для получения более точной и информативной картины структурных изменений в генома раковых клеток.
Сергей рассказывал про алгоритмические подходы для восстановления перестроенных геномных кариотипов в группах раковых клеток в отсеквенированных неоднородных злокачественных опухолях. Он также разобрал трудности, которые вносит негаплоидность геномов здоровых и раковых клеток, и описал модели для работы с результатами секвенирования неоднородных раковых опухолей.
4. *«Не-бесплотные» усилия разума: для чего в биомеде востребованы математика и программирование | Пётр Власов, Institute of Science and Technology
Видео | Слайды
В современной биологии, медицине и фармакологии всё чаще возникают исследовательские и прикладные задачи, требующие глубоких знаний физмата и IT-технологий.
Почему резкий рост объёмов экспериментальных и теоретических данных сблизил био-/мед-сферу с областью математики и IT? Как именно синергия математических/программных подходов и глубокого понимания биологии «проецируется» на современную разработку лекарственных препаратов и на персонализированную биомедицину? Что нового в последние годы удалось понять в ключевой для биомеда связи генотип-фенотип, в т.ч. в контексте самых различных заболеваний? Как это понимание позволяет обнаруживать новые «мишени» для терапии? И почему именно в таких исследованиях востребованы хорошие знания математики и программирования?
В своей лекции Петр обсудил эти и другие вопросы на примере конкретных ресурсов и инструментов анализа биомедицинских данных, а также некоторых фундаментальных исследовательских задач.
5. *Редактирование генома человека на уровне эмбриона | Денис Ребриков, РНИМУ им.Пирогова
Видео | Слайды
Система редактирования генома CRISPR позволяет вносить направленные изменения в нуклеотидную последовательность ДНК. Лектор рассказывал про то, как с помощью этой методики можно производить потенциальное редактирование человеческих эмбрионов на стадии зиготы, какие есть опасности и риски и как оценивают безопасность подхода. Также Денис дал обзор технологиям клонирования и научным подходам, которые лежат в основе этих процессов.
6. Почему Б-клетки такие разные? | Илария Тарасова, Walter and Eliza Hall Institute of Medical Research
Видео | Слайды
Как исследовать транскриптом активированных лимфоцитов, чтобы понять, экспрессия каких генов зависит от времени, а каких — от количества делений? В чем различия между Б-клетками и зачем такое количество функциональных типов в организме? Ответы на эти и другие вопросы даёт Илария в своей лекции.
7. *Курсы кройки и шитья: как дизайнерские белки применяют в медицине и биотехнологиях | Антон Чугунов, ИБХ РАН, Биомолекула
Видео | Слайды
Антон рассказал, какие существуют подходы к направленной модификации и даже дизайну «с нуля» белков, обладающих нужными свойствами. А ведь это и новые лекарства, и молекулы для биотехнологий, и даже новые возможности в энергетике.
8. Эпигенетическая регуляция и старение | Олег Шпынов, JetBrains Research
Видео | Слайды
Старение — комплексный процесс, которому подвержены живые организмы. В лекции Олег рассмотрел основные принципы эпигенетической регуляции, экспериментальные и вычислительные методы для обработки данных, включая комплексное решение для анализа данных ChIP-Seq — JBR Genome Browser и SPAN Semisupervised Peak ANalyzer.
В лекции также упоминаются часы метилирования — способ предсказания биологического возраста по уровню химических модификаций молекулы ДНК. В заключении слушателей ждет рассказ об исследовании эпигенома человека в процессах развития и старения, которое проводит Washington University in St.Louis и лаборатория JetBrains Research.
9. *Введение в машинное обучение | Григорий Сапунов, Intento
Видео | Слайды
Машинное обучение как область искусственного интеллекта продолжает привлекать внимание исследователей. Можно сказать, что это альтернатива программированию, которая может помочь выявить закономерности в данных, невидимые обычным глазом. Лектор подробно рассказывает про каждый этап обучения модели и про важность качества данных, подаваемых на вход.
10. Анализ данных RNA-seq | Алексей Сергушичев, Университет ИТМО
Видео | Слайды
Данные РНК-секвенирования (RNA-seq) позволяют оценить изменение экспрессии пула генов в тканях или целых организмах. Алексей рассказал про протоколы и секвенирование РНК в целом, подсчет количественных показателей и подходы к анализу дифференциальной экспрессии генов.
11. *Алгоритмы для сборки генома | Андрей Пржибельский, СПбГУ ЦАБ
Видео | Слайды
Сборка генома — сложный алгоритмический вычислительный процесс. Андрей говорил про алгоритмы сборки на основе графа де Брюйна и метрики, на которые важно обращать внимание при сборке.
12. Поиск редких болезнетворных аллелей с большим эффектом в финской популяции | Василий Раменский, ФГБУ «Национальный медицинский исследовательский центр профилактической медицины» Минздрава России
Видео | Слайды
Считается, что редкие геномные варианты сильно влияют на риски развития распространенных заболеваний и значения количественных фенотипических признаков. Несмотря на развитие технологий, современным исследованиям все еще не хватает достаточного количества образцов для достоверного выявления таких вариантов.
В изолированных популяциях, прошедших через этап сильного уменьшения численности, например, в финской, вредные аллели могут наблюдаться с гораздо большими частотами, чем в обычных популяциях. Секвенирование 78 генов у 6,000 финнов показало важность наличия больших и хорошо описанных когорт для успешного поиска редких вариантов.
В результате секвенирования экзомов 20,000 жителей северной и восточной Финляндии было обнаружено 43 новых ассоциации вредных вариантов с 25 признаками. Большинство обнаруженных новых вредных аллелей встречаются у финнов с частотами в 10-100 раз большими, чем в других европейских популяциях. Для выявления таких вариантов в других европейских популяциях потребовались бы выборки в сотни тысяч или даже миллионы индивидуумов.
Василий рассказал про принципиальную возможность обнаружения редких клинически значимых вариантов с помощью секвенирования достаточно больших когорт и про эффективность использования изолированных популяций для решения такой задачи.
13. *Поиск биомаркеров из протеомов и других экспрессионных данных методами машинного обучения | Елена Чуклина, ETH Zurich
Видео | Слайды
Елена рассказала про понятие биомаркеров и о том, как и насколько хорошо для их поиска работает машинное обучение. В лекции упоминаются разные типы машинного обучения и приводится пошаговый алгоритм реализации — Елена показывает на примерах, как это можно использовать в медицине на реальных протеомных данных и результатах анализа дифференциальной экспрессии генов.
14. *В мире протеомики | Павел Синицын, Max Planck Institute Of Biochemistry
Видео | Слайды
Павел рассказывает про различные принципы и подходы к получению данных в протеомике. Лектор подробно объясняет каждый этап получения данных, особенности отбора пептидов и показывает разницу в подходах bottom-up и top-down методов.
15. Изучение развития мозга на уровне одиночных клеток | Константин Оконечников, German Cancer Research Center
Видео | Слайды
Константин в своей лекции дает подробный обзор технологий секвенирования одиночных клеток и показывает, как данные одиночных клеток можно использовать в исследованиях мозга. Отдельно лектор разбирает подходы к обработке данных одиночных клеток.
Напоследок
Летние школы проходят ежегодно с 2013 года, и на YouTube-канале в открытом доступе скопилось много видеозаписей разных лет с широким охватом тем.
Сейчас открыт приём заявок на летнюю школу 2020, которая пройдёт в Санкт-Петербурге с 27 июля по 1 августа. А для желающих более глубоких знаний — до 22 февраля можно успеть на программу переподготовки по биоинформатике в Петербурге и Москве или нa выездной семинар по системной биологии.
Школа 2019 состоялась благодаря поддержке компаний JetBrains, BIOCAD и EPAM, за что им огромная благодарность.
Всем биоинформатики и до новых встреч!
P.S. — Предыдущие посты на Хабре с обзором лекций по биоинформатике: 2018, 2017, 2016.