Биоинформатик Андрей Афанасьев — один из основателей биотехстартапа yRisk. В интервью Андрей рассказал, какие технологии они используют, чтобы определить, есть ли у человека предрасположенность к наследственным формам рака, как дела с биотехнологиями в России и есть ли в биотехе работа для программистов.



Про yRisk


Андрей, ты — основатель генетической лаборатории yRisk, вы ищете мутации в генах и предрасположенность к онкологии. Расскажи, пожалуйста, как это происходит на практике?

Мы делаем тест на наличие так называемых наследственных опухолевых синдромов, это выражается в высоком риске заболеть раком в течение жизни в относительно молодом возрасте, даже до 50 лет.

Как мы проводим этот тест? Мы собираем у человека кровь из вены, как при обычном анализе крови, из этой крови выделяем ДНК, и ДНК анализируем на специальном приборе, называемом секвенатор. Из секвенатора получается довольно много данных, гигабайты и даже десятки гигабайт на один образец. Дальше мы их анализируем с помощью специальных алгоритмов, баз данных, рекомендаций по анализу этих данных и формируем многостраничный отчет, в котором рассказываем, есть ли повышенные риски относительно средних, и что с ними делать, если эти риски есть.

В этом интервью Андрей подробно рассказывает о наследственных опухолевых синдромах

Как это все устроено с точки зрения технологий? Как вы обрабатываете эти данные? У вас какое-то собственное ПО?

У нас был опыт написания такого ПО в моей прошлой компании, в стартапе iBinom. Мы делали облачный сервис для биоинформатической обработки данных секвенатора, и мы воспользовались накопленным опытом, чтобы эту обработку для себя реализовать.

В iBinom мы делали обработку в облаке, использовали Amazon S3 как хранилище, Amazon Elastic Computing Cloud как вычислительные ноды. Сейчас это все работает на локальном сервере, где мы разворачиваем набор биоинформатических программ.

Сначала анализируется качество входных данных, которые поступают с секвенатора. Есть специальная программа для анализа качества данных FastQC: с ее помощью строятся разные статистики, распределения и так далее.

Если с качеством на этом этапе все хорошо, то выполняются так называемые выравнивания данных — alignment, или маппирование, или картирование. Нет какого-то установившегося русского слова. Alignment — это тяжелая задача с точки зрения вычислений, она занимает довольно много времени для каждого образца.

После того, как данные откартированы, выполняется так называемый variant calling с помощью разных статистических алгоритмов. После этого найденные варианты аннотируются по всем доступным базам данных.

После аннотации получается большая экселевская табличка с вариантами и функциями. И в этой большой экселевской табличке мы уже глазами выбираем варианты, анализируя их по критериям ACMG (критерии Американского колледжа медицинских генетиков).

Этот анализ уже нельзя автоматизировать, нужно обращаться напрямую к публикациям, вчитываться в них. Если там написано одно, то ставится какая-то галочка, если другое, то, например, галочка не ставится. И так делается для каждого образца, несколько сотен записей надо просмотреть вручную.

И здесь уже машинное обучение не помогает, только ручная работа?

Да, здесь машинное обучение не работает, потому что статьи, которые написаны людьми, они написаны в человекочитаемом виде, а не в машиночитаемом. Мы пробовали играть в извлечение данных с помощью нейросетей, с помощью разных подходов к вытаскиванию смыслов из текста. Это мы делали в рамках лаборатории функционального анализа генома 3 года назад, но мы увидели, что никаких значительных продвижений тут не получается.

В биологии это вообще довольно важная история: данные не машиночитаемые, и сама разметка данных очень сложна. Ты не можешь просто нанять кучу людей, которые скажут, что здесь — котик, а здесь — собачка, здесь — светофор, а здесь — переход. Это должны читать люди, у которых есть хорошее биологическое образование.

Там есть попытки собирать автоматизированные базы, но как человек, который пользуется некоторыми из этих баз, я могу сказать, что качество там ужасное. Довольно часто люди, условно говоря, прочитали что-то в аннотации, как-то это поняли и написали, например, что вариант патогенный, хотя ты идешь в текст статьи и там прямым текстом написано, что он не патогенный. То есть ровно обратное. Поэтому тут заканчиваются возможности какой-то компьютерной обработки, и всю значимую информацию надо глазами искать.

На вашем сайте сказано, что точность теста 99,99%, и это звучит очень круто. Если этот текст настолько эффективен, почему его нельзя сделать в обычной больнице?

Этот тест требует оборудования — секвенаторов, секвенаторы до сих пор — это научно-исследовательские приборы, и тест, который мы делаем – научно-исследовательский.

Медицинские лаборатории не хотят связываться с научно-исследовательскими приборами. На это есть много причин: начиная от того, что они не могут получить возмещение по НДС, заканчивая тем, что они находятся под риском проверок Росздравнадзора за любые реагенты или приборы, которые не зарегистрированы как медицинские.

Тут история очень простая. Те тесты, которые являются медицинскими по закону, выполняются на старом оборудовании и на старых реагентах. Тесты, которые не являются медицинскими, не могут определенным образом продаваться и маркетироваться. Например, немедицинский тест нельзя закупить по государственным деньгам, на медицину выделенным, или нельзя покрыть ДМС.

Поэтому мы тут на переднем краю. Разговоры о том, чтобы такие тесты, как наш, на основе секвенирования нового поколения, делать медицинскими идут уже довольно давно, минимум года четыре. Но воз и ныне там.

А есть какой-то прогноз, когда это станет общедоступным?

Я не верю, что в России это когда-то станет общедоступным. Когда-то, наверно, станет, но не в ближайшем будущем точно. У нас министр здравоохранения говорит, что у нас эталонная система здравоохранения. У нас есть куча более насущных проблем, например, элементарный доступ ко многим препаратам. Если почитать, что пишут люди из фондов, то можно увидеть, что все ужасно в сфере лекарственного обеспечения.

Этот тест — это проблема белых людей. Когда у человека все хорошо, есть деньги, и он может пойти и еще и вот это сделать.

Есть ли у вас планы разработать что-то еще?

У нас есть планы, связанные с разными продуктами для планирования семьи, ведения беременности. Тут мы хотим работать в партнерстве с другими клиниками.

Мы делали исходный продукт, связанный с онкологией, в надежде, что он в России востребован, но за два года поняли, что востребованность нами была переоценена, и сейчас хотим переключаться на чуть-чуть другие продукты.

Лекция Андрея о существующих теориях старения, диковинных долгоживущих животных и фармацевтических препаратах, которые могут помочь человечеству справиться со старением

Про биоинформатику


Чем сегодня занимаются биоинформатики во всем мире? Какие самые прикладные задачи перед ними стоят?

Биоинформатиками обычно называют людей, которые решают какие-то прикладные вычислительные задачи для биологии. То есть задачи, которые стоят перед биоинформатиками — это задачи биологов.

Самые красивые научные задачи — это продвижение в понимании эволюции и в развитии теории эволюции. Потому что из данных сравнений геномных последовательностей можно много чего интересного вытаскивать про то, как шла эволюция видов, про определение родства одних видов и других, про разные вопросы о накоплении мутаций, про слабо-вредные мутации и так далее. Это, наверное, самое интересное, с точки зрения науки.

С точки зрения прикладных вещей, для чего биоинформатика сейчас используется, — это для анализа геномных последовательностей. Анализ геномных последовательностей — это задача либо наследственных заболеваний, либо онкологических. Анализируются данные геномов людей, которые страдают наследственными заболеваниями, для того, чтобы устанавливать диагноз, для того, чтобы разрабатывать лечение, для того, чтобы понимать, насколько часто это встречается. Это одна задача.

Вторая задача — онкологическая. Анализируются данные геномов опухолей в попытках понять, какие там есть мутации драйверные, какие пассажирские, на какие мутации можно разрабатывать новую терапию, как идет эволюция опухоли, какое разнообразие опухолей бывает.

Третья вещь, которая есть – это популяционная геномика. Это попытка разобраться, насколько генетически мы разные, какие есть особенности у разных популяций и что с этим всем делать.

Какое недавнее открытие в биоинформатике тебя особенно впечатлило?

Сложно говорить именно про открытие в биоинформатике, потому что это чаще всего работы на кончиках пальцев. Скажу более приближенную к реальности вещь, потому что научные вещи вряд ли будут сильно интересны.

Была интересная работа Снайдера по биоинформатическому анализу микробиома своего организма в течение года. Почти каждый день он измерял, как меняется его микробиом, и опубликовал данные этого разброса. Он менялся в течение года довольно сильно.

С тех пор можно ждать популяционных микробиомных данных. Очень интересно, насколько микробиом у разных людей отличается не в течение года, а между друг другом в зависимости от места жительства, образа жизни и тому подобное.

Как биотехнологии развиваются в России?

Про это я могу говорить только хорошо или никак :) В широком смысле в России кое-что происходит. В медицинской стороне, конечно, тоже кое-что происходит, но это несравнимо меньше и медленнее, чем то, что происходит в Штатах. Почему? Давайте по-честному, потому что российская медицина маленькая и отсталая.

Разработки собственных лекарств у нас практически нет. Максимум, что мы делаем, это дженерики и биосимиляры. Оригинальные препараты российской разработки почти все — это фуфломицины, не имеющие нормальных подтвержденных доказательств эффективности. Конечно, тут все довольно грустно.

Мы как изолированный медицинский рынок очень маленькие, у нас тут особой движухи нет. Тем не менее, у нас есть разные интересные компании на стыке IT и биотеха. Почему они есть? Потому что у нас есть много хороших айтишников, и айтишники стремятся в биотех. И когда они понимают, что очередной убер для зубных врачей почему-то не взлетает в России или очередная электронная медицинская карта, то иногда им приходят в голову идеи и получше.

Мне очень нравится компания UNIM. Они сделали довольно простую вещь: они оцифровали гистологию. Все раковые диагнозы подтверждаются гистологическим исследованием. Гистологическое исследование — это когда берутся клетки, красятся специальным образом и разглядываются в микроскоп. UNIM эти картинки с микроскопа оцифровал в хорошем разрешении, с зумированием и с облачным хранением.

И теперь гистологический срез смотрят не в микроскоп, а на экране компьютера, и не один врач, а три. И не просто врач, который получил сертификат врача, а который еще и прошел внутреннее обучение в компании UNIM и сдал экзамены, независимо от государственных. Это все резко поднимает точность диагностики.

Это не очень сложная с точки зрения технологий вещь, а польза мощная и классная. Хотя хранить большие картинки тоже довольно сложно, но никаких чудес machine learning тут нет.

Можешь привести еще какие-то примеры российских биотехнологических проектов, которые тебе нравятся?

Мне нравится, что делают ребята в Атласе. Они делают генетические тесты. Исходная идея у них такая — сделать частную клинику, в которой решения будут еще и опираться на данные генетического тестирования. Изначально они зашли с неправильной технологией генетического тестирования, взяли микрочиповое тестирование — из этих данных мало медицински значимой информации можно получить.

Недавно они объявили, что сделали продукт «Полный геном», дорогой, но из этого продукта можно больше медицински значимой информации получить. Мне нравится, как они делают клиентский сервис, визуальные вещи. Красиво, добротно, классно.

Как правило, цифровые продукты в медицине в России — это что-то не технологичное, банальное, простое. У Станислава Сажина есть старая добрая социальная сеть для врачей. Понятная история, потому что фармкомпаниям нельзя рекламировать рецептурные препараты просто так в интернете, и они могут рекламировать только для врачей. И вот ты делаешь социальную сеть, в которой может зарегистрироваться только врач, приложив копию своего диплома. И там ты можешь крутить рекламу фармкомпаний. И у него все хорошо. Коммерчески это, наверно, одна из самых успешных компаний в цифровой медицине. Но дух не захватывает, когда мы говорим об этом.

Или сервис Zoon — маркетплейс для медицинских услуг. Нормальная диджитал-история: лаборатории и клиники постят свои описания и так далее. Это помогает генерить лидов, но опять же, дух не захватывает.

Подробная лекция о том, какие биоинформатические компании сейчас есть в России и мире

Давай поговорим про вторую часть слова «биоинформатика». Какая работа для программистов есть в биотехе? И есть ли она вообще?

Конечно. Кому-то ведь нужно строить инфраструктуру для запуска всех этих наших биоинформатических софтов. Кому-то нужно писать новые биоинформатические софты.

Есть несколько подходов. Первый: брать биолога и учить его программировать, второй: брать информатика и учить его биологии. Ну и третий: брать человека и учить его и биологии, и программированию. Тут история такая, что если ты берешь биолога и учишь его программировать, то далеко не всегда получается нормальный результат. Если ты берешь программиста и учишь биологии, то ты на самом деле учишь его анализу данных, и он быстро уходит в data science на высокооплачиваемое место.

Надо честно сказать, такого уровня зарплат, как в IT, нет нигде. Везде будут зарплаты ниже. И в биоинформатике тоже зарплаты ниже, чем просто в анализе данных для диджитала какого-нибудь. И это, конечно, проблема, потому что куча людей, куча моих друзей-биоинформатиков поработали, убедились, что получают какие-то копейки, и уходили назад в IT. Тут конкуренция не выдерживается. Люди обычно идут по каким-то идейным соображениям, но долго на этих идейных соображениях не высиживают.

Если какой-то разработчик решил, что тоже хочет помогать в борьбе с раком, то что ему делать, куда идти? Или не идти никуда?

Ну, он может пойти поработать над распознаванием изображений, пойти поработать над анализом данных, получить интересные скиллы и опыт. Крупных компаний тут нет, поэтому это все равно будет какой-то стартап. Если надоест или зарплата покажется маленькой, всегда сможет вернуться назад.

Про популяризацию науки


Ты один из популяризаторов биоинформатики. Как и почему ты начал этим заниматься?

Начал этим заниматься, потому что мне это нравится. Нравится выступать, нравится рассказывать, разговаривать с аудиторией, доносить какие-то свои идеи. Мне это приятно, поэтому я этим занимаюсь.

Начал я с Science Slam в 2014 году, ребята позвали меня выступить и сказали, что после этого твоя жизнь изменится и не будет такой, как раньше. Не обманули :)

Они молодцы, что дают начинающим спикерам сразу оказаться в максимально доброжелательной и разогретой классной аудитории. Это цепляет, и после этого хочется продолжать выступать.

То самое выступление на Science Slam, с которого началась любовь к популяризации науки

Чувствуешь ли ты, что интерес к этой теме растет?

Мне кажется, да. Вещи, связанные с обучением и развлечением — они, конечно, сильно на подъеме. Это заметно и по числу курсов, которые я и мои друзья проходят, и по количеству лекториев, которые есть, и по количеству людей, которые зовут меня выступить.

Когда это начиналось, мне казалось, что это какая-то нёрдовая тема, а сейчас я вижу, что это совершеннейшим мейнстрим. Люди с удовольствием ходят и задают вопросы. Я сам люблю учиться через общение с людьми, книжки читать я тоже люблю, но быстро въезжать в тему лучше всего в каком-то человеческом контакте. И я очень рад, что все это развивается.

Потихоньку складывается можно сказать даже рынок научпопа. Это перестает быть занятием для аспирантов в свободное время.

Часто ты выступаешь не в Москве?

Конечно! Я постоянно и с большим удовольствием выступаю в разных городах. Только в этом году я выступал в Нижнем Новгороде, Твери, Екатеринбурге, Красноярске, Санкт-Петербурге, Новосибирске, в городе Плёс. За последние несколько лет это еще и Мурманск, Челябинск, Тюмень, Братск, Саяногорск, Владивосток.

Как дела с популяризацией в регионах?

В регионах все нормально. У меня есть друг Миша Каптюг, он делает проект «Умные города», у него сейчас охват — где-то половина всех регионов. Это научное шоу для детей, но на самом деле для всей семьи. И все у них хорошо идет.

То есть эта тема уже далеко не только московская, эта тема в регионах двигается, причем двигается с совершенно разных сторон. Я часто сотрудничаю с любимыми мной информационными центрами по атомной энергии — ИЦАЭ, это росатомовский проект про популяризацию науки. То есть он не про то, чтобы популяризировать атом и достижения атомщиков, они зовут вообще всех, устраивают фестивали науки, ну и, между делом, показывают, что корпорация Росатом — она за добро. Это, по-моему, один из хороших примеров корпоративного проекта.

Ну, и во многих городах есть свои локальные люди, которые это все организуют и продвигают. Например, очень классное сообщество в Твери, они даже журнал начали выпускать. В Екатеринбурге есть прекрасный Ельцин-центр, в котором куча событий происходит, там тоже весь научпоп собирается.

В общем, запрос есть, востребованность моя как лектора есть, и я очень рад, что во всех регионах какой-то движ идет.

24 января Андрей выступит на конференции о связи IT и науки Mieloconf. Андрей расскажет, что на самом деле можно узнать из генетического теста и как выглядит работа с данными в генетике.

Приходите знакомиться!

Комментарии (4)


  1. stalker1984
    25.12.2019 19:00

    "и мы воспользовались накопленным опытом..." Nginx дубль два?


  1. Brak0del
    25.12.2019 20:04

    Можно немного подробнее про вычислительные проблемы, с которыми вы имеете дело?
    Имели бы спрос и были бы уместны в вашей области специализированные вычислительные устройства, например на базе FPGA, которые бы существенно ускоряли эти вычисления или какую-то их часть?


  1. shadrap
    25.12.2019 20:43

    Зачем писать такие заголовки, если вы не собираетесь рассказывать ничего по теме? Словом секвенатор и мутации, по-моему здесь уже никого не удивишь. Вы уж или рассказывайте в деталях, что секвенируете экзом или полный или генотипируете, на чем, как интерпретируете риски, либо не пишите громкие заголовки.


  1. ebt
    26.12.2019 14:54
    +1

    Да, здесь машинное обучение не работает, потому что статьи, которые написаны людьми, они написаны в человекочитаемом виде, а не в машиночитаемом. Мы пробовали играть в извлечение данных с помощью нейросетей, с помощью разных подходов к вытаскиванию смыслов из текста. Это мы делали в рамках лаборатории функционального анализа генома 3 года назад, но мы увидели, что никаких значительных продвижений тут не получается.

    NLP не стоит на месте, вот недавнее из смежной области, возможно, автору стоит попробовать снова: https://www.nature.com/articles/s41586-019-1335-8