Вычислительный биолог Анна Карпентер разработала первый алгоритм профилирования клеток на основе полученных с микроскопа изображений. Сегодня такие алгоритмы, в основе которых лежит технология распознавания лиц для социальных сетей, помогают медикам быстро классифицировать тысячи клеток.
Под катом к старту курса по ML и DL делимся интервью Анны Карпентер для Quanta Magazine, где она рассказывает о возникновении первого алгоритма профилирования и рассказывает о большом эксперименте с сотнями типов клеток.
Используя методы машинного обучения, аналогичные тем, которые позволяют компьютерам распознавать лица, биологи могут характеризовать отдельные клетки в стопках полученных при помощи микроскопа изображений. Измеряя тысячи визуализируемых клеточных свойств (распределение меченого белка, форму ядра, количество митохондрий), компьютеры могут изучать изображения клеток в поисках закономерностей, позволяющих определить тип клетки и симптомы заболевания. Такое профилирование на основе изображений ускоряет поиск лекарств, улучшая скрининг соединений, нужным образом изменяющих характеристики клеток.
Анна Карпентер, вычислительный биолог и старший директор платформы визуализации Института Брода MTI и Гарвардского университета, — пионер этого подхода.
Она разработала CellProfiler — широко используемое программное обеспечение с открытым исходным кодом для измерения наборов наблюдаемых признаков (фенотипов) по изображениям клеток. С момента его выхода в 2005 году он цитировался в более чем 12 000 публикациях.
Подход начинался как побочный проект во время её обучения как клеточного биолога: то, что Карпентер называет «маленьким клочком кода, чтобы сделать одну вещь», со временем превратилось в набор инструментов. Этот набор нашли полезным и другие исследователи. «Когда я подошла к концу своего постдокторантуры, то поняла, что мне гораздо больше нравится помогать другим биологам, создавая инструменты, а не заниматься конкретными биологическими вопросами», — сказала она. — Вот почему я в итоге осталась в компьютерных науках».
Член Массачусетской академии наук Карпентер получила премию MIRA Национального института здравоохранения, а также премию CAREER Национального научного фонда и премию 2020 Women in Cell Biology Mid-Career Award Американского общества клеточной биологии, а также другие награды.
В беседе с журналом Quanta Magazine Карпентер рассказала о радости перевода беспорядочной биологии в решаемые с помощью компьютеров проблемы, об амбициозной попытке скрининга лекарств от 200 заболеваний в одной пробирке, а также о том, как скромные, любопытные и умеющие общаться с людьми за пределами своей дисциплины исследователи могут создать культуру, которая разнообразит вычислительную биологию и машинное обучение. Интервью сокращено и отредактировано для ясности.
— Компьютерные ученые применяли свои навыки в биологии, но вы выбрали менее распространённый путь — из биологии в программную инженерию. Что вас мотивировало?
Переход был вызван необходимостью. Во время работы над докторской диссертацией по клеточной биологии в Иллинойском университете Урбана — Шампейн в начале 2000-х годов я изучала, как комплекс ДНК и белков в эукариотических клетках (хроматин) реагирует на передаваемые через рецептор эстрогена сигналы. Это потребовало получения тысяч микроскопических изображений. На ручную работу ушли бы месяцы. Я решила, что будет здорово, если я придумаю, как автоматизировать работу микроскопа.
У меня не было формального образования в области компьютерных наук. Потребовалось около месяца, чтобы понять, как программировать микроскоп, но это сэкономило мне два месяца, которые я потратила бы на очень скучный ручной сбор изображений.
Возникла новая проблема: у меня была огромная куча изображений для анализа. Я провела ещё месяцы и месяцы, копируя и вставляя код, разбираясь с этим по ходу дела.
Но, как только начала играть с анализом изображений, я подсела. Это было так приятно — иметь возможность превратить грязную, качественную биологию в точные, количественные цифры. И я решила найти должность постдокторанта, где могла бы ускорить процессы в биологии, работая над высокопроизводительной визуализацией.
— В последнем эссе вы описываете биологию как «беспорядочную», но в то же время «логическую головоломку». Не могли бы вы рассказать об этом немного подробнее?
— Биология — довольно сложная наука. Вы полагаете, что A активирует B, который активирует C, а затем C подавляет D и так далее. Но в действительности в клетках работает множество странных, неточных взаимосвязей: обратная связь, множественные входы, альтернативные пути.
Но я также считаю, что биология — это логическая головоломка. Лучшее, что мы можем сделать, — попытаться ограничить систему, которую мы тестируем. Затем мы можем возмущать её, измерять входные и выходные показатели и так далее. Наложив множество ограничений, мы можем немного распутать биологию.
— Во время постдокторантуры в Институте Уайтхеда вы начали работать над тем, что в конце концов стало CellProfiler. Как вы шли к этому?
— Я поняла, что мне нужен серьёзный код для проекта, поэтому просто погрузилась в работу и методом проб и ошибок изучила программирование. Но мне всё ещё требовалась помощь в реализации некоторых классических алгоритмов обработки изображений. Я читала статью и говорила: «Это именно то, что мне нужно», — но я понятия не имела, как преобразовать уравнения статьи в код.
Я отправила письмо в список аспирантов Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и спросила: «Кто-нибудь хочет мне помочь? У меня есть немного денег на стипендию». Туис (Рэй) Джонс откликнулся и за одни выходные реализовал основные алгоритмы. Они были весьма революционными и стали основной причиной успеха CellProfiler: он сделал эти алгоритмы доступными конечным пользователям.
— Благодаря количественной оценке фенотипических различий в различных клетках в большом масштабе CellProfiler может использоваться для «профилирования на основе изображений». Как вам пришла в голову эта идея?
— Люди приходили к нам и говорили: «Вот мой тип клетки. Вот моё специальное антитело для маркировки какого-то белка в клетке. Можете ли вы сказать мне, сколько моего белка присутствует в ядре?» Конечно, с помощью анализа изображений мы можем измерить, что они попросят.
Глядя на изображения, я бы сказала: «Вы также заметили, что текстура белка меняется? Или что на самом деле его больше на краю ядра, чем внутри? И мы видим колокализацию между этим и тем пятнами. И общая форма клетки меняется. Имеет ли это биологический смысл?» Столько информации биологи оставляли в стороне, не получив выгоды!
Именно тогда меня вдохновила статья 2004 Science года в Science. На основе изображений исследователи профилировали клетки, обработанные различными наборами соединений. Они показали, что обработанные функционально схожими соединениями клетки, как правило, выглядят одинаково — соединения оказывают схожее воздействие на клетку. Это было потрясающе. Может ли быть так, что скромные, красивые изображения клеток несут достаточно количественной информации, чтобы сказать нам, каким препаратом обрабатывались клетки? Работа положила начало профилированию на основе изображений.
Видео: Анна Карпентер, старший директор Платформы визуализации Института Брода MIT и Гарвардского университета, рассказывает, как интерес к разработке новых лекарств привёл её к работе на стыке биологии и информатики.
— Из чего состоит такое профилирование?
— Мы измеряем всё, что можно измерить по внешнему виду клетки. Это делается на основании базового наблюдения, что структура и общий вид клетки отражают её историю — то, как с ней обращались в окружающей среде. Если изображения отражают состояние клетки, а затем, если бы мы могли их количественно оценить и масштабировать, поиск закономерностей был бы по-настоящему полезным.
— Откуда вы его взяли?
— Мы разработали специальное окрашивание клеток, чтобы помочь собрать как можно больше информации в одном анализе, не полагаясь на решения биолога об окраске чего-либо. В анализе Cell Painting используется шесть флуоресцентных красителей для выявления восьми клеточных компонентов или органелл: ядра, нуклеол, цитоплазматической РНК, эндоплазматического ретикулума, митохондрий, плазматической (клеточной) мембраны, комплекса Гольджи и F-актинового цитоскелета.
Это похоже на список хитов — любимых красителей микроскопистов, потому что они показывают части клетки, которые реагируют на всевозможные стрессовые факторы, такие как наркотики или генетические мутации.
Тем не менее я не ожидала, что испытания на основе изображений могут оказаться такими же мощными, как и профилирование на основе РНК-транскриптов или белков. В одном эксперименте можно измерить тысячи транскриптов или сотни белков. Тем не менее у нас есть только несколько пятен для данного изображения.
«Насколько далеко это может зайти?», — подумала я.
Первое время провела много бессонных ночей, пытаясь исключить артефакты, улучшить метод и понять, будет ли он стоящим. Но следующее десятилетие принесло открытие за открытием на основе профилирования.
— Сегодня машинное обучение позволяет извлекать из изображений большое количество информации. Были ли эти алгоритмы частью первой версии CellProfiler 2005 года?
— Вовсе нет. Функция CellProfiler заключалась в превращении изображений в цифры, позволяя классическим алгоритмам обработки изображений измерять их свойства. Машинное обучение стало использоваться в трёх направлениях позже.
Во-первых, машинное обучение может находить границы клеток и других субклеточных структур. Алгоритмы глубокого обучения стали точнее, а использовать их стало проще для биологов — взято лучшее из двух миров.
Во-вторых, допустим, CellProfiler извлекает тысячу признаков на клетку. Если вы хотите узнать, являются ли клетки метастатическими, и если это фенотип, который вы можете распознать на глаз, то можно использовать контролируемое машинное обучение, чтобы на основе этих признаков научить компьютер тому, как выглядят метастатические и неметастатические клетки.
Третий способ появился совсем недавно. Вместо того чтобы использовать CellProfiler для идентификации клеток и последующего извлечения их признаков, вы просто передаёте всё изображение во всей его необработанной пиксельной красе нейронной сети глубокого обучения, и она извлекает всевозможные признаки, которые не обязательно очень хорошо соотносятся с предвзятыми представлениями биолога о соответствующих признаках, таких как размер клетки или как то, что [вообще] может окрашиваться в красный цвет в ядре. Мы обнаружили, что это довольно мощный способ извлечения признаков.
Как вы освоили машинное обучение — область, которая может показаться довольно чуждой и пугающей для биологов?
Если бы вы в годы обучения в колледже сказали мне: «Через 22 года ты будешь руководить исследовательской группой, которая занимается искусственным интеллектом», я бы сказала, что вы сошли с ума. Этот переход к машинному обучению был бы невозможен без дружбы с экспертами в области ML — в частности с Джонсом.
После того как мы с ним закончили обучение в Массачусетском технологическом институте, в 2007 году мы открыли лабораторию в Broad Institute, и у нас происходило много мозговых штурмов на тему того, как ML может помочь биологам. Что позволило этим идеям просочиться и развиться? Мы оба перешагнули через границы своих областей и познакомились с терминологией и возможностями обеих сторон, биологии и информатики. Это по-настоящему продуктивное партнёрство. И касается оно уже не только Джонса. В моей группе примерно 50 на 50 людей, пришедших из области биологии и области компьютерных вычислений.
— Вы добились больших успехов в продвижении междисциплинарной работы.
— Мне нравится объединять людей. В моей лаборатории приветствуются люди любопытные и с разными идеями — это нечто противоположное токсичной культуре технологических брокеров, где «мы важны, мы делаем своё дело, и не задавайте вопросов, если не хотите, чтобы вас высмеяли». Когда я поняла, что женщиной в компьютерных науках быть трудно, то сразу осознала и то, что в науке в целом гораздо труднее быть расовым меньшинством.
Мы обращаем внимание на то, обладает ли человек навыками и интересами, которые дополняют группу, проявляет ли он любопытство в областях за рамками его компетенции и может ли он нормально общаться с не имеющими такой же подготовки людьми. И без особых усилий моя лаборатория стала гораздо более разнообразной, чем среднестатистическая вычислительная лаборатория в высшем учебном заведении. И большинство созданных моими выпускниками независимых лабораторий возглавляют женщины или представители миноритарных групп.
Интересно, сколько людей не считают себя расистами или сексистами, но при приёме на работу они думают: «Этот парень говорит как я, он понимает наш язык и жаргон, он понимает нашу область», не говоря уже о том, что «он из тех людей, с которыми я хотел бы выпить пива». Можно увидеть, как это может привести к созданию группы, однородной по демографии, знаниям и опыту в области.
— В настоящее время ваша группа занимается разработкой инструментов профилирования на основе изображений для ускорения открытия лекарств. Почему вы выбрали именно эту работу?
— Несколько свидетельств помогли укрепить миссию. Одно из них получено в результате сравнительных экспериментов в 2014 году. Они показали, что профили на основе изображений могут быть такими же мощными, как транскрипционные профили.
Другой случай описан в нашей статье 2017 eLife. Мы чрезмерно экспрессировали пару сотен генов в клетках и обнаружили, что половина из них влияет на морфологию клеток. Сгруппировав гены на основе данных визуализации, вы можете увидеть в одном красивом кластерном анализе то, на что у биологов ушли десятилетия: нужно было собрать воедино информацию о различных сигнальных путях. Здесь — все связанные с RAS-путём гены, участвующие в развитии рака; там — регулирующие рост тканей гены пути Hippo. И так далее.
Смотреть на эту визуализацию и понимать, что мы обнаружили большой объём биологических знаний для этого набора генов за один эксперимент (возможно, за пару недель работы), — для меня это было по-настоящему выдающимся результатом. Это заставило нас принять решение вкладывать больше времени и энергии в развитие этой траектории исследований.
В статье 2018 года в Cell Chemical Biology исследователи компании Janssen Pharmaceutica откопали изображения, оставшиеся от старых экспериментов, где они измеряли только одну интересующую их вещь. Они обнаружили, что в этих изображениях часто было достаточно информации, чтобы предсказать результаты других анализов компании.
Около 37 % результатов анализов можно было предсказать посредством машинного обучения при помощи имеющихся изображений. Это привлекло внимание большой фармацевтической компании! Замена крупномасштабного анализа лекарственных препаратов на вычислительный запрос экономит миллионы долларов.
В рамках консорциума, который я помогла запустить в 2019 году, десяток компаний и некоммерческих партнёров работает над созданием массивного набора данных Cell Painting, включающего клетки, обработанные более чем 120 000 соединений и подвергшиеся 20 000 генетических возмущений. Цель — ускорить открытие лекарств путём определения механизма действия потенциальных препаратов до их клинических испытаний.
— Как профилирование на основе изображений может помочь в поиске новых лекарств? Приведите примеры.
Recursion Pharmaceuticals дальше всех продвинулась в применении профилирования на основе изображений, с четырьмя лекарственными соединениями, проходящими клинические испытания. Я вхожу в их научно-консультационный совет. Их основной подход заключается в следующем: они возмущают ген, являющийся причиной заболевания человека, а мысмотрим, что произойдёт с клетками. И если клетки изменяются измеримым образом, можем ли мы найти лекарство, которое заставит нездорово выглядящие клетки принять здоровый вид?
Они сделали ещё один шаг вперёд. Даже не испытывая препараты на клетках, они могут вычислительно предсказать, какие фенотипы заболеваний могут быть ослаблены теми или иными соединениями. Они основываются на предыдущих испытаниях, показывающих воздействие соединения на клетки. Я знаю, что эта стратегия работает, потому что моя лаборатория работала над тем же самым в проекте. Препринт мы выпустили только что, хотя делалось это при помощи относительно примитивных биологических методов.
Я сотрудничаю с Полом Блейни из Массачусетского технологического института и Дж.Т. Нилом из Института Броуда над техникой генетического штрихового кодирования, которая позволит нам смешивать кучу генетических возмущений в клетках, а затем с помощью штрихового кодирования выяснять, какая клетка получила тот или иной генетический реагент.
Возможно будет смешать в одной пробирке 200 нормальных и 200 мутировавших человеческих белков, которые мы можем обработать лекарством. В каждой пробирке проверяется, полезен ли этот препарат при любом из этих 200 заболеваний. Это в 200 раз дешевле, чем 200 отдельных скринингов.
Мы получили внутреннее финансирование для проведения эксперимента с 80 препаратами и сейчас ищем финансирование для тестирования около 6800 препаратов. Если у нас всё получится, возможно, примерно через год результаты этого эксперимента позволят предложить реальные лекарства.
Что вас волнует в будущем профилирования на основе изображений в биомедицинских исследованиях — и, возможно, в более широком смысле, что вас волнует в будущем ИИ в этой сфере?
Мы находимся на этапе, когда применение существующих методов машинного обучения улучшает сам процесс открытия лекарств. Но в будущем я вижу экспоненциальный скачкообразный рост, через границы.
Все используемые алгоритмы ML разработаны для социальных сетей: для идентификации лиц, для финансовых учреждений, чтобы выявлять необычные транзакции, и тому подобное. Я думаю, что большее внимание биологическим областям и клеточным изображениям в частности могло бы ускорить продвижение.
А пока машинное обучение продолжает проникать в нашу жизнь, ускоряя прогресс, чтобы не отставать от него, вы можете обратить внимание на наши курсы:
Также вы можете перейти на страницы из каталога, чтобы увидеть, как мы готовим специалистов в других направлениях.
Профессии и курсы
Data Science и Machine Learning
Python, веб-разработка
Мобильная разработка
Java и C#
От основ — в глубину
А также
xaosxaos2
<ирония>
Вы очень отстали от жизни, пару месяцев назад вызывал врача на дом. И что же? Он видимо по лицу уже все продиагностировал, потому-что не сделал ничего что делает доктор (не послушал легкие, не померил давление, не посмотрел температуру, горло… ничего). Просто сказал, я ничего не могу сделать, приходите в поликлинику.
</ирония>