Раковые заболевания чрезвычайно разнообразны и природа их тоже различается. Поиск эффективных лекарств и методов лечения онкологических заболеваний — одна из важнейших задач современной медицины. Ученые по всему миру ищут возможность хоть немного повысить эффективность лечения пациентов с раком.

Объединенная команда специалистов из  Mail.Ru GroupInsilico Medicine и МФТИ решили попробовать привлечь к поиску противораковых лекарств специально обученную нейросеть. Проблема в том, что создание эффективного лекарственного противоракового лекарства — очень сложная задача. Обычно этот процесс занимает годы. Но если использовать современные технологии, то время поиска таких веществ сокращается в разы, аналогичным образом уменьшается и стоимость работ.

Ситуация усложняется тем, что сейчас количество различных химических соединений, известных человеку, составляет десятки миллионов. Лишь малая толика этих соединений используются в лекарственных препаратах. В медицине, в основном, используют старые лекарства для создания новых, более эффективных. Качественно новые препараты создаются относительно редко. Проблема еще в том, то среди всех миллионов химических соединений вполне может оказаться вещество, которое является эффективным лекарством против сложного заболевания, того же рака.

Но как определить то, что вещество пригодно для использования в медицине? Человеку понадобятся годы, чтобы проанализировать хотя бы несколько процентов уже известных соединений. В этом, без сомнения, могут помочь компьютерные технологии. В частности, самообучающиеся нейронные сети.

Нейросеть была создана на основе архитектуры так называемых состязательных автокодировщиков, которые, в свою очередь — разновидность генеративных состязательных сетей. Для обучения нейросети специалисты использовали молекулы с уже известными лечебными свойствами, с указанием эффективной концентрации каждого вещества. Сначала нейросеть обучали, используя три компонента. Это кодировщик, декодер и дискриминатор. Первый компонент совместно со вторым сжимал и восстанавливал информацию об исходной молекуле. Дискриминатор же позволял получить сжатое представление о молекуле наиболее пригодным для последующего восстановления. После работы с большим количеством известных молекул начиналась работа с неизвестными, причем первые два компонента отключались.

Для того, чтобы «скормить» нейросети информацию о химическом веществе, обычной формулы недостаточно. Нужен так называемый фингерпринт, информационный отпечаток, который содержит всю информацию о молекуле. Дело в том, что нейронной сети для ее обучения нужна одинаковая длина описания какого-либо объекта, в данном случае — молекулы химического соединения. Специалисты формировали фингерпринты на основе уже известных молекул химических соединений, о чем и говорилось выше. Информация «скармливалась» нейросети большое количество раз, пока сеть сама не научилась генерировать фингерпринты молекул. Российские ученые добились создания отпечатков для 72 млн молекул, после чего сравнили сгенерированные нейросетью информационные отпечатки с базой.


Источник: corp.mail.ru

В этом проекте хорошим подспорьем стало и знание о том, какими примерно качествами должны обладать молекулы веществ, которые пригодны для того, чтобы быть лекарством. По этим критериям и сравнивались база и отпечатки. «Мы сделали нейронную сеть генеративного типа, то есть умеющую создавать схожие вещи, на которых она обучалась. Мы обучили модель сети, которая способна создавать новые фингерпринты с заданными свойствами», — говорит один из авторов, аспирант МФТИ Андрей Казеннов.

Для того, чтобы проверить работоспособность нейросети, специалисты использовали патентную базу веществ, о которых уже известно, что они являются эффективными противораковыми лекарствами. Изначально сеть обучали на части лекарственных форм и затем тестировали на второй части. Эффективной работа нейросети была бы признана в том случае, если бы она смогла предсказать уже известные формы веществ, которых, однако, не было в обучающей выборке. И нейросеть смогла справиться с этой задачей. На нескольких десятков указанных ею веществ, которые могут являться антираковыми лекарствами, многие действительно являются таковыми и имеют патенты.



«Генеративные состязательные сети с применением обучения с подкреплением — это будущее фармакологии. В этой статье мы показали первое применение генеративных состязательных автокодировщиков, GAN’ов, для создания новых молекулярных структур противоопухолевых препаратов по определённым параметрам. Эта работа была сделана ещё летом, и с тех пор мы значительно продвинулись в этом направлении. Я очень надеюсь, что в скором времени мы сможем разрабатывать индивидуальные лекарства для лечения редких заболеваний и даже для лечения отдельных пациентов. Уже в этом году искусственный интеллект начнёт трансформировать фармацевтическую индустрию», — говорит один из авторов исследования Александр Жаворонков.

Поиск лекарственных препаратов, которые могут оказать эффективное воздействие на раковые клетки, продолжается. И занимаются этим все больше компаний. Например, аналогичную работу выполняет когнитивная система Watson, созданная корпорацией IBM.
Поделиться с друзьями
-->

Комментарии (6)


  1. mikhanoid
    13.02.2017 11:57
    -1

    Мда уж. Тут дьявол, однако, в деталях. На какой выборке обучали? На какой выборке проверяли? Какие именно препараты смогла угадать сеть (в том смысле, а насколько отличаются формулы в обучающей выборке от того, на чём тестировали)? Каков проент был угадывания и насколько он отличается просто от случайного? Те «новые» формулы, которые не попали в тестовую выборку, они вообще реальным химическим веществам, которые создать можно, соответствуют?

    Ну и ссылка на подробное описание эксперимента не помашеала бы.

    Как-то это всё… Эмс. Такое ощущение, что настоящая наука и поиск настоящих знаний сейчас активно будет подменяться такими вот «исследованиями». А IT-шники станут специалистами во всех областях знаний сразу. Грустная картинка.


    1. Desiderio
      13.02.2017 15:52
      +2

      ссылка на подробное описание эксперимента не помашеала бы.
      Может, вот тут есть?
      Результаты опубликованы в рецензируемом журнале Оncotarget.


      ощущение, что настоящая наука и поиск настоящих знаний сейчас активно будет подменяться такими вот «исследованиями»
      Если это и правда было исследованием, без кавычек, то это вполне в духе времени. Современная наука продвинулась настолько далеко и глубоко в большинстве сфер знаний, что скоро «рядовым» учёным будет всё сложнее открывать что-то принципиально новое, так как чтобы дойти до конечной грани уже имеющихся исследований нужно потратить очень много времени на обучение, а потом после этого ещё тратить время на более глубокие исследования. Возможно, что в [не]отдалённом будущем учёным только и останется, что работать над тем, чтобы попытаться понять результаты научных достижений, сделанных нейронными сетями.


      1. mikhanoid
        13.02.2017 21:02

        Интересно, мне одному кажется странной методика тестирования результатов? Эмс… Они же даже не получили никаких конкретных соединений, только распределение вероятностей, в которые попали какие-то уже известные соединения. Или я чего-то не понимаю?

        AAE was trained on fingerprint, LCONC and GI data for 6252 compounds profiled on MCF-7 cell line. After that we sampled 640 vectors from prior distribution n latent layer with 640 GI values from normal distribution
        N (5,1). Based on this data, we used decoder to generate 640 probability vectors with corresponding LCONC values. Then we extracted the set of probability vectors with LCONC < -5.0 M. In total, we obtained 32 vectors. We screened 32 vectors them against a library of 72 million compounds derived from Pubchem [25] (Figure 2). We sed the maximum likelihood function to select top 10 hits for each of the 32 vectors.


        Если это и правда было исследованием, без кавычек, то это вполне в духе времени. Современная наука продвинулась настолько далеко и глубоко в большинстве сфер знаний, что скоро «рядовым» учёным будет всё сложнее открывать что-то принципиально новое, так как чтобы дойти до конечной грани уже имеющихся исследований нужно потратить очень много времени на обучение, а потом после этого ещё тратить время на более глубокие исследования. Возможно, что в [не]отдалённом будущем учёным только и останется, что работать над тем, чтобы попытаться понять результаты научных достижений, сделанных нейронными сетями.

        Да. Это серьёзная проблема, но, обычно, эта проблема в науке решается выработкой нового языка, который позволяет обобщить имеющиеся результаты и двигаться дальше. Нейронные бы сети пригодились в выработке этого языка, потому что они как раз нацелены на обобщение. Но пытаться получить качественно новые результаты на статистике из прошлого, ну, это, как минимум, весьма странное желание.


    1. Sadler
      13.02.2017 21:18

      Лично меня при чтении текста смутило, что они используют обучение с подкреплением, хотя в статье ни о каком динамическом процессе речи не идёт, лишь о статичных данных по веществам, которые ужимаются автокодировщиком, затем скрытый слой оптимизируется и разворачивается декодером в надежде получить нечто осмысленное. Видимо, надо почитать оригинал.


      1. mikhanoid
        14.02.2017 09:53

        Это техника обучения сетей такая. Ну, то есть, там действительно обучение с подкреплением.


  1. Desiderio
    13.02.2017 15:50

    del (не в ту ветку написал).