В ЕРАМ работают не только бизнес-аналитики, разработчики, дизайнеры, инженеры по качеству, но и настоящие ученые: химики и биологи. Они не носят белые халаты и не устраивают зрелищные эксперименты, но делают сложную и важную работу.

Чем занимаются химики и биологи в IT-компании и почему заказчики высоко ценят их работу?



Три года назад в ЕРАМ появилось подразделение Life Sciences, где среди прочих работают химики и биологи. Мы сотрудничаем с 9 из 10 крупнейших фармацевтических компаний в мире. Часть работы по созданию продуктов для них – проведение экзерпции (от англ. to excerpt – делать выдержки): исследователи находят в статьях научные факты и заносят их в специальную базу данных.

Почему компаниям нужны экзерпторы и почему они высоко ценят их услуги? Дело в том, что их труд помогает выполнить три важные задачи:

1. Узнать, из каких веществ можно сделать лекарство


Каждый год в мире проводят тысячи научных исследований разной степени актуальности и полезности. Экзерпторы систематизируют их результаты и заносят информацию в специальные базы данных. Это нужно, чтобы отделить полезные открытия от тех, которыми наука воспользоваться не может – по крайней мере пока. Фармацевтические компании обращаются к таким базам данных, когда отбирают вещества для создания новых лекарств. Иногда открытие «выстреливает» очень нескоро: результаты сегодняшних исследований могут пригодиться фармацевтике и через 10, и через 20 лет.

2. Застраховаться от производства некачественных лекарств


Выпускать на рынок лекарство, чьи побочные эффекты перевешивают пользу, и антигуманно, и дорого. Известны случаи, когда новые препараты несли больше вреда, чем пользы. Наример, их длительное применение пагубно влияло на здоровье пациентов. Если бы все данные о воздействии некоторых лекарств на организм заранее собрали в одном месте и проанализировали должным образом, вероятно, они вообще не появились бы на рынке.

3. Правильно подобрать добровольцев для клинических исследований


Клинические исследования проводят, чтобы объективно оценить эффективность новых лекарств. Добровольцев отбирают по большому набору критериев, отступление от которых может исказить результаты. С опорой на базы данных, создаваемые при участии экзерпторов, выбор добровольцев становится точнее, и это здорово бережет бюджеты. Дело в том, что провести испытания на одном человеке стоит порядка 10 миллионов долларов. Неправильно подобранный доброволец – уже очень дорогая ошибка, не говоря о наборе целой группы из 100 человек.

На рынке экзерпции научной литературы конкуренция между заказчиками (в основном фармкомпаниями) и подрядчиками почти одинаково высока. Самые серьезные конкуренты для наших ученых-экзерпторов – специалисты из Филиппин, стран Восточной Европы и Индии.

Без профильного образования справиться с такой работой невозможно. Не-биолог не поймет биологическое исследование с точки зрения методологии: что делается, зачем, о чем говорит результат. Кроме того, важна и специализация внутри конкретной науки: например, физиолог не сможет извлечь из статьи данные по генетике, и наоборот. А чтобы научить человека должным образом читать статьи по неорганической химии, потребуется три года.

В петербургском ЕРАМ работают более 200 экзерпторов, которые читают научные статьи – не только на английском, но и на немецком, китайском, японском и других языках. Однажды наши ученые работали над проектом, где нужно было разбираться в научной литературе на всех европейских языках – а их больше двадцати.

Найти химика или биолога, который умеет читать на иностранном языке – особенно если это не английский, – очень сложно. Несколько лет назад в ЕРАМ пришел проект на японском, и работа не встала благодаря счастливой случайности: в подразделении нашли человека, который умел читать на этом языке.


Чтобы создать лекарство, биология, химия и фармакология работают сообща. Биология дает основу – исследует механизмы процессов в организме и то, как на них влияют разные вещества. Химия ищет структуру, способную воздействовать на организм должным образом с минимальными побочными эффектами. Фармакология использует их знания – проводит исследования на животных, а потом – на людях.

Всё начинается с химико-биологических исследований, где есть свои тренды. Сейчас прицельно изучают антибиотики, антиопухолевые препараты, лекарства от заболеваний нервной системы, поведенческих расстройств. Чтобы улучшить доставку лекарственных веществ в клетку и повысить их эффективность, исследуют транспортные структуры мембраны и клеточные рецепторы. Еще один тренд – изучение растений. Современная химия позволяет разложить растительный экстракт на молекулы и исследовать, как каждая из них влияет на разные клетки организма. Если обнаружится, что конкретное вещество эффективно, например, против воспаления, можно выделить его из растения и взять за основу нового лекарства.


Научные методы развиваются, техника совершенствуется, что открывает перед химией и биологией огромные возможности. Еще 20 лет назад микроскопы позволяли изучать лекарственное воздействие на организм лишь на уровне тканей, а теперь исследования ведутся на молекулярном уровне. Появилась возможность влиять на организм более тонко, например, создавать препараты, воздействующие на транспортный канал клетки. Лекарство может открыть его, чтобы доставить в клетку активное вещество, или закрыть и не пропустить внутрь вредоносные структуры. С помощью современных препаратов можно даже «включать» и «выключать» определенные участки ДНК.

Это все становится возможным благодаря в том числе экзерпторам, которые работают с научными статьями. Эта работа сложная и рутинная, и встает вопрос: можно ли ее автоматизировать? Короткий ответ: частично.

В ЕРАМ разработали онлайн-инструмент для химиков-экзерпторов. Его цель – не заменить ученых, а освободить от рутинных операций. Приложение помогает отделять релевантные статьи от неактуальных для конкретной задачи, определять нужную информацию в релевантной статье, автоматически экзерпировать нужную химическую информацию, исправлять ошибки и опечатки в PDF-документе и оптически распознавать химические структуры. Проект был основан на использовании технологий машинного обучения. Специалисты ЕРАМ разработали алгоритмы, которые ищут и выделяют в текстах химические факты. Их хорошо удается находить в конкретном окружении и в стандартном виде (например, точка плавления всегда обозначается числом или числовым диапазоном). Однако обнаружить сложные факты приложению удается не всегда: статьи пишут живые люди без опоры на конкретный образец.

Всё началось со словаря, созданного в помощь экзерпторам ЕРАМ. Ученые не всегда находят в статьях исчерпывающую информацию и вынуждены дополнять ее фактами из регламентированных заказчиком источников (раньше это были книги и сканы с них). Их объединили в общую базу данных, сделали по ней удобный поиск и добавили другой необходимый экзерпторам функционал – получился словарь. Уже он один ускорил обработку 20% статей в десять раз.

Один из пользователей словаря поделился статистикой. Раньше на обработку статьи, содержащей 200 соединений, у него уходило 5 дней, а со словарем это время сократилось до 4 часов.

В подразделении Life Sciences много людей, средний возраст которых выше, чем у других сотрудников компании. Есть те, кому за 60 или 70, и на первый взгляд их работа может показаться скучной. Но именно благодаря специалистам, которые классифицируют результаты научных исследований, появляются новые лекарства, прививки и иммуностимуляторы. А это, если и не спасает весь мир, то дает многим людям шанс жить дольше.
Поделиться с друзьями
-->

Комментарии (11)


  1. ivanych
    27.07.2017 17:39
    +1

    Правильно ли я понял суть? Ученые у вас находят некие научные факты и забивают их в базу. А вы продаете эту базу тем, кому нужны эти факты.

    Т.е. вы продаете этакий научный Консультант-плюс?


    1. AliceMir
      27.07.2017 17:43

      Если очень коротко – да, что-то вроде этого


    1. AliceMir
      27.07.2017 18:14

      Консультант+ это универсальная база для всех, а в этом случае работа делается под заказ для клиента с теми вводными, которые ему нужны для его целей


    1. alexey_girin
      28.07.2017 21:34

      Не только это.
      У нас есть так же гвардейцы Шварца, которые занимаются матиматическими моделями и алгоритмами.
      И они ведут полноценную научную деятельность — статьи, конференции, вот это всё.
      Кроме того — у нас более десяти разработок в области биоинформатики, часть из которых — стала отраслевыми стандартами.
      Много всего, но это, конечно, не впихнуть в одну статью.


  1. NorthDakota
    27.07.2017 17:40
    +1

    Ученые нужны вам чтобы режиссировать и сниматься в клипах


    1. AliceMir
      27.07.2017 17:44

      Мы их уговариваем-уговариваем, обещаем славу героев Breaking Bad, но они не хотят :(


    1. lash05
      27.07.2017 19:33

      Реальных ученых почти не осталось, надо же как-то выходить из ситуации.


    1. shybovycha
      28.07.2017 08:51

      Так ведь конкретно "химики и биологи" — варят кофе для биомассы


  1. jam31
    27.07.2017 21:35

    Какова в среднем минимальная необходимая специализация для такой работы — студент 1-го курса, кандидат наук? Если требования не слишком высоки, то, возможно, задачу можно решить на краудсорсинговых платформах типа Толоки или Mechanical Turk.


    1. AliceMir
      28.07.2017 13:49

      Квалификация требуется высокая — среди наших экзерпторов много людей с кандидатской степенью. Кроме того, работа на заказчика подразумевает NDA и/или доступ к корпусу регламентированных материалов, которые нельзя расшарить для краудсорсинга. Поэтому такое решение.


    1. alexey_girin
      28.07.2017 21:41

      тут я немного подкорректирую Алису — работа найдётся для специалистов любого уровня (не боги горшки обжигают, да) — проекты разные и не все требуют мега уровня. Кроме того — у нас есть курсы по биоинформатике, где можно прокачать скилл.
      Что же касается краудсорсиновых платформ — тут не всё так просто. ЛайфСайнс — это область пристального внимания регулятора как в США (FDA) так и в Европе. Там всё регламентировано и подчинено строгим правилам — просто так нельзя с бухты барахты прийти со своим инструментарием, который к тому же не находится в полной власти оператора. На кону стоит жизнь и здоровье миллиардов людей, поэтому это вполне обоснованно.