Машинное обучение и глубокие нейросети способны распознать и анализировать «язык поведения» животных способами, находящимися за пределами человеческих возможностей



Для отслеживания движений животных в природной среде учёные всё чаще обращаются к методам машинного обучения (МО). На этом видео алгоритм DeepPoseKit отслеживает движение и ориентацию пустынной саранчи в замкнутом пространстве, чтобы снабдить исследователей данными по совместному поведению насекомых.

В попытках понять, что происходит в головах у животных, отправляли нейробиологов по неожиданным путям: от подглядывания непосредственно в живой мозг до управления нейронами при помощи световых вспышек, создания сложных устройств и виртуальных окружений.

В 2013 году это привело нейробиолога Боба Датту вместе с коллегами из Гарвардской медицинской школы в супермаркет Best Buy, находящийся на той же улице, что и их лаборатория.

В магазине потребительской электроники они нашли то, что искали: Xbox Kinect, игровое устройство, распознающее движения игроков. Учёным нужно было наблюдать за мельчайшими деталями движений изучаемых ими мышей, но ни одна из традиционных лабораторных технологий не могла с этим справиться. Поэтому группа Датты обратилась к игрушке, чтобы использовать её трёхмерную информацию о движениях тела животных для изучения их поведения в окружающей среде. Устройство, по сути, выдавало им облачка точек в трёхмерном пространстве, а команда потом анализировала ритмические движения этих точек.

Решение Датты, возможно, для своего времени было и неортодоксальным, однако стало символическим для сегодняшней волны автоматического подхода, преобразующей науку о поведении. Изучая поведение животных более тщательно и количественно, исследователи надеются лучше понять отвечающие за него ненаблюдаемые внутренние состояния. «Мы не знаем, в каких возможных состояниях может находиться животное», — писал Адам Калхун, постдок, изучающий поведение животных в Принстонском университете.

Очередное препятствие возникает при попытке сопоставить эти внутренние состояния конкретной активности в сложных нейронных контурах мозга. Хотя сложные инструменты способны записывать работы тысяч нейронов одновременно, «мы не понимаем выходные данные мозга, — сказал Датта. – Чтобы понять это плотное нейронное кодирование, потребуется доступ к более обширному пониманию поведения».

Это обширное понимание, возможно, скоро поддастся нашим попыткам его понять. Основываясь на успехах машинного обучения, учёные создают алгоритмы, автоматически отслеживающие движения животных вплоть до крохотных изменений в угле крыльев мухи или изгиба спины мыши. Также они создают инструменты, способные находить закономерности, автоматически анализируя и классифицируя эти данные на предмет подсказок по поводу внутренних состояний животных.

Ключевое преимущество этих методов состоит в том, что они способны отыскивать закономерности, невидимые людям. В работе, опубликованной в прошлом месяце в журнале Nature Neuroscience, Калхун совместно с принстонскими нейробиологами Малой Мёрти и Джонатаном Пиллоу, создали модель машинного обучения, использующую исключительно поведенческие наблюдения для определения трёх внутренних состояний, определяющих брачные повадки плодовых мушек. Манипулируя активностью мозга мушек, исследователи затем смогли определить набор нейронов, контролировавших эти состояния.

Работа над отслеживанием движений и поведенческим анализом, сделавшая возможными эти открытия, представляет технологическую революцию в деле изучения поведения. Из неё также следует, что это первый из множества будущих успехов. Теперь учёные применяют эти методы для поиска ответов на вопросы в нейробиологии, генетике, эволюции и медицине, которые до текущего момента казались нерешаемыми.



Логи и каталоги


Десятилетия учёные количественно оценивали поведение животных в лабораториях и в естественной среде, будучи вооружёнными ручкой, бумагой и секундомером. Они следили, как их подопытные субъекты спят, играют, добывают пищу и спариваются. Они оценивали наблюдения, набрасывали схемы закономерностей, придумывали организационные платформы для систематизации и объяснения этих трендов. Биологи Николаас Тинберген, Конрад Лоренц и Карл фон Фриш получили в 1973 году Нобелевскую премию за независимое проведение подобных экспериментов с рыбами, птицами и насекомыми.


Зоолог Илан Голани вручную зарисовывал движение и поведение различных видов, с целью количественно описать правила, управляющие поведением животных. На этих рисунках показано вращение всего тела медоедом.

Такие каталоги поведения могут быть чрезвычайно подробными. В описании умывания мыши в работе 1973 года в журнале Nature было описано «суетливое движение передних лапок под мордочкой» и «широкие синхронные, но асимметричные движения передних лапок над головой», и оценено, с какой вероятностью подобные жесты могут проявляться в разных ситуациях. Исследователям нужно было описывать всё с подобной детализацией, потому что им не было известно, какой из аспектов наблюдаемого поведения может оказаться важным.

Некоторые учёные подошли к этому делу с противоположной стороны, ограничив разнообразие поведения животных до минимума, поместив их в контролируемые лабораторные условия и позволив им принимать только простейшие решения с двумя вариантами, типа выбора правого или левого поворота в лабиринте. Такие упрощения иногда оказывались полезными и информативными, однако искусственные ограничения также компрометируют понимание учёными естественного поведения и могут привести к потере важных сигналов. «Необходимость прекрасно понимать поведение серьёзно ограничивает возможности этих исследований», — сказала Энн Кеннеди, постдок по теоретической нейробиологии в Калифорнийском технологическом институте.

Поэтому учёные решили обновить данную область, «меняя мышление в сторону количественного подхода», как сказал Талмо Перейра, аспирант в лабораториях Мёрти и Джошуа Шэвица их Принстона. А важным этапом этого изменения стала автоматизация как сбора, так и анализа данных.



Отслеживание морд, позвоночников и хвостов


Технология захвата изображения всегда была важной для отслеживания поз движущихся животных. В XIX веке Эдвард Мейбридж использовал хронофотографию для разбора механики бега лошади и танца людей. Фотографии облегчали разбор положения, допустим, конечностей или головы животного, и делали этот процесс более точным. При появлении технологи записи видео исследователи смогли делать более точные измерения – однако их всё равно приходилось основывать на грубых оценках скорости или положения животного. Отслеживать каждое движение в трёх измерениях было невозможно. И всё равно нужно было проделать огромный труд для ручной каталогизации всех примечаний к видео и заноса их в компьютер – этот процесс не сильно улучшился по сравнению с более старым методом зарисовок в записных книжках.


Эдвард Мейбридж использовал покадровую съёмку для изучения аллюра лошади и других движущихся животных. Его камера могла выхватывать и запечатлевать детали, недоступные человеческому глазу.

В 1980-х исследователи начали адаптировать для своих целей алгоритмы компьютерного зрения, которые уже использовались для поиска граней и контуров в изображениях, для решения таких задач, как отслеживание контуров мух на поверхности. В последовавшие десятилетия были разработаны системы, отмечавшие местоположение животного в каждом кадре видео, находившие конкретное животное в группе из нескольких, и даже начавшие определять определённые части тела и их ориентацию.

И всё же эффективность этих программ оставляла желать лучшего. «Среди них были намёки на то, что может произойти в будущем», — сказал Йен Кузин, директор института изучения поведения животных им. Макса Планка в Германии. «Однако реально сложные программы смогли появиться только совсем недавно, благодаря развитию глубокого обучения».

Используя глубокое обучение (ГО), исследователи начали обучать нейросети отслеживанию положения суставов и крупных частей тела практически любого животного – насекомых, мышей, летучих мышей, рыб – в каждом кадре видео. Нужно лишь сделать немного размеченных кадров (для некоторых алгоритмов хватало и десяти). В результате программа рисует цветные точки поверх тела животного, определяющие положение его носа, хвоста, ушей, ног, ступней, крыльев, позвоночника и т.п.

За последние пару лет количество умеющих делать это программ резко возросло, благодаря не только прогрессу в машинном обучении, но и параллельной работе разметки движений человека киношниками, аниматорами и специалистами из игровой индустрии.


Новые методы могут отслеживать позы различных животных во время их взаимодействия. На видео показано, как алгоритм SLEAP автоматически размечает и отслеживает части тел пары мух во время ухаживания (слева) и двух мышей, изучающих окружение.

Конечно, если движение записывается для нужд Голливуда или Кремниевой долины, людям легко надевать специальные костюмы, увешенные маркерами, за которыми системе легко следить. Эти данные можно использовать для построения детальных моделей поз и движений. Однако вариант с костюмами не подходит для изучения животных.

Пять лет назад Джонатан Уитлок, нейробиолог из Норвежского научно-технологического университета начал активно искать другой способ отслеживать изучаемых им мышей. Он пробовал всё, что мог придумать: они с коллегами сбривали мышам шерсть и размечали их чернилами, отражающими инфракрасный свет. Они наносили на спинки животным суспензию, содержащую стеклянные шарики, которая часто используется в отражающей дорожной разметке. Они красили суставы животных светящимися чернилами и лаком. Они пробовали много чего, но всё это не работало, как нужно: иногда маркеры были недостаточно яркими для отслеживания, иногда они раздражали мышей, нарушая их поведение.

В итоге команда Уитлока остановилась на наклеивании крохотных кусочков отражающей ленты на три точки на спине животного для воссоздания движений позвоночника и надевании крохотного шлема с четырьмя дополнительными кусочками ленты для отслеживания движений головы. «Даже этого хватило для того, чтобы открыть нам целый новый мир», — сказал Уитлок.

www.youtube.com/watch?v=3RaHuybwtFI&feature=youtu.be
Активируя определённые нейроны у мухи, исследователи заставили её идти задом наперёд по сферической карусели. Метод глубокого обучения измерял изменение углов в суставах ног мухи и отображал движение ног, брюшка и антенн в трёхмерное пространство.

Но многие исследователи хотели избавиться от всяких маркеров, и отслеживать больше, чем какие-то семь точек на теле животных. Скомбинировав идеи, полученные в предыдущих работах с животными и людьми, несколько лабораторий создали простые в обращении системы, получающие сегодня широкое применение.

Первая из этих систем заработала в прошлом году. DeepLabCut разработали гарвардские нейробиологи Макензи Мэтис и Александр Мэтис, переделав для этого нейросеть, обученную классификации тысяч объектов. Вскоре быстро появились и другие проекты: LEAP (Leap Estimates Animal Pose), разработанный Перейрой и другими в лабораториях Мёрти и Шэвица; SLEAP, следующий вариант от той же команды, отслеживающий положение частей тела нескольких взаимодействующих животных; DeepPoseKit группы Козина, опубликованный несколько месяцев назад.

«Она может очень быстро обучаться, — описывает Мёрти систему LEAP. – За 10-15 минут её можно обучить автоматической работе со всеми видеороликами». Другие группы работают над моделированием поз в трёхмерном, а не двумерном пространстве, калибруя такие же модели при помощи нескольких камер.

«Внутри эти технологии могут быть невероятно сложными, — сказал Кузин, — но пока что их удивительно легко применять к очень широкому спектру задач, от отслеживания движений мышиных усов до поведения муравья или образования косяков рыб».

Уитлок обнаружил, что в изучаемых им мышах определённые движения и положения кодируются в участках коры, принимающей участие в координированных движениях – а, возможно, и в других активностях. «Эти участки мозга очень активно занимаются вопросом того, как животное держит голову, — сказал он. – Этот аспект обработки информации корой раньше мы просто не принимали во внимание», поскольку исследователи не умели отслеживать движения свободно двигавшихся животных.

Схематически изображая позу животного, алгоритм помогает лучше понять его поведение. По сути, все измеряемые аспекты поведения представляют собой «изменения позы во времени, — сказал Уитлок. – И мы научились считывать позу».

Поскольку ПО для отслеживания поз упростило сбор данных, «теперь мы можем переключаться на другие задачи», — сказал Бенджамин де Биворт, биолог-бихевиорист из Гарвардского университета. Например: как определять строительные кирпичики поведения и как их интерпретировать?



Скрытый язык


Попытки ответить на эти вопросы долгое время зависели от интуиции наблюдателя – от «безукоризненного восприятия», как шутят этологи (специалисты по поведению животных). Однако интуиция подвержена предубеждениям, проблемам с воспроизводимостью и трудностями при обобщениях.

Зоолог Ильян Голани из Тель-Авивского университета провёл большую часть последних шести десятилетий в поисках менее случайного способа описания и анализа поведения – в котором использовались бы фундаментальные единицы поведения, что-то типа атомов в химии. Ему не хотелось описывать поведение как «ухаживание» или «кормление». Ему хотелось, чтобы эта характеризация проявлялась естественным образом, из общего набора правил, выведенных из анатомии животных. У Голани есть собственная модель того, как должны выглядеть эти единицы и правила, однако он считает, что данной области ещё далеко до достижения консенсуса по этой части.

Другие исследователи, напротив, уверены, что МО и ГО способны скорее привести эту область к достижению консенсуса. Но DeepLabCut, LEAP и другие передовые алгоритмы, отслеживающие позы, полагаются на обучение с учителем – их обучают распознавать положение частей тела на основе данных, размеченных вручную. Учёные же надеются находить и анализировать базовые строительные кирпичики поведения при помощи обучения без учителя. Такой подход, возможно, самостоятельно сможет раскрыть невидимую нам структуру поведения, так, чтобы людям не нужно было навязывать системе каждый следующий шаг, внося ошибки, ставшие результатом скрытых предвзятостей.

Интересный пример такого подхода появился в 2008 году, когда исследователи определили четыре базовых единицы движения червя, которые можно сложить вместе, получая практически все движения, доступные этому животному. Эта компактная репрезентация, получившая название «эйгенчервь» [от «эйген», т.е. «собственный» / прим. перев.], предлагает количественный метод оценки поведенческой динамики.


Алгоритм построения последовательности движений Motion Sequencing, созданный в лаборатории Боба Датты в Гарвардской медицинской школе, определяет небольшие единицы, или «слоги», в поведенческой динамике мышей. Учёные предполагают, что поведение мышей состоит из таких слогов, идущих друг за другом согласно определённым «грамматическим» правилам.
На видео представлено шесть примеров таких поведенческих единиц («пригнуться и рвануть», «бежать вперёд», «умывание», «наморщить морду», «агрессия», «попытка бегства»). Каждый из них составлен на основе отслеживания разных мышей; появляющиеся точки отмечают одинаковое простое поведение.

Датта вывел этот подход в 2013 году на совершенно новый уровень, взяв на вооружение хитрость с Xbox Kinect, и довольно быстро достиг с ним успеха. Когда они с коллегами посмотрели на собранные данные, описывающие движения мышей, они удивились тому, как быстро смогли увидеть в них структуру. Динамика трёхмерного поведения животных естественным образом раскладывалась на небольшие сегменты, длительностью в среднем около 300 мс. «И это просто данные. Я вам показываю сырые данные, — сказал Датта. – Это просто фундаментальное свойство поведения мыши».

Он решил, что эти сегменты очень похожи на то, как должны выглядеть единицы поведения – будто слоги, составленные вместе по набору правил, или грамматике. Они с командой изготовили глубокую нейросеть, определяющую эти слоги. Она искала способ так разделить активность животного на отрезки, чтобы те наилучшим образом позволяли предсказывать будущее поведение. Этот алгоритм, названный Motion Sequencing (MoSeq), выдавал «слоги», которым исследователи потом давали имена вроде «бежать вперёд» или «пригнуться и рвануть» или «попытка бегства». В типичном эксперименте мышь использовала 40-50 таких слогов, и лишь некоторые из них соответствовали тому, для чего у людей было название.

«Их алгоритм может вычленять такое поведение, для которого у нас даже нет названия», — сказал Уитлок.

Теперь исследователи пытаются определить биологическую или экологическую важность этих вариантов поведения, не замеченных ранее. Они изучают, как эти элементы поведения отличаются у разных индивидов, или полов, или видов, как они начинают нарушаться с возрастом или в результате болезни, как они вырабатываются во время обучения или в ходе эволюции. Они используют эту автоматическую классификацию, чтобы изучать то, как влияют на поведение различные мутации в генах и принятие лекарств, и для описания социальных взаимодействий.

И они уже начинают проводить первые связи с мозгом и его внутренними состояниями.



Предсказывая состояния мозга и элементы поведения


Датта с коллегами обнаружили, что в полосатом теле, участке мозга, отвечающем за планирование моторики и другие функции, для активации различных «слогов» поведения, найденных программой MoSeq, активизируются различные наборы нейронов. Поэтому «мы знаем, что эта грамматика напрямую управляется мозгом, — сказал Датта. – Это не просто эпифеномен, это реальное явление, управляемое мозгом».

Интересно, что нейронное представление определённого слога не всегда было одним и тем же. Оно менялась, отражая ту последовательность, в которой находился этот слог. Изучая активность нейронов, Датта мог сказать, был ли определённый слог частью фиксированной или переменчивой последовательности. «На высшем уровне, — сказал он, — это говорит о том, что полосатое тело не просто кодирует нужное поведение. Оно также сообщает информацию о его контексте».

Далее он поддержал эту гипотезу, проверяя, что произойдёт, когда полосатое тело перестанет работать как следует. Слоги остались теми же, но грамматика нарушилась, последовательность действий стала более случайной и менее адаптивной.

Другие исследователи смотрят на происходящее в мозге на более долгих временных промежутках. Гордон Берман, биофизик-теоретик из Университета Эмори использует для моделирования поведения технику анализа без учителя Motion Mapper. Эта модель, располагающая элементы поведения в определённой иерархии, может предсказывать иерархическую нейронную активность мозга, как было продемонстрировано в работе, опубликованной командой исследователей из Венского университета. Берман говорит, что «вдохновляющей целью» этих исследований является возможность когда-нибудь использовать Motion Mapper для предсказания социального взаимодействия животных.

А ещё есть Мёрти с её командой, и их поисками скрытых внутренних состояний. Они уже создали модель, использовавшую измерения движений мухи для предсказаний того, как и когда самец мухи начнёт петь. Они обнаружили, что, к примеру, с уменьшением расстояния между самцом и самкой, вероятность того, что самец выдаст песню определённого вида, увеличивалась.

В работе, недавно опубликованной в Nature Neuroscience, учёные расширили эту модель, чтобы она включала потенциальные скрытые внутренние состояния самцов мух, которые могли бы улучшить качество предсказаний того, какие песни будет выдавать самец. Команда обнаружила три состояния, которые они назвали «близость», «преследование», и «безразличие». Активируя различные нейроны и изучая результаты этого при помощи модели, они обнаружили, что набор нейронов, который, как считалось ранее, управляет выдачей песен, на самом деле управляет состоянием мухи. «Это иная интерпретация задач нейронов, которые они выполняют в рамках управления поведением мухи», — сказала Мёрти.

Сейчас они развивают полученные знания при помощи SLEAP. «Будет очень интересно увидеть, какие скрытые состояния поможет раскрыть эта модель, когда мы включим в неё отслеживание поз с более высоким разрешением», — сказал Перейра.

Учёные осторожно отмечают, что эти техники должны улучшать и дополнять традиционные исследования поведения, а не заменять их полностью. Также они соглашаются с тем, что нужно провести очень много работы перед тем, как им начнут открываться ключевые универсальные принципы поведения. Нужны будут, к примеру, дополнительные машинно-обучаемые модели, для того, чтобы связать данные по поведению с другими сложными типами информации.

«Это, по сути, первый шаг в области исследований этой проблемы», — сказал Датта. Он не сомневается, что «какой-нибудь паренёк придумает гораздо лучший способ делать это». И всё же, «плюс такого подхода в том, что мы уходим от практик этологов, когда люди спорили друг с другом до крика, до хрипоты, о том, чьё описание поведения лучше. Теперь у нас есть мерило».

«Мы доходим до точки, когда методы способны поспевать за нашими вопросами, — сказала Мёрти. – Мы только что разблокировали эту дорогу. И сняли все ограничения. Люди могут делать всё, что захотят».

Комментарии (0)