Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать / forpes.ru

Главная
Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать

Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать +20

09.01.2019 10:04

sin-mike 20 3900 Источник

В середине 2018 года была опубликована работа по электрофизиологии головного мозга крыс, совместно с которой был выложен в открытый доступ один уникальный набор данных. Уникальность датасета состоит в том, что в нем присутствуют одновременные записи локального полевого потенциала с помощью нового высокоплотного электрода Neuropixels (проба, или probe) и патч-электрода от клетки, находящейся вблизи пробы. Интерес к подобным записям не только фундаментальный, но и прикладной, потому что позволяет валидировать модели для анализа нейрональной активности, зарегистрированной современными пробами. А это, в свою очередь, непосредственно касается разработки новых нейропротезов. В чем принципиальная новизна, и почему этот датасет такой важный, — я расскажу под катом.

КДПВ: результат моделирования внеклеточного потенциала вблизи одного нейрона при генерации потенциала действия (источник). Цветом обозначена амплитуда потенциала. Данная иллюстрация будет важна для дальнейшего понимания.

Электрофизиологические методы исследования головного мозга основаны на регистрации электрического потенциала мозга. Их можно разделить на неинвазивные — в основном, это электроэнцефалография (ЭЭГ), — и инвазивные, например, электрокортикография (ЭКоГ, ECoG), патч-кламп (patch-clamp) или регистрация локального полевого потенциала (ЛПП = local field potentials, LFP). Для последнего маленький электрод размером 10-100 мкм вводят непосредственно в мозг и регистрируют его потенциал. Для того, чтобы исследовать активность мозга млекопитающих на клеточном уровне, т. е. измерить активность отдельных клеток, доступные неинвазивные методы применить не получится, потому что потенциал от одной клетки затухает в пространстве очень быстро, буквально за 100 мкм (cм. КДПВ). Поэтому, в любой животной модели, как и на человеке, неинвазивные методы дают информацию только о коллективной активности нейронов и работают, скорее, на уровне ткани, но никак не отдельных нейронов.

Но и с инвазивными методами не так просто. Для регистрации активности одного нейрона необходимо подвести электрод очень близко к нейрону, идеально поместить его внутрь клетки, как это делается в патч-клампе, или с помощью шарп-электродов, что на практике бывает сложно, очень сложно. С другой стороны, любой внеклеточный электрод размером ~10 мкм будет регистрировать потенциалы действия от 5-10 клеток вокруг за счет высокой плотности нейронов и высокой ионной проводимости внеклеточного раствора. Поэтому задачу регистрации отдельных клеток технически разрешают с помощью увеличения плотности электродов, находящихся вблизи клетки. В связи с этим современная электрофизиология движется в сторону увеличения плотности электродов, увеличения их количества и уменьшения размеров. Еще среди требований появляется необходимость усиливать сигнал поближе к сайту регистрации, чтобы уменьшить шум, да разместить мультиплексор, чтобы уменьшить габариты. Так, в 2016 году была анонсирована в препринте, а 2017 году опубликована в Nature, а в 2018 — уже появилась на рынке, новая высокоплотная проба Neuropixels, изготовленная по CMOS технологии, на 960 электродов, из которых любые 384 доступны для одновременной записи. Размер одного сайта регистрации — 12 мкм. Толщина пробы — 24 мкм. Причем, с высокоплотными электродами, а также с активным усилением, люди начали работать уже давно, но Neuropixels первым достиг производства и продаж, поэтому в ближайшее время именно эта проба в статьях будет встречаться все чаще и чаще.

Рис. Схема Neuropixels. На монолитной кремниевой подложке расположены 960 сайтов, а также полноценный мультиплексор и AD интерфейс на 384 канала.

Структура данных

Помимо классических ритмов активности (альфа, бета, гамма и т. д.), отвечающих за групповую синхронизацию, в данных, полученных с помощью подобных проб, содержатся еще и потенциалы действия отдельных клеток (ПД = action potentials, AP, spikes, спайки), которые на записи выглядят как короткие пики длительностью ~1 мс.

Рис. Сигналы Neuropixels. Выделяют две части сигнала: локальный полевой потенциал (LFP, до ~300 Гц) и клеточная активность (AP, от 300 Гц).

При этом, если низкочастотный локальный полевой потенциал обычно анализируют в рамках осцилляций и используют спектральный или вейвлет-анализ как в ЭЭГ, то клеточная активность содержит в себе потенциалы действия отдельных клеток, она состоит из дискретных событий на фоне шума. Задача выделения активности отдельных клеток формально сводится к задаче вечеринки (cocktail party problem), когда из множества говорящих надо выделить отдельного спикера. Большие данные проявляются тогда, когда мы оценим поток данных с одной такой пробы. Для анализа спайков семплинг проводят 30-40 кГц с оцифровкой от 16 бит на точку (uint16), таким образом, запись уже 100 электродов в течение 1 секунды будет весить от 8 МБ. При этом, эксперименты обычно длятся часы, что составляет сотни гигабайт только с одного рабочего дня, а для полноценного исследования надо, скажем, от 10 таких записей. Поэтому, потенциал данной пробы также сильно зависит от алгоритмов машинного обучения, которые применяют для анализа данных.

Машинное обучение и клеточная активность

Обычно пайплайн для анализа клеточной активности состоит из препроцессинга, сегментации спайков и кластеризации. Эту часть исследований обычно называют кластерным анализом или спайк сортингом (spike sorting). В качестве препроцессинга обычно применяют низкочастотную фильтрацию (>300 Гц), потому что считается, что выше 300 Гц уже нет других физиологичных ритмов, а остается только информация об индивидуальной клеточной активности. Также во время препроцессинга в плотных пробах возможно уменьшение скоррелированного шума, например, наводок в 50 Гц. Сегментация чаще всего берется простая пороговая, например, все, что выше 5 стандартных отклонений шума, можно считать событием. Бывает, применяется двухпороговая сегментация, с мягким и жестким порогом, для выделения связанных событий в пространстве и во времени, как в алгоритме водораздела (watershed segmentation), только в кластеризации спайков распространение маркеров происходит с учетом топологии пробы. После сегментации возле центра каждого события берется окно длительностью 1-2 мс, и сигнал в этом окне, собранный со всех каналов, становится семплом для дальнейшей кластеризации. Этот семпл называется вейвформой спайка (spike waveform). Различные клетки и их различная удаленность от сайта регистрации приводит к тому, что их вейвформы будут различаться (см. КДПВ). В качестве самого алгоритма кластеризации вейвформ применяют EM, поиск по шаблону (template match), глубокое обучение и многие вариации (топик на гитхабе). Единственным требованием является обучение без учителя. Но есть одна проблема. Никто не знает наверняка, какие параметры нужно брать для вашего пайплайна, чтобы анализ был наиболее эффективным. Обычно, после кластеризации, аналитик вручную проходит по результатам и вносит изменения по усмотрению. Таким образом в результатах анализа могут быть как ошибки алгоритма, так и ошибки человека. А могут и не быть, поэтому вопрос объективной валидации остается открытым.

Валидировать пайплайн можно несколькими способами. Во-первых, изменяя внешние условия для объекта исследования. Например, во время эксперимента, если вы изучаете зрительные отделы коры, то вы можете изменять текстуру, цвет, яркость изображения. Если в анализе найдется клетка, изменяющая свою активность в зависимости от стимула, то вам повезло. Во-вторых, вы можете фармакологически усиливать или уменьшать активность отдельного типа клеток, например, с помощью блокаторов определенных каналов. Тогда активность вашей клетки увеличится/уменьшится, и вы увидите разницу на кластеризации. Однако такая модуляция активности приведет также и к изменениям вейвформ, потому что профиль потенциала действия во времени полностью определяется кинетикой ионных каналов. В-третьих, вы можете оптогенетически или с помощью патч-пипетки, как в этом датасете, измерять или индуцировать активность некоторых клеток. За счет большого соотношения сигнал-шум и стабильности патч-электрода, вы будете полностью уверены в активности отдельно взятой клетки. Концептуально, именно сборке валидирующего датасета с помощью патч-клампа и была посвящена публикация.

Рис. Схематическое изображение взаимного расположения пробы (линия AB), и патч-пипетки (линия C’CT) в области коры крысы, отвечающей за обработку сенсорной информации с передней лапы (S1FL = sensory cortex 1 forelimb.

Стоит ли говорить, что методологически работа крайне сложна, потому что экспериментаторам пришлось разработать метод взаимного расположения двух электродов в коре мозга без визуального контроля с точностью ~10 мкм.

Влияние плотности электродов на кластеризацию спайков

Почему так важно увеличивать плотность сайтов регистрации? Для аналогии возьмем известный среди исследователей ЭЭГ факт, что с некоторого порога увеличение количества электродов в шапочке не приводит к заметному увеличению получаемой информации, т. е. сигнал с электрода слабо отличается от линейной интерполяции сигналов от соседних электродов. Кто-то говорит, что этот порог достигается уже на 30, кто-то — на 50, кто-то — на 100 электродах. Кто детально работает с ЭЭГ, могут поправить. Но в случае же клеточной активности порог плотности сайтов регистрации на одной пробе еще не известен, поэтому гонка высокоплотных проб продолжается. Для этого коллектив Kampff Lab продолжает работать уже с пробой с сайтом 5х5 мкм², и для этого выложили предварительные данные. Специалисты же, работающие с плотными электродами, делятся опытом, что, неожиданно, удельное количество отдельных клеток, которые можно выделить с проб одинаковой площади выше там, где выше плотность сайтов регистрации. Этот эффект хорошо проиллюстрирован в другом исследовании теми же соавторами, где искусственно выбирали лишь часть сайтов с плотной пробы и визуально оценивали качество полученных кластеров после tSNE преобразования на PCA значениях из вейвформ спайков. Это не канон для кластеризации, но для иллюстрации зависимости подходит хорошо. В качестве пробы в работе выступал Neuroseeker на 128 каналов общим размером 700x70 мкм² с сайтом 20х20 мкм².

Рис. Диаграммы tSNE over PCA на сырых вейвформах при искусственном уменьшении плотности сайтов на пробе. Рабочие сайты приведены схематически сверху каждой диаграммы. Отчетливо показано, как именно растет количество сегрегированных кластеров с увеличением плотности сайтов, А — самое лучшее, F — самое худшее.

В чем суть работы

В данных Marques-Smith et al. присутствуют одновременные записи патч-клампа и пробы. С использованием данных патч-клампа ученые находили моменты потенциалов действия и использовали эти моменты для сегментации и усреднения вейвформ уже на пробе. В результате, они смогли построить очень качественные распределения потенциала действия во времени и в пространстве по всей площади пробы.

Рис. Слева преведены трейсы активности клетки одновременно в патч-клампе (черным) и на ближайшем из каналов Neuropixels (синим). По середине — 500 отдельных семплов и их усредненение. Справа — распределение потенциала действия в пространстве по площади пробы и во времени.

Далее по тексту ставится вопрос о вариации внеклеточной вейвформы от спайка к спайку — да, она ощутимая и ее надо учитывать. Затем они показывают, что принципиально возможно отследить распространение потенциала действия по клеточной мембране с помощью своих плотных электродов, но это уже было показано ранее в работах других групп. В заключение они предлагают потенциальным коллабораторам несколько фундаментальных вопросов из нейрофизиологии, на которые можно попробовать ответить с помощью их датасета, а также предлагают использовать датасет для валидации пайплайнов по кластеризации клеточной активности. Последнее звучит как дерзкий вызов, потому что алгоритмов кластеризации сейчас очень много, и конкуренция среди методов очень большая. Не каждый метод, во-первых, работает с таким большим количеством каналов, и, во-вторых, далеко не каждый сможет дать объективно качественную кластеризацию.

Что дальше

Во-первых, на подходе новая версия Neuroseeker на 1300 каналов также на CMOS технологиях, предварительные данные уже доступны.

Во-вторых, нас ждет еще один датасет, уже от Allen Institute for Brain Science, который был анонсирован на конференции FENS в 2018 году. В нем будет использовано одновременно 4(!) пробы Neuropixels для исследования зрительных отделов коры мышей при различных визуальных стимулах. Обещали опубликовать в конце 2018 здесь, рядом с данными по бифотону (также очень мощный датасет), но пока никак.

В-третьих, задача по кластеризации клеток из записи внеклеточного потенциала мне кажется эстетически красивой. В ней сходятся методы микроэлектроники, нейрофизиологии и машинного обучения. К тому же она имеет большое фундаментальное и прикладное значение. Предполагаю, что аудитории хабра будет интересно узнать про техническую кухню электрофизиологии, а именно — про алгоритмы кластеризации, ведь в этой области уже развился собственный зоопарк. У меня, в свою очередь, к этим алгоритмам накопилось несколько вопросов, а такой датасет пропускать нельзя. Поэтому в следующей части перейдем к разбору некоторых алгоритмов, начиная с канонического Klustakwik, продолжая шаблонными методами Kilosort или Spyking Circus, и далее YASS, который крайне сильно о себе заявляет, что работает быстрее и качественнее всех остальных, потому что DL и потому что может. Топик на гитхабе со списком некоторых кластеризаторов тут. Предваряя некоторые вопросы, разрабатывать собственный алгоритм я не вижу смысла, потому что конкуренция уже очень большая, и очень много идей уже было реализовано и опробовано другими. Но если найдутся смельчаки — с удовольствием поспособствую.

Предложения и пожелания принимаются. Спасибо за внимание!

Комментарии (20)

Lelik-H
09.01.2019 14:39
#19595340
Напишите несколько подробнее о перспективах этой технологии для решения насущных проблем. Можно ли подключить к сердцу этот датчик? Если ли противопоказания и сколько он стоит?
1. sin-mike Автор
  09.01.2019 14:44
  #19595356
  Пока это все лабораторные исследования на животных. К насущным проблемам человека перейдут только после FDA, но, судя по используемым технологиям, это будет упрощенная сертификация, и на людей тоже скоро перенесут. Принципиально, главное приложение для человека — это нейропротезы, так что, думаю, что нас ожидают более качественные реализации существующих задач BCI. К сердцу нельзя, оно слишком подвижно механически, это его основная роль. Для сердца используют пленочные электроды. А противопоказания использования, в первую очередь, лежат в рамках этики, потому что это сильно инвазивный метод. Исследования должны быть одобрены специальным комитетом. Стоит сама проба около $1000, но, на сколько мне известно, там очередь в предзаказах, прям как на бф.

Ryppka
09.01.2019 17:23
#19595912
Помнится, Наталья Бехтерева применяла пучки микроэлектродов. А тут один электрод пучок, так?
И еще вопрос: разве патч-клэмп электрод помещается внутрь клетки? Всегда думал, что он к ней присасывается, нет?
1. DmitriyN
  09.01.2019 17:51
  #19596016
  Здесь на одной кремниевой игле очень плотно расположено несколько сотен/тысяч электродов. В перспективе это позволяет отслеживать индивидуальную активность каждого нейрона, расположенного в близости зонда. Вот фотка:
  
  Патч действительно просто присасывается, но после того, как мембрана разрывается пипеткой, внутренность клетки электрически соединяется с электродом патча.
1. sin-mike Автор
  09.01.2019 18:03
  #19596062
  +1
  Вот с терминологией как раз проблемы. Почему такое странное название, «проба» (probe), чтобы отделять его от более широкого «электрода», который может обозначать, как один проводок, так и целое устройство со многими сайтами регистрации. Тут как раз все устройство содержит сразу много (900+) сайтов регистрации, причем, сохраняя общие габариты устройства невероятно миниатюрными в рамках одной имплантируемой «иглы». Меньше повреждений при имплантации, больше живой ткани, лучше сигнал. Так что да, можно назвать «один электрод пучок», потому что, эта технология логически развивает пучки из нескольких проводков.
  
  По поводу патча так. Если это режим целой клетки (whole cell), то ионный раствор в пипетке и в клетке объединены, и сигнал будет определяться разностью потенциалов внутри и снаружи клетки. Так что электрически патч-электрод «внутри» клетки, даже если физически это не так.

slovak
09.01.2019 23:02
#19596870
Почему такое странное название, «проба» (probe)

Переводится как «зонд». Вполне подходящее название.
1. sin-mike Автор
  10.01.2019 00:22
  #19596992
  спорить не буду, согласен, но в качестве профессионализма прижилось «проба». неформальное, жаргонное, но более емкое. в более формальных текстах — многоканальный электрод. это как «коммит», а не «фиксация».
  1. slovak
    10.01.2019 15:44
    #19598812
    Так я и не противоречил, проба — вполне себе понятно звучит.

RobertLis
10.01.2019 10:51
#19597686
Спасибо за статью.
Вопрос немного вбок: перспективна ли технология Neuropixels как долговременное решение — например, для управления протезами? Или со временем близлежащие нейроны гибнут, игла обрастает капсулой и связь теряется?
1. sin-mike Автор
  10.01.2019 11:50
  #19597864
  1. Преимущество нейропикселей в том, что плотность сайтов большая и усиление проводится максимально близко к сайтам. В этом плане, да, перспективна.
  
  2. Это вопрос более общий. О любой имплантации в мозг. Когда инородное тело попадает в ткань, то оно обрастает соединительной тканью. Эта естественная реакция называется фиброз, и она является одной из огромных болей в нейропротезировании. И там примерно такая динамика: сразу после введения сигнал хороший, потом он постепенно деградирует, а потом через пару месяцев восстанавливается и стабилизируется на года. Сигнал уже не такой хороший, как сразу после введения, но лучше, чем через месяц. Покрытие биосовместимыми материалами, уменьшение размеров импланта, изготовление имплантов из «мягких» материалов уменьшает фиброз. Как-то так.
  Почему-то не могу найти красивую картинку по мозгу, но вот прогресс реакции на инородное тело в нерве. В мозгу проходит подобная же реакция
  
  www.ncbi.nlm.nih.gov/pmc/articles/PMC5592213
  1. RobertLis
    10.01.2019 12:44
    #19598096
    Верно ли я понимаю, что у проб типа нейропикселя точность регистрации сигнала значительно превосходит точность стимуляции (если подать на какой-нибудь участок иглы разность потенциалов, ПД дадут сразу несколько близлежащих нейронов)?
    Если так, то насколько всё плохо и какие есть пути решения этой проблемы?
    
    sin-mike Автор
    10.01.2019 14:12
    #19598436
    С электрической стимуляцией вообще все очень сложно. С нейропикселя стимулировать не получится, потому что это уже активная проба. Но если откатиться чуть назад, когда пробы были чисто пассивными, то их активно использовали для регистрации и стимуляции. Там борьба идет, в первую очередь, за время переходных процессов: чтобы переключение между режимами стимуляции и регистрации происходило максимально быстро, характерные времента там ~50мкс. Если не переключать режимы, усилитель может выгореть, потому что напряжения стимуляции достигают до ~100В. Потом, борьба идет за электронейтральность: стимулирующий пульс должен в сумме давать 0 тока, это важно, потому что компенсировать натекший заряд через высокоомные сайты бывает сложно. И наконец, вопрос пространственной локализации. При электрической стимуляции у вас одновременно будут активироваться множество клеток, и их количество будет измеряться сотнями. К тому же, вы точно задеваете аксоны, связанные с другими клетками, поэтому распространение активности в точности предсказать невозможно. Но это все равно точнее неинвазивных методов стимуляции (типа TMS), когда активация происходит в области нескольких кубических миллиметров — сантиметров. На практике же просто бабахают и смотрять, что получается. Во многих задачах, например, исследовании таламо-кортикальных связей, электрическую стимуляцию успешно применяют. Чтобы избежать негативных последствий электростимуляции, на модельных животных используют оптогенетическую стимуляцию, когда светишь светом и открываются специальные каналы на определенных клетках, зараженных определенным вирусом с этим каналом. Там точность выше, и не создаются электрические артефакты. С другой стороны, электрическая стимуляция может применяться в экстремальных случаях, если надо «повредить» локально часть ткани, типа так (electrolesion)
    
    neuronexus.com/wp-content/uploads/2018/09/Microlesion.pdf
    
    DmitriyN
    10.01.2019 14:34
    #19598504
    Есть определенные надежды на оптогенетику — это когда в нейроны вставляются гены для синтеза фоточувствительных каналов (напр. канальных родопсинов) и они становятся фоточувствительными. Свет можно подводить гораздо точнее и нет кучи других неудобств, связанных с электростимуляцией.

roller
10.01.2019 15:22
#19598692
Крутая статья! И очень интересные вопросы подняты.
По вашей оценке — какое разрешение cmos-зонда требуется, чтобы более менее полно снимать информацию со среза глазного нерва? Сколько там вообще пикселей/сигналов параллельно прокачивается?
1. sin-mike Автор
  10.01.2019 18:05
  #19599602
  Я со зрительной системой не работал, и буду отвечать из общих соображений и того, что смог найти. Теоретическое разрешение сетчатки очень большое, но поток информации через оптический нерв фантастически мал, сравним с потоком видео DVD или ютуба в 1080. По поводу разрешения пробы, количество волокон в нерве ~1.7 млн, в идеале в каждом из них надо держать регистрирующий сайт. Размером нерв около 1.5 мм, поэтому, если брать 1 в 1, размер одного зонда на пробе должен быть 1-2 мкм. причем, это должна быть трехмерная проба, а с ними сейчас беда. максимум что есть — на 256, и они много дороже даже нейропикселей
  www.youtube.com/watch?v=vXCFTUD9__M

fralik
11.01.2019 16:27
#19603488
Годная статья и довольно подробная!
А вы какой областью нейрофизиологии занимаетесь?
1. sin-mike Автор
  11.01.2019 17:20
  #19603722
  Спасибо! Будет еще. Нейробиология развития.

Alakbar
11.01.2019 17:17
#19603702
Добрый день, немного общий вопрос Вам, как к специалисту… Доступны ли в интернете базы данных с записями ЭЭГ для самостоятельной тренировки нейросетей. Например, есть проект диагностирующий малярию на мобильном приложении:
github.com/caticoa3/malaria_hero
towardsdatascience.com/diagnose-malaria-from-cellphone-captured-microscopic-images-using-fastai-library-and-turicreate-ae0e27d579e6?fbclid=IwAR2vT1z9fhP08zFH5e8J34ppnJTFzNROrnfQy2m39S9xSqGm_Lisg0Bfpxc
Данные больных и здоровых использованные при тренировки лежат в общем доступе:
ceb.nlm.nih.gov/proj/malaria/cell_images.zip
ceb.nlm.nih.gov/repositories/malaria-datasets

Есть ли что-то подобное в общем доступе по ЭЭГ, например записи больных Паркинсонизмом или Эпилепсией?
1. sin-mike Автор
  11.01.2019 17:20
  #19603718
  Я, к сожалению, с ЭЭГ на людях не работал. Я могу вам посоветовать еще такой сборник данных. github.com/NeuroTechX/awesome-bci#brain-databases
  
  А по поводу эпилепсии упоминалась вот эта ссылка: epileptologie-bonn.de/cms/front_content.php?idcat=193&lang=3&changelang=3
  1. Alakbar
    11.01.2019 23:33
    #19605022
    Я могу вам посоветовать еще такой сборник данных. github.com/NeuroTechX/awesome-bci#brain-databases
    
    Огромное спасибо, а то приходилось по клиникам небольшие разнородные данные собирать, а потом конвертировать якобы унифицированные EDF и EEG файлы друг в друга для анализа и тренировки.

Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать +20

Структура данных

Машинное обучение и клеточная активность

Влияние плотности электродов на кластеризацию спайков

В чем суть работы

Что дальше

Комментарии (20)

sin-mike Автор

sin-mike Автор

sin-mike Автор

sin-mike Автор

sin-mike Автор

sin-mike Автор

sin-mike Автор

sin-mike Автор