Понимание чего-либо является результатом знаний, а знание — результатом обучения. Этот принцип применим не только по отношению к людям, но и к искусственному интеллекту. Разница в том, что ИИ нуждается в определенной обучающей базе, состоящей из конкретных примеров, которые могут служить основой для понимания того, что ИИ должен делать. Человек же может экстраполировать, интерполировать, додумывать, строить логические цепочки — все это позволяет нам понять что-то, примеров чего мы ранее не видели. Особенно ярко данное отличие проявляется в случаях, когда ИИ задействован в вычислительной визуализации и микроскопии. В этих случаях эффективность ИИ напрямую зависит от контролируемого обучения, требующего колоссального объема разнообразных и помеченных обучающих данных. Собрать и подготовить эти данные для обучения — трудоемкий, дорогостоящий и долгий процесс. Было бы здорово, если бы ИИ обучался без них. Ученые из Калифорнийского университета в Лос-Анджелесе (США) разработали модель ИИ с функцией самоконтроля, которая может обучаться без необходимости в экспериментальных данных, используя исключительно законы физики. Как именно работает данная модель, и насколько она эффективна? Ответы на эти вопросы мы найдем в докладе ученых.
Основа исследования
Недавние достижения в сфере глубокого обучения произвели революцию в областях, связанных с вычислительной визуализацией, микроскопией и голографией. На практике это используется в биомедицинской визуализации, датчиках, диагностике и трехмерных дисплеях. Данные системы достигли эталонных результатов в различных задачах преобразования и улучшения изображений (сверхвысокое разрешение, шумоподавление изображения, виртуальное окрашивание и т.д.). Гибкость моделей глубокого обучения также способствовала их широкому использованию в различных методах визуализации, включая светлопольную и флуоресцентную микроскопию.
В качестве еще одного важного примера можно привести цифровую голографическую микроскопию — метод визуализации без меток, широко используемый в биомедицинских и физических науках, а также в инженерии, который также значительно усовершенствовался за счет глубокого обучения и нейронных сетей. А сверточные нейронные сети и рекуррентные нейронные сети продемонстрировали отличные результаты в задачах по реконструкции голографических изображений.
Другими словами, результаты работы ИИ в вышеперечисленных приложениях действительно отличные, но есть свои нюансы. Во всех случаях использовались модели контролируемого обучения, напитанные большим объемом разнообразных обучающих данных с аннотациями и/или достоверными экспериментальными изображениями.
Для микроскопии и голографии, как правило, такие помеченные обучающие данные могут быть получены с помощью классических алгоритмов, которые рассматриваются как метод реконструкции изображения с фундаментальной истиной*, или с помощью зарегистрированных пар изображений (входные данные против исходных данных), полученных с помощью различных модальностей визуализации.
Фундаментальная истина* (ground-truth или GT) — информация, подтвержденная непосредственным наблюдением.Эти методы контролируемого обучения требуют значительного труда, времени и средств для получения, сортировки и предварительной обработки обучающих изображений и потенциально могут привести к систематической ошибке вывода, что приводит к ограниченному обобщению новых типов объектов, которые никогда не наблюдались во время обучения. Грубо говоря, если ИИ все свое существование обучался на МРТ снимках позвоночника, он не сможет нормально анализировать МРТ снимки головного мозга.
В рассматриваемом нами сегодня труде ученые предложили концепцию ИИ модели, которая не нуждается в контролируемом обучение извне, так как она обладает самоконтролем, т. е. основой является самоконтролируемое обучения (SSL от self-supervised learning). Данная модель, примененная для zero-shot* реконструкции голограмм, обучалась без каких-либо экспериментальных данных или предварительных знаний о типах или пространственных характеристиках образцов.
Zero-shot learning* (ZSL, обучение с нуля) — это тип обучения, при котором машина может учиться на данных без явного обучения тому, как это делать. Это контрастирует с обучением с несколькими шагами (few-shot learning, FSL), когда машина может учиться только на нескольких примерах. Например, ZSL более распространено для глубокого обучения и машинного обучения, в то время как FSL более распространено для обучения на основе правил.Ученые назвали свое творение GedankenNet, поскольку самоконтролируемое обучение данной сетевой модели основано на случайно сгенерированных искусственных изображениях, не имеющих связи или сходства с реальными образцами на микро- или макроуровне, и поэтому пространственные частоты и характеристики этих изображений не представляют любых реальных образцов и не связаны с какой-либо экспериментальной установкой.
Изображение №1
Как показано на 1a, самоконтролируемая схема обучения GedankenNet адаптирует потерю физической согласованности между входными синтетическими голограммами случайных искусственных объектов и численно предсказанными голограммами, рассчитанными с использованием выходных комплексных полей GedankenNet, без какой-либо информации о фундаментальной истине объектов в процессе обучения.
Поскольку самоконтролируемое обучение GedankenNet основано на потере физической согласованности, его вывод и результирующие выходные комплексные поля совместимы с уравнениями Максвелла и точно отражают явление физического распространения волн в свободном пространстве.
Результаты исследования
Задача восстановления голограммы в общем случае может быть сформулирована как обратная задача*:
где i ∈ ℝMN2 — векторизованные M измеренных голограмм, каждая из которых имеет размерность N × N; o ∈ ℂN2 — векторизованное комплексное поле объекта; H(⋅) — модель прямой визуализации; L(⋅) — функция потерь; R(⋅) — член регуляризации.
Обратная задача* — тип задачи, когда значения параметров модели должны быть получены из наблюдаемых данных.При пространственно и временно когерентном освещении тонкого образца H(⋅) можно упростить как:
где H ∈ ℂMN2xN2 — матрица преобразования в свободном пространстве; ϵ ∈ ℝMN2 — случайный шум обнаружения; f(⋅) относится к (оптоэлектронной) функции дискретизации матрицы датчиков, которая регистрирует интенсивность оптического поля.
Различные схемы решения обратных задач голографического изображения представлены на изображении №1. Существующие методы обобщенной реконструкции голограмм можно в основном разделить на две категории (1a):
- Итеративные алгоритмы фазового поиска, основанные на физической прямой модели и итеративном уменьшении ошибок;
- Управляемые методы логического вывода на основе глубокого обучения, которые учатся на парах обучающих изображений входных голограмм (i) и полях объекта (o).
В отличие от существующих подходов, основанных на обучении, вместо прямого сравнения выходных комплексных полей (ô) и GT комплексных полей объекта (o), GedankenNet выводит предсказанные голограммы (i) из своих выходных комплексных полей (ô), используя детерминированную физическую прямую модель, и напрямую сравнивает î с i.
Без необходимости знать GT полей объекта, этот прямой цикл модель-сеть устанавливает потерю физической согласованности (Lphysics-consistency) для обратного распространения градиента и обновлений сетевых параметров, что определяется как:
где LFDMAE и LMSE — средняя абсолютная ошибка области Фурье (FDMAE) и среднеквадратическая ошибка (MSE), соответственно, рассчитанные между входными голограммами и предсказанными голограммами; α и β относятся к соответствующим весам каждого члена.
GedankenNet устраняет необходимость в экспериментальных, помеченных обучающих данных и, таким образом, предоставляет уникальные преимущества по сравнению с существующими методами. Обучающий набор данных GedankenNet состоит только из искусственных голограмм, сгенерированных из случайных изображений (без связи или сходства с образцами реального мира), которые служат амплитудными и фазовыми каналами поля объекта (1b).
После самостоятельного обучения с использованием искусственных изображений без каких-либо экспериментальных данных или образцов реального мира, GedankenNet можно напрямую использовать для реконструкции экспериментальных голограмм различных образцов микроскопии, включая, например, образцы плотно связанных тканей и мазки Папаниколау*.
Мазок Папаниколау* — тест, с помощью которого можно определить предраковые или раковые клетки во влагалище и шейке матки.GedankenNet также обеспечивает значительно более быструю реконструкцию в одном прямом выводе без необходимости численных итераций, переноса обучения или точной настройки его параметров на новых тестовых образцах.
Изображение №2
Чтобы продемонстрировать уникальные возможности GedankenNet, ученые обучили серию самоконтролируемых сетевых моделей, которые принимают несколько входных голограмм (M от 2 до 7), следуя процессу обучения, представленному на изображении №1.
Каждая модель GedankenNet для различного значения M обучалась с использованием искусственных голограмм, сгенерированных из случайных синтетических изображений на основе M разных плоскостей с обозначенными расстояниями от образца до датчика zi (i = 1, 2, …, M). На этапе слепого тестирования (2a) M экспериментальных голограмм срезов легочной ткани человека были сняты безлинзовым линейным голографическим микроскопом.
Все модели GedankenNet были протестированы на 94 неперекрывающихся полях зрения (FOV от fields-of-view) срезов тканей, после чего была проведена количественная оценка качества реконструкции изображения с точки зрения коэффициента структурного сходства амплитуды и фазы (SSIM от structural similarity index measure) по отношению к GT полям объектов (2b). GT поля были извлечены с помощью алгоритма извлечения фазы с несколькими высотами (MHPR от multi-height phase retrieval) с использованием M = 8 необработанных голограмм каждого FOV.
Результаты показали, что все модели GedankenNet смогли реконструировать поля выборки с высокой точностью, даже если они были обучены с использованием случайных искусственных изображений без каких-либо экспериментальных данных (2c).
Изображение №3
Дополнительно было проведено сравнение эффективности обобщения моделей GedankenNet, обладающих самоконтролем, с классическими моделями, обладающими внешним контролем. Объектом работы обоих типов моделей были голограммы различных типов срезов тканей человека и мазков Папаниколау.
Хоть модель GedankenNet (M = 2) и видела только искусственные голограммы случайных изображений на этапе обучения, она все же смогла напрямую обобщить экспериментальные голограммы мазков Папаниколау и срезов тканей легких, слюнных желез и предстательной железы человека.
Для сравнения ученые обучили две другие модели (с внешним контролем), используя тот же набор данных искусственных изображений. По сравнению с этими моделями, GedankenNet продемонстрировала превосходную внешнюю генерализацию для всех четырех типов образцов (легкие, срезы ткани слюнных желез, срезы тканей предстательной железы и мазки Папаниколау), показав более высокие значения усиленного коэффициента корреляции (ECC от enhanced correlation coefficient).
Второй сравнительный анализ был выполнен с использованием классического итеративного метода восстановления фазы, то есть MHPR. GedankenNet вывела поля объекта с меньшим шумом и более высокой точностью изображения по сравнению с MHPR (M = 2), который использовал те же входные голограммы (3a, 3c).
Время вывода каждого из этих алгоритмов реконструкции голограммы показано в таблице выше. Стоит отметить, что модель GedankenNet ускорила процесс реконструкции примерно в 128 раз по сравнению с MHPR (M = 2).
Изображение №4
Как заявляют ученые, в дополнение к превосходной внешней генерализации GedankenNet (от искусственных случайных изображений до экспериментальных голографических данных) эта структура также может применяться к другим наборам обучающих данных.
Чтобы продемонстрировать это, ученые обучили три модели GedankenNet, используя:
- набор данных искусственных голограмм, сгенерированных из случайных изображений (как и в тестах ранее);
- новый набор данных искусственных голограмм, сгенерированных из набора данных естественных изображений (COCO от common objects in context, т. е. обычные объекты в контексте);
- набор данных экспериментальных голограмм срезов тканей человека.
В каждом из этих обучающих наборов данных было ~ 100000 пар обучающих изображений с M = 2, z1 = 300 мкм и z2 = 375 мкм.
Результаты тестов показали, что все модели GedankenNet демонстрируют отличное качество реконструкции как для внутренней, так и для внешней генерализации (4a, 4b).
При обучении с использованием экспериментальных голограмм срезов легочной ткани контролируемая модель реконструкции голограммы FIN показала более высокие значения ECC, чем GedankenNet. Однако, когда дело доходит до внешней генерализации (4b) GedankenNet достигла более высокой производительности по сравнению с FIN на естественных изображениях (из набора данных COCO).
Изображение №5
По заявлениям ученых, GedankenNet также совместима с волновыми уравнениям. Чтобы продемонстрировать это, ученые протестировали модель GedankenNet на экспериментальных голограммах, захваченных в смещенных неизвестных осевых положениях z'1 ≅ z1 + Δz и z'2 ≅ z2 + Δz, где z1 и z2 — тренировочные осевые положениями, а Δz — неизвестная величина осевого смещения. Для этого анализа использовалась та же модель, что и на изображении №3, и она была протестирована вслепую на срезах легочной ткани (т. е. внешняя генерализация).
Из-за неизвестного осевого расстояния дефокусировки (Δz) поля GedankenNet не очень хорошо совпадают с реальными данными, обозначенными оранжевой кривой на 5a. Однако, поскольку GedankenNet была обучена с потерей физической согласованности, ее выходные поля совместимы с волновым уравнением в свободном пространстве. Таким образом, поля объекта в плоскости образца могут быть точно извлечены из выходных полей GedankenNet путем распространения волны на соответствующее осевое расстояние расфокусировки.
После распространения выходных полей GedankenNet на −Δz с использованием подхода с угловым спектром распространенные поля очень хорошо совпадали с GT полями в большом диапазоне значений Δz.
На 5b показан еще один пример превосходной внешней генерализации GedankenNet и ее совместимости с волновым уравнением. Та же обученная модель GedankenNet (5a) была вслепую протестирована на экспериментальных голограммах неокрашенных (без метки) срезов ткани почки человека, которые можно считать образцами только фазы.
Помимо успеха генерализации экспериментальных данных биологических образцов, результаты на 5b демонстрируют нулевую генерализацию на другой физический класс объектов (т. е. только фазовые образцы), физические свойства которых отличаются от синтетических. Иными словами, хоть искусственно созданные случайные обучающие изображения GedankenNet и не включали никаких фазовых объектов, система все же смогла успешно реконструировать экспериментальные голограммы фазовых объектов, которые увидела впервые.
Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.
Эпилог
В рассмотренном нами сегодня труде ученые описали модель ИИ с самоконтролем, которая учится на физических законах и мысленных экспериментах. Назвали они свое детище GedankenNet.
Искусственный интеллект уже давно показал свои удивительные возможности, когда речь идет об обработке изображений. Но далеко не все изображения подвластны ИИ, в частности снимки микроскопии. Во-первых, существующие модели на основе ИИ в значительной степени зависят от человеческого наблюдения и крупномасштабных предварительно размеченных наборов данных. А это весьма сложно, дорого и долго. Во-вторых, эти системы плохо справляются с новыми типами образцов или новыми экспериментальными установками. Другими словами, если ИИ обучался на срезах тканей печени, ему будет крайне сложно работать со срезами тканей легкого.
GedankenNet лишена этих недостатков. Данная система имеет в своем распоряжении законы физики, которые и послужили базой для ее обучения. В результате GedankenNet была обучена реконструировать снимки микроскопии, используя только случайные искусственные голограммы, синтезированные исключительно из воображения ученых, не полагаясь на какие-либо эксперименты в реальном мире, фактические сходства образцов или реальные данные.
После тренировки GedankenNet была протестирована с использованием трехмерных голографических изображений образцов тканей человека, полученных с помощью новой экспериментальной установки. И GedankenNet прекрасно справилась с задачей.
Стоит отметить, что по сравнению с современными методами реконструкции снимков микроскопии, основанными на контролируемом обучении с использованием крупномасштабных экспериментальных данных, GedankenNet продемонстрировала превосходную генерализацию для невидимых образцов, не полагаясь на какие-либо экспериментальные данные или предварительную информацию об образцах.
В дополнение к улучшенной реконструкции снимков, GedankenNet также генерирует выходные световые волны, которые соответствуют физике волновых уравнений, точно представляя трехмерное распространение света в пространстве.
Авторы разработки уверяют, что GedankenNet устраняет три основные проблемы в существующих подходах к созданию голографических изображений, основанных на глубоком обучении: потребность в крупномасштабных, разнообразных и размеченных обучающих данных; ограниченная генерализация ранее невидимых типов выборок; отсутствие интерпретируемой связи и совместимости между физическими законами, моделями и обученной глубокой нейронной сетью.
Результаты данного труда показывают огромный потенциал самоконтроля в процессе обучения ИИ. Использование не готовых данных, а законов физики, химии и других наук может значительно расширить возможности ИИ, а также разительно упросить его подготовку к выполнению поставленных задач, особенно в области обработки изображений.
Немного рекламы
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?