Обучение с самоконтролем позволяет нейронной сети самостоятельно выяснить, что имеет значение. Этот процесс может быть тем, что делает наш собственный мозг таким успешным.

Вот уже десять лет многие из самых впечатляющих систем искусственного интеллекта обучаются с использованием огромного количества размеченных данных. Изображение может быть помечено как «полосатый кот» или «тигр», например, чтобы «обучить» искусственную нейронную сеть правильно отличать полосатого кота от тигра. Стратегия оказалась одновременно впечатляюще успешной и прискорбно несовершенной.

Такое «контролируемое» обучение требует, чтобы данные были скрупулезно помечены людьми, и нейронные сети часто выбирают более короткие пути, учась ассоциировать метки с минимальной, а иногда и поверхностной информацией. Например, нейронная сеть может использовать наличие травы для распознавания фотографии коровы, потому что коров обычно фотографируют в поле.

«Мы воспитываем поколение алгоритмов, похожих на старшекурсников, которые не приходили на занятия весь семестр, а затем в ночь перед финалом зубрят, – сказал Алексей Эфрос, специалист по информатике из Калифорнийского университета, Бёркли. – Они не усваивают материал, но хорошо справляются с тестом».

Более того, для исследователей, интересующихся интеллектом животных и машин, это «контролируемое обучение» может быть интересно тем, что оно способно рассказать о биологическом мозге. Животные, включая людей, не используют помеченные наборы данных для обучения. По большей части они исследуют окружающую среду самостоятельно, и при этом они приобретают глубокое и надежное понимание мира.

Теперь некоторые вычислительные нейробиологи начали изучать нейронные сети, которые были обучены с небольшим количеством данных, помеченных человеком, или без них. Эти алгоритмы «обучения с самоконтролем» оказались чрезвычайно успешными в моделировании человеческого языка и, в последнее время, в распознавании изображений. В недавней работе вычислительные модели зрительной и слуховой систем млекопитающих, построенные с использованием моделей обучения с самоконтролем, показали более близкое соответствие функциям мозга, чем их аналоги с контролируемым обучением. Некоторым нейробиологам кажется, что искусственные сети начинают раскрывать некоторые из реальных приёмов, которые использует наш мозг в обучении.

Неправильный контроль

Модели мозга, вдохновлённые искусственными нейронными сетями, появились примерно 10 лет назад, в то же время, когда нейронная сеть под названием AlexNet произвела революцию в задаче классификации неизвестных изображений. Эта сеть, как и все нейронные сети, состояла из слоев искусственных нейронов, вычислительных единиц, которые образуют связи друг с другом и могут различаться по силе или «весу». Если нейронная сеть не может правильно классифицировать изображение, алгоритм обучения обновляет веса связей между нейронами, чтобы сделать эту неправильную классификацию менее вероятной в следующем раунде обучения. Алгоритм повторяет этот процесс много раз со всеми обучающими изображениями, настраивая веса, пока частота ошибок сети не станет приемлемо низкой.



Алексей Эфрос, специалист по информатике из Калифорнийского университета в Бёркли, считает, что большинство современных систем искусственного интеллекта слишком зависят от меток, созданных людьми. «В реальности они не усваивают материал», – сказал он.

Примерно в то же время нейробиологи разработали первые вычислительные модели зрительной системы приматов, используя нейронные сети, такие как AlexNet и его преемники. Они выглядели многообещающе: когда, например, обезьянам и искусственным нейронным сетям показывали одни и те же изображения, активность реальных нейронов и искусственных нейронов обнаруживала интригующее соответствие. Затем последовали искусственные модели слуха и обнаружения запахов.

Но по мере развития области исследователи осознали ограничения контролируемого обучения. Например, в 2017 году Леон Гэтис, учёный из Тюбингенского университета в Германии, и его коллеги сделали изображение Ford Model T, а затем наложили на фотографию рисунок леопардовой кожи, создав причудливое, но легко узнаваемое изображение. Ведущая искусственная нейронная сеть правильно классифицировала исходное изображение как Model T, но посчитала измененное изображение леопардом. Он был зациклен на текстуре и не понимал формы автомобиля (или леопарда, если уж на то пошло).

Стратегии обучения с самоконтролем предназначены для того, чтобы избежать таких проблем. При таком подходе люди не маркируют данные. Скорее, «метки исходят из самих данных», – сказал Фридеманн Зенке, вычислительный нейробиолог из Института биомедицинских исследований Фридриха Мишера в Базеле, Швейцария. Алгоритмы с самоконтролем, по сути, создают пробелы в данных и просят нейронную сеть заполнить их. Например, в так называемой большой языковой модели обучающий алгоритм покажет нейронной сети несколько первых слов предложения и попросит её предсказать следующее слово. При обучении на массивном объёме текстов, собранных в Интернете, модель, похоже, изучает синтаксическую структуру языка, демонстрируя впечатляющие лингвистические способности – и всё это без внешних меток или контроля.

Аналогичные усилия предпринимаются в области компьютерного зрения. В конце 2021 года Кайминг Хе и его коллеги представили свой «маскированный автокодировщик», который основан на технологии, впервые предложенной командой Эфроса в 2016 году. Алгоритм самоконтроля случайным образом маскирует изображения, скрывая почти три четверти каждого из них. Маскированный автокодировщик превращает немаскированные части в скрытые представления — сжатые математические описания, содержащие важную информацию об объекте. (В случае изображения скрытое представление может быть математическим описанием, которое фиксирует, среди прочего, форму объекта на изображении.) Затем декодер преобразует эти представления обратно в полные изображения.

Алгоритм обучения с самоконтролем обучает комбинацию кодер-декодер превращать замаскированные изображения в их полные версии. Любые различия между реальными изображениями и реконструированными передаются обратно в систему, чтобы помочь ей учиться. Этот процесс повторяется для набора обучающих изображений до тех пор, пока частота ошибок системы не станет достаточно низкой. В одном примере, когда обученному автокодировщику в маске было показано ранее невидимое изображение автобуса, почти 80% которого было скрыто, система успешно реконструировала структуру автобуса.

«Это очень, очень впечатляющий результат», – сказал Эфрос.

Скрытые представления, созданные в такой системе, по-видимому, содержат значительно более глубокую информацию, чем могли включать предыдущие стратегии. Система может узнать форму автомобиля, например, или леопарда, а не только их узоры. «И это действительно основная идея самоконтролируемого обучения – вы строите свои знания снизу вверх», – сказал Эфрос. Никакой зубрежки в последнюю минуту, чтобы сдать тесты.

Мозги с самоконтролем

Некоторые нейробиологи видят в подобных системах отголоски того, как мы учимся. «Я думаю, что нет никаких сомнений в том, что 90% того, что делает мозг, – это самоконтролируемое обучение», – сказал Блейк Ричардс, вычислительный нейробиолог из Университета Макгилла и Мила из Квебекского института искусственного интеллекта. Считается, что биологический мозг постоянно предсказывает, скажем, будущее местоположение объекта по мере его движения или следующее слово в предложении, точно так же, как алгоритм обучения с самоконтролем пытается предсказать пробел в изображении или сегменте текста. И мозг учится на своих ошибках тоже самостоятельно – лишь небольшая часть обратной связи нашего мозга исходит от внешнего источника, говорящего, по сути, «неправильный ответ».



Вычислительный нейробиолог Блейк Ричардс помог создать ИИ, который имитирует зрительные сети в живом мозгу. 

Например, рассмотрим зрительные системы человека и иных приматов. Из всех сенсорных систем животных они изучены лучше всего, но нейробиологи изо всех сил пытались объяснить, почему они включают два отдельных пути: вентральный зрительный поток, отвечающий за распознавание объектов и лиц, и дорсальный зрительный поток, отвечающий за движение (пути «что» и «где» соответственно).

Ричардс и его команда создали самоконтролируемую модель, которая намекает на ответ. Они обучили ИИ, который объединил две разные нейронные сети: первая, называемая архитектурой ResNet, была разработана для обработки изображений; вторая, известная как рекуррентная сеть, может отслеживать последовательность предыдущих входных данных, чтобы делать прогнозы относительно следующего ожидаемого входного сигнала. Чтобы обучить комбинированный ИИ, команда начала с последовательности, скажем, 10 кадров из видео и позволила ResNet обработать их один за одним. Затем рекуррентная сеть предсказала скрытое представление 11-го кадра, а не просто сопоставила первые 10 кадров. Алгоритм обучения с самоконтролем сравнил прогноз с фактическим значением и дал указание нейронным сетям обновить свои веса, чтобы сделать прогноз лучше.

Команда Ричардса обнаружила, что ИИ, обученный с одним ResNet, хорошо распознавал объекты, но не классифицировал движения. Но когда они разделили один ResNet на два, создав два пути (без изменения общего числа нейронов), ИИ разработал представления для объектов в одном и для движения в другом, что позволило классифицировать эти свойства – так же, как наш мозг, вероятно, поступает.

Для дальнейшего тестирования ИИ команда показала ему набор видеороликов, которые исследователи из Института наук о мозге Аллена в Сиэтле ранее показывали мышам. Как и у приматов, у мышей есть зоны мозга, специализирующиеся на статических изображениях и движениях. Исследователи Аллена записали нейронную активность в зрительной коре мыши, когда животные смотрели видео.

Здесь команда Ричардса также обнаружила сходство в том, как ИИ и живой мозг реагировали на видео. Во время обучения один из путей в искусственной нейронной сети стал больше похож на вентральные зоны мозга мыши, обнаруживающие объекты, а другой путь стал похож на дорсальные зоны, ориентированные на движение.

«Результаты показывают, что наша зрительная система имеет два специализированных пути, потому что они помогают предсказывать визуальное будущее», – сказал Ричардс. Одного пути мало.

Модели слуховой системы человека – аналогичная история. В июне этого года группа под руководством Жана-Реми Кинга, научного сотрудника Meta AI,обучила ИИ под названием Wav2Vec 2.0, который использует нейронную сеть для преобразования звука в скрытые представления. Исследователи маскируют некоторые из этих представлений, которые затем передаются в другой компонент нейронной сети, называемый преобразователем. Во время обучения преобразователь предсказывает замаскированную информацию. В процессе весь ИИ учится превращать звуки в скрытые представления – опять же, метки не нужны. Команда использовала около 600 часов речевых данных для обучения сети, «что примерно соответствует тому, что ребенок получит за первые два года жизни», — сказал Кинг.



Жан-Реми Кинг помог обучить ИИ, обрабатывающий звук таким образом, который имитирует работу мозга, отчасти предсказывая, что должно произойти дальше.

После того как система была обучена, исследователи проигрывали ей отрывки из аудиокниг на английском, французском и китайском языках. Затем исследователи сравнили производительность ИИ с данными 412 человек – носителей трех языков, которые слушали одни и те же фрагменты аудио во время сканирования их мозга с помощью фМРТ-сканера. Кинг сказал, что его нейронная сеть и человеческий мозг, несмотря на зашумленные изображения фМРТ с низким разрешением, «не только коррелируют друг с другом, но и коррелируют систематическим образом». Активность в начальных слоях ИИ совпадает с активностью в первичной слуховой коре, тогда как активность самых глубоких слоев ИИ совпадает с активностью в более высоких слоях мозга, в этом случае в префронтальной коре. «Это действительно прекрасные данные, – сказал Ричардс. – Это не окончательный вывод, но это еще одно убедительное доказательство того, что мы действительно изучаем язык в значительной степени, пытаясь предсказать следующие вещи, которые будут сказаны».

Невылеченные болезни

Не все считают это направление верным. Джош Макдермотт, вычислительный нейробиолог из Массачусетского технологического института, работал над моделями зрительного и слухового восприятия, используя как контролируемое, так и самоконтролируемое обучение. Его лаборатория разработала то, что он называет «метамерами», синтезированные звуковые и визуальные сигналы, которые для человека являются просто неразличимым шумом. Однако для искусственной нейронной сети метамеры кажутся неотличимыми от реальных сигналов. Это говорит о том, что представления, которые формируются в более глубоких слоях нейронной сети, даже при самоконтролируемом обучении, не совпадают с представлениями в нашем мозгу. Эти подходы к обучению с самоконтролем «являются прогрессом в том смысле, что вы можете изучать репрезентации, которые могут поддерживать множество способов распознавания, не нуждаясь во всех этих ярлыках», – сказал Макдермотт. – Но у них всё ещё есть много болезней моделей с контролем». 

Сами алгоритмы также нуждаются в доработке. Например, в Wav2Vec 2.0 от Meta AI ИИ предсказывает скрытые представления только для звука длительностью в несколько десятков миллисекунд – меньше времени, чем требуется, чтобы произнести воспринимаемый звук, не говоря уже о слове. «Чтобы сделать что-то похожее на то, что делает мозг, нужно выполнить ещё много работы», – сказал Кинг.

Для истинного понимания работы мозга потребуется нечто большее, чем обучение под самоконтролем. Во-первых, мозг полон обратных связей, в то время как в современных моделях таких связей мало, если они вообще есть. Очевидным следующим шагом было бы использование обучения с самоконтролем для обучения часто повторяющихся сетей – сложный процесс – и посмотреть, как активность в таких сетях сравнивается с реальной активностью мозга. Другим важным шагом было бы согласование активности искусственных нейронов в моделях обучения с самоконтролем с активностью отдельных биологических нейронов. «Надеемся, что в будущем наши результаты будут подтверждены и записями одиночных клеток», – сказал Кинг.

Если наблюдаемое сходство между мозгом и моделями обучения с самоконтролем применимо и к иным сенсорным задачам, это будет еще более убедительным признаком того, что любое волшебство, на которое способен наш мозг, требует обучения с самоконтролем в той или иной форме. «Если мы обнаружим систематическое сходство между совершенно разными системами, это будет означать, что, возможно, существует не так много способов разумной обработки информации», – сказал Кинг. – По крайней мере, это своего рода красивая гипотеза, с которой мы хотели бы работать».

Автор перевода @arielf


НЛО прилетело и оставило здесь промокод для читателей нашего блога:

15% на все тарифы VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.

Комментарии (5)


  1. phenik
    05.09.2022 19:59
    +4

    Более того, для исследователей, интересующихся интеллектом животных и машин, это «контролируемое обучение» может быть интересно тем, что оно способно рассказать о биологическом мозге. Животные, включая людей, не используют помеченные наборы данных для обучения. По большей части они исследуют окружающую среду самостоятельно, и при этом они приобретают глубокое и надежное понимание мира.
    Трудно сказать в каких облаках витал автор пока писал статью) Младенцы и детеныши животных сразу же после рождения уже обладают многими когнитивными способностями, им не нужно этому учиться, а только улучшать их. Есть различия для людей и животных разных видов. Если взять млекопитающих, напр, разных видов антилоп, то сразу же после рождения, через час или два, телята готовы следовать за родителями, пусть и неловко, из-за еще не окрепших и не скоординированных движений мышц. Они вполне сносно ориентируются в окружающей среде, решая задачи преобразования положения окружающих тел и их перекрытия (окклюзии), по сути это врожденные способности. Если этого не было бы и им пришлось обучаться с нуля сразу после рождения, то они просто не выживали и гибли от хищников или голода, если не следовали за матерью. Проблема упирается в степени развитости (доношенности) плодов разных видов при рождении. У некоторых видов, включая человека, они рождаются по разным причинам неразвитыми. У человека, из-за большого размера головы плода, и ограничений родовых путей размерами таза женщин. Также роль играет социальность вида. Младенец не может сразу после рождения встать на ноги и пойти, хотя через некоторое время может ползать, не потому что не ориентируется в пространстве и окружающих предметах, и ему надо этому учиться с нуля, а потому что он рождается с неразвитой опорно-двигательной системой.

    Дети могут быстро учиться буквально по нескольким примерам используя, как врожденные способности, так и комбинируя ранее полученную информацию. В машинном обучении это получило называние обучения на одном примере. Дети так же обладают способностями переносить знания с одного класса объектов на другой вообще без обучения, благодаря способностям к концептуализации. В машинном обучении достижение этой способности получило название обучения без примеров (см. как эти варианты обучения реализованы в языковой модели GPT-3). Что касается обучения с разметкой, то такую «разметку» в процессе воспитания делают родители произнося имена объектов которые показывают детям.

    Что же тогда делают дети когда вертят предметы, ощупывают с разных сторон, стучат ими, пробую на вкус и ломают? Кажется они обучаются всем свойствам предметов, того как они выглядят со всех сторон, и тп. В действительности они знают о общих свойства предметов намного больше, чем мы думаем, а занимаются тем, что в процессе этого создают мультимодальные образы реальных предметов. Того многообразия которое невозможно, да и часто бесполезно, закладывать в наследственные механизмы. Как это соотносится с машинным обучением, с теми же языковыми моделями, кот. проходят процесс предобучения на огромных текстовых выборках, чтобы реализовывать обучение на нескольких, одном, или вообще без примеров? Мозг плода не просто растет, он развивается по определенной наследственной программе, и в определенный момент в нем возникает строго организованная спонтанная активность. Это показано не только на исследованиях активности мозга плодов, но и на органоидах мозга. У плодов эта активность направлена от формирующихся органов чувств и мышц к формирующимся структурам мозга. При этом происходит предварительная настройка синаптических связей нейронов в сетях этих формирующихся структур, своеобразное «предобучение», без непосредственного взаимодействия с окружающей средой. Роль также играет эпигенетическая настройка, и др. регулирующие факторы. Подобная самонастройка, самообучение пока не доступна моделям машинного обучения, и обязательно требует заранее размеченного или не размеченного обучающего материала в зависимости от типа обучения. Это «предобучение» мозга плода результат эволюционного обучения отложенного в наследственных механизмах, как самого вида, так и всей предшествующей филогенетической линии.

    Модели мозга, вдохновлённые искусственными нейронными сетями, появились примерно 10 лет назад, в то же время, когда нейронная сеть под названием AlexNet произвела революцию в задаче классификации неизвестных изображений.
    Нет, наоборот, топология этой сверточной сети вдохновлена исследованиями зонной организации вентрального тракта зрительной системы приматов. Это хорошо показано в слайдах Ле Куна на эту тему. Развитие нейробиологических исследований и разработок ИИ взаимно влияют друг на друга, но идеи последних, в конечном итоге, заимствуются из этих исследований и представлений. Хотя могут реализоваться специфическим образом, например, обучение распространением обратной ошибки, а не хеббовским, или тем более с помощью STDP, т.к. большинство типов ИНС пока не являются импульсными. В этом отношении более подходящими являются нейроморфные решения.


  1. JumpinCarrot
    05.09.2022 21:44
    +1

    А проблема с метамерами точно не решается предварительной обработкой входного сигнала? Кто знает, быть может если подать на наш зрительный нерв точную комбинацию сигналов, похожую на шум, мы увидим леопарда. Но наш зрительный аппарат несовершенен, и мы всегда получаем немного размытую и искаженную картинку. Кстати, этим можно попробовать объяснить случаи, когда люди "видят" потусторонние явления или НЛО.


  1. Takowar
    06.09.2022 09:23
    +1

    Есть такая теория "Единая теория поля". Так может есть и единая теория разумной обработки информации?


    1. Goupil
      06.09.2022 11:07
      +1

      Есть, но она не работает.


  1. StanKra
    06.09.2022 09:28

    Всегда коробит когда за псевдонаучным многословием в полный рост встает финансовый цинизм. Все эти "предсказания 11 кадра" есть натаскивание машины на биржевые игры. Никакого иного назначения все эти игры в предсказания не имеют. К изучению работы человеческого (и любого иного) мозга эти работы имеют не больше, чем "600 часов речевых данных для обучения сети". Возможно это "примерно соответствует тому, что ребенок получит за первые два года жизни". Но из этого никак не следует, что через 600 часов речевых данных у сети появится интеллект двухлетнего ребенка. Кстати о птичках - из успешного предсказания 11 кадра совершенно не последует успешность биржевых предсказаний. Уже хотя бы потому, что свою игру на бирже ведут многие тысячи крайне заинтересованных в результате настоящих интеллектов, конечно уступающие машинам в скорости своих вычислений, но несоизмеримо превосходящих их в сложности своих мотивировок. Это вам не в шахматы играть.
    Но лично мне больше всего не нравится вульгаризация термина ИИ. Строго говоря, им даже и не пахнет. Не следует обольщаться. Если калькулятор умножает многозначные числа быстрее школьника, то из этого совсем не следует интеллектуальное превосходство калькулятора.