Введение
Во многих системах при обучении распознаванию образов загружается большое количество различных изображений этого образа. Однако человек запомнив, например, цифру 3 на примере одного из ее изображений, способен распознавать тройки самых разных форм, размеров и ориентаций. Причем распознавать быстро и безошибочно. Как такое возможно? Да что человек, возьмем более простые организмы, скажем насекомых. Неужели в нервную систему комара для того, чтобы он умел распознавать окружающие объекты нужно загружать сотни разных изображений этих объектов, как это делается в системах машинного обучения ?
Здесь что то не так. Рассмотрим другой подход.
Сначала несколько известных понятий о мозге, которые нам понадобятся.
Нейроны
Как известно активность мозга обеспечивают нейроны – клетки, приспособленные для передачи друг другу электрических сигналов. Нейроны связаны друг с другом через отростки двух типов – аксоны, по которым сигналы поступают от тела клетки и дендриты, по которым клетка получает входящую информацию. Место, где аксон соприкасается с дендритом называется синапсом. Через синапсы электрический сигнал передается от одного нейрона к другому.
Нервный импульс и потенциал действия
Физиологической основой нервного импульса является потенциал действия. Потенциал действия возникает при деполяризации нейрона — если достигнут некоторый порог клетка возбуждается и от её тела к аксонам и дендритам распространяется волна электрического сигнала.
Долговременная потенциация
Воспоминание это группа нейронов, которые возбуждаются всякий раз, когда возбуждается один из нейронов группы. Когда нейроны группы возбуждаются вместе, это увеличивает вероятность их следующего совместного возбуждения. Чем чаще возбуждается нейрон, тем сильнее его воздействие на другие, связанные с ним нейроны и тем выше вероятность того что он вызовет возбуждение в них. На поверхности возбужденного нейрона происходят химические изменения, делающие его чувствительнее к стимуляции со стороны тех нейронов, от которых к нему пришли импульсы. Этот процесс называется долговременной потенциацией. Многократное одновременное возбуждение может крепко связать нейроны – активность одного нейрона будет вызывать возбуждение всех нейронов группы, с которыми он связан. Так записываются воспоминания.
Саккады
Саккады это автоматические, неуправляемые, быстрые движения глаз, которые позволяют сканировать визуальную сцену. Глаз на короткое время фиксируется на элементе изображения и затем быстро переходит к следующему элементу.
На рисунке 1 показаны несколько соединенных друг с другом нейронов.

В мозге нейроны соединяются друг с другом в огромную сеть как на рисунке 2.

Очевидно что система, в которой множество нейронов посылают друг другу импульсы, имеет сложную динамику. Поэтому чтобы процесс запоминания и распознавания образа шел в нужном направлении, в данной модели используется обратная связь от глаза в нейронную сеть мозга.
Так как импульсы передаются от одного нейрона к другому в определенном направлении и система вряд ли может распознать образ за один цикл прохода импульсов от глаза по сети, то предполагается что система работает в импульсном режиме, как бы сканируя образ на некоторой частоте с обратной связью от глаза.
Запоминание образа
Предположим что человек не знает что такое цифра 3 и учится писать, запоминает ее. Учитель рисует тройку на доске и глаз ученика начинает двигаться вдоль контура тройки, как показано на рис. 3. Что при этом происходит в мозге?

Глаз начинает двигаться вдоль контура тройки не сразу. Сначала нейронная сеть мозга управляет мышцами глаза так что глаз ищет направление движения вдоль контура тройки. В процессе поиска глаз может двигаться в разных направлениях, показанных на рис. 3 зелеными стрелками S1, S2, S3, S4, как бы ощупывая пространство.
Начальный процесс поиска устойчивого направления вдоль контура тройки это случайная активность сети и саккадные движения, но он управляется сигналом обратной связи от глаза. Если в данный момент нейронная сеть управляет мышцами глаза так что он движется в направлении S1, то двигаясь в этом направлении глаз выходит за контур тройки и частота импульсов, поступающих в нейронная сеть от глаза уменьшается, а значит процесс распространения импульсов в этом направлении не поддерживается сигналом обратной связи от глаза и процесс в сети N1, вызывающий движение глаза в этом направлении, затухает. Затухание происходит не сразу - уменьшающаяся частота импульсов от глаза приводит к тому, те клетки, которые управляли глазом так что он двигался в направлении S1 становятся неактивными и глаз возвращается в точку, находящуюся на контуре тройки, откуда начиналось его движение в сторону S1, эта точка подтверждается сигналом обратной связи от глаза.
Импульсы от глаза перераспределяются - активируются соседние нейроны сети N1, которые направляют глаз по направлению S2, потом S3, S4. Этот процесс поиска продолжается до тех пор пока глаз не начнет двигаться в правильном, устойчивом направлении D1 вдоль контура тройки. Когда это происходит, контур обратной связи замыкается, в сеть N1 от глаза стабильно поступают импульсы с большой частотой, система переходит в устойчивое состояние. Для запоминания, долговременной потенциации процесс распространения импульсов в сети должен быть устойчивым какое то время, то есть поддерживаться сигналом обратной связи от глаза, что и будет подтверждением того что глаз движется в правильном направлении вдоль контура тройки.
Далее глаз, двигаясь в направлении D1 доходит до места, где контур тройки делает поворот. Это приводит к тому что импульсы обратной связи от глаза ослабевает и нейронная сеть начинает искать новое направление взгляда вдоль контура тройки (синие стрелки S1-S3 на рис. 4) пока не будет найдено следующее направление D2 с устойчивой обратной связью от глаза. В процессе поиска и в устойчивом состоянии импульсы от глаза будут входить в сеть N1 и распространяться через нее в сеть N2. Когда направление D2 найдено, нейроны сети N2 продолжат управлять мышцами глаза так чтобы взгляд двигался в направлении D2.

На следующем повороте контура тройки процесс запоминания будет таким же – сначала поиск направления движения взгляда сетью N3 (красные стрелки S1-S3 на рис. 5), затем обнаружение направления D3 и движение взгляда по этому направлению вдоль контура тройки.

И так далее, глаз движется вдоль контура тройки до его конца и сеть запоминает образ.
“Поиск направления – движение взгляда вдоль контура тройки – поиск направления – движение взгляда вдоль контура тройки” - эти процессы в мозге должны быть простыми, похожими и повторяющимися. Если для запоминания каждого образа эти процессы были бы разными, то это привело бы к ненужному усложнению мозга. Далее в тексте я называю такие сети, участвующие в запоминании и распознавании, микроплеерами или просто плеерами, потому что они небольшие и каждый раз как бы проигрывают запомненный образ.
Распознавание образа
Процесс распознавания образа тройки в мозге выполняется теми же нейронами, сетями и путями распространения импульсов, которые были задействованы при запоминании этой цифры. Схожи и сами процессы запоминания и распознавания. Вряд ли для запоминания и распознавания используются разные группы нейронов и разные процессы. Это было бы слишком сложно, тем более что разнесение в пространстве и времени запоминающих и распознающих сетей нейронов потребовало бы копирования информации из одной группы нейронов в другую, синхронизации процессов в обоих группах клеток и так далее.
Перейдем к процессу распознавания, показанному на рис. 6.

Заметим что тройка, которую нужно распознать, отличается по форме от тройки, которая использовалась при обучении. Как было сказано ранее, в распознавании тройки участвуют те же нейроны, которые участвовали в процессе обучения, и соседние с ними нейроны. Процессы запоминания и распознавания также схожи.
Когда глаз движется вдоль контура тройки, в плеер поступают частые импульсы обратной связи от глаза, что является подтверждением того что глаз движется в правильном направлении. Когда взгляд, двигаясь в текущем направлении вдоль контура тройки, подходит к месту, в котором контур тройки делает поворот, глаз начинает выходить за контур тройки и сигнал обратной связи от него ослабевает. Это приводит к тому что в плеере возникают локальные поиски немного в стороны от текущего направления, показанные маленькими стрелками, в том числе стрелками S1, S2, S3 на рис. 6. Глаз при этом как бы ощупывает взглядом окрестности точки, в которой направление взгляда вышло за пределы контура тройки, пытаясь найти точки продолжения контура. Если глаз находит такие точки то это сопровождается учащением импульсов от глаза, подтверждающим что глаз снова движется вдоль контура тройки - цепь обратной связи замыкается, локальные поиски прекращаются.
В процессе распознавания управление мышцами глаза последовательно переходит к нейронам сетей N1, N2, N3 для разных участков контура тройки. Нейроны сети N1 передают управление мышцами глаза нейронам сети N2, нейроны сети N2 передают управление нейронам сети N3 и так до конца контура тройки. При этом сигналы обратной связи от глаза в процессе распознавания все время проходят начиная с сети N1 к текущей сети, управляющей в данный момент мышцами глаза. То есть сначала по пути “глаз – сеть N1 – мышцы глаза”, потом “глаз – сеть N1 – сеть N2 – мышцы глаза”, затем “глаз – сеть N1 – сеть N2 – сеть N3 – мышцы глаза” и так далее. Еще раз отмечу, что распознавание в такой системе это процесс в котором участвуют те же нейроны и сети, которые участвовали в процессе обучения. И сам процесс распознавания такой же как при обучении – “поиск – стабильное состояние сети – поиск – стабильное состояние сети”.
В такой системе замыкание обратной связи через контур “глаз – нейронная сеть (плеер) – мышцы глаза – глаз - образ тройки – глаз” и поддержание благодаря обратной связи активности процесса в плеере это и есть распознавание – то есть соответствие процесса, запомненного в плеере, изображению тройки перед глазом.
При этом активность полного контура обратной связи в данный момент времени может поддерживать только один плеер, так как мышцы глаза одни и управлять ими может только один плеер. Этим обеспечивается правильность распознавания.
При запоминании и распознавании в нейронной сети нет понятия об ориентации образа тройки и его геометрии как таковой – плеер о них ничего не знает. Также на рис. 6 видно что при распознавании тройки геометрическая форма сети и направления распространения импульсов в ней могут быть совсем не похожи на образ тройки перед глазом.
При распознавании импульсы в плеере распространяются так, что при изменении направления контура тройки глаз ищет новое направление движения взгляда вдоль контура относительно текущего направления движения взгляда, поэтому плеер может распознавать перевернутую тройку как показано на рис. 7.

А как такая система справится с распознаванием образа тройки, в котором часть контура разорвана (зона А на рис. 7) или, например, пересекается с линиями которые не принадлежат контуру (зона В на рис. 7) ? Как описывалось ранее, когда взгляд движется вдоль контура тройки и в плеер поступают импульсы от глаза, система находится в стабильном состоянии, контур обратной связи “глаз – плеер – мышцы глаза – глаз” замкнут. Такая система имеет инерцию - контур обратной связи не может разорваться сразу, поэтому взгляд просто пропускает разрывы и пересечения контура с посторонними линиями и движется дальше вдоль контура тройки.
При этом распознавание в плеере это относительно простой, автоматический процесс. Сам плеер не знает что именно он распознает. Если, например, распознается образ, показанный в середине рис. 8 то, в зависимости от того, в каком направлении движется взгляд на этапе поиска точек контура, плеер может распознать тройку как в форме R1 красного цвета, так и в форме R2 зеленого цвета - система способна к обобщению, то есть к распознаванию образов тройки разной формы.

Распознавание одной из нескольких цифр
Допустим что мозг запомнил все цифры от 1 до 9. После обучения для каждой цифры в мозге есть свой плеер. Затем человеку показывают изображение одной из цифр. Система должна определить какая это цифра. При распознавании все плееры для цифр от 1 до 9 запущены и одновременно работают в мозге как показано на рис. 9.

На вход всех плееров подается сигнал от глаза и плееры пытаются распознать свою цифру независимо и параллельно. Но мышцы глаза одни и ими может управлять только один плеер. Какой именно ? А тот плеер в котором быстрее замыкается петля обратной связи распознавания. В данном случае плеер тройки первым перехватывает управление мышцами глаза. Процессы распознавания в плеерах для других цифр ослабевают и они не управляют мышцами глаза. То что процесс в плеере тройки остается активным а в других плеерах ослабевает это и есть признак того, что перед нами именно тройка а не другая цифра.
Однако это динамический процесс – если образ тройки перед глазами начнет трансформироваться в образ другой цифры, например, двойки, то активным станет плеер двойки. Он перехватит управление мышцами глаза а сигналы в плеере тройки ослабнут.
Заключение
Можно ли применить микроплееры не только для распознавания образов, но и для объяснения работы мозга в целом?
Возможно да. В статье был рассмотрен механизм распознавания зрительного образа, но тот же механизм может работать при распознавании информации от других органов чувств.
Для распознавания сложных образов и других видов когнитивной деятельности в мозге могут одновременно быть запущено большое количество плееров, работающих параллельно.
Комментарии (23)
azTotMD
18.01.2025 09:28Однако человек запомнив, например, цифру 3 на примере одного из ее изображений, способен распознавать тройки самых разных форм, размеров и ориентаций. Причем распознавать быстро и безошибочно
Что-то у меня есть какие-то сомнения в этом тезисе. Попробуйте научить ребёнка 3-4 лет опозновать цифру 3, ему не раз и не два надо будет показать и повторить, прежде чем он запомнит и начнёт их узнавать.
iShrimp
18.01.2025 09:28Этот механизм, по-видимому, работает в первые месяцы и годы жизни ребёнка, когда он только учится познавать мир (и учится, конечно, не на цифрах, а на окружающих предметах - лица родителей, кровать, игрушки и т.д.). Со временем в зрительной коре запечатлеваются не только пятна и контуры, но и более сложные образы, так что мозг приобретает способность узнавать предмет с одного взгляда, не нуждаясь в необходимости обводить его глазами по контуру.
Сложность в том, что в мозге нет свёрточных нейронных сетей, поэтому для развития навыка беглого взгляда мозг должен запомнить, как выглядит предмет, не только в центральном, но и в околоцентральных положениях в поле зрения.
DENEVGTAR Автор
18.01.2025 09:28Да, в статье описан механизм так сказать нижнего уровня, на уровне контура цифры, но более сложные образы состоят из простых элементов, из тех же контуров.
DENEVGTAR Автор
18.01.2025 09:28Возможно у детей в таком возрасте дефицит внимания, им сложно сосредоточиться на чем то одном, поэтому при запоминании им приходится несколько раз показывать одну и ту же цифру, при распознавании мозг ребенка может все распознал правильно, но ребенок увидел конфету и уже переключился на неё.
DENEVGTAR Автор
18.01.2025 09:28Возможно у детей в таком возрасте дефицит внимания, им сложно сосредоточиться на чем то одном, поэтому при запоминании им приходится несколько раз показывать одну и ту же цифру, да и при распознавании мозг ребенка может все распознал правильно, но ребенок увидел конфету и уже переключился на неё.
avshkol
18.01.2025 09:28Если для запоминания тройки нужно скользить по ней глазами, то как запоминаются более сложные узоры, геометрические фигуры, рисунки, картины?
Поэтому сомневаюсь, что описанный процесс работает.
DENEVGTAR Автор
18.01.2025 09:28Так как сложный образ состоит из более простых элементов, то в этой модели предполагается, что маленькие сети будут параллельно распознавать малые части сложного образа, каждая свою часть, а распознанный сложный образ это общая активность таких маленьких сетей.
kinh
18.01.2025 09:28Насколько я понял, в статье предлагается растровое изображение преобразовывать в векторное. При этом сама же нейросеть будет искать векторы в исходном растровом изображении, преобразовывать их в относительные перемещения, и распознавать ломаную из таких относительных перемещений. В принципе, вполне себе вариант. Такой подход будет мало чувствителен к повороту, однако будет чувствителен к масштабу. Но даже здесь можно нормализовать длины векторов. Проблема будет с большими сложными изображениями: пока нейросеть все векторы отсканирует - много времени пройдёт. Это - беда всех векторных представлений: они слишком много ресурсов требуют на сложных объектах.
Однако такой подход может быть вполне применим как раз для распознавания текста, как и предложено в статье.Вообще-то, глядя на картинку в аннотации статьи, я ожидал, что статья будет о "координациях", которые биолог Конрад Лоренц определил как врождённые последовательности действий. Например, есть координация плавания у рыб, координация броска на добычу у хищников. Эта последовательность действий поддаётся регуляции: например, может начинаться не сначала, и заканчиваться преждевременно. Две координации, в зависимости от внешнего стимула, могут плавно переходить друг в друга: то есть при слабом стимуле животное двигается одним способом, при сильном - другим, а при промежуточном - комбинированным способом.
DENEVGTAR Автор
18.01.2025 09:28Я предполагал что такая система не будет чувствительной к повороту контура и его масштабу, потому что в ней нет как такового понятия геометрии контура – система лишь получает сигнал обратной связи от глаза как подтверждение того, что процесс в ней развивается правильно. Но сама геометрия сети, то есть направление распространения нервных импульсов в ней и геометрия контура могут отличаться. По поводу больших и сложных изображений, в этой модели небольшие сети параллельно распознают каждая свою, малую часть сложного объекта, которая в них записана и за счёт параллельности работы таких сетей компенсируется затрата времени при распознавании сложного изображения. Спасибо за ссылку на статью про "координации", почитаю. На картинке в аннотации я имел ввиду что любое действие животного это проигрывание того, что записано в таких микро сетях.
peterjohnsons
18.01.2025 09:28А кто-то пробовал современные мультимодальные LLM протестировать на способность опознавать не виданные ранее образы, просто увидев пример один раз ?
Автор упускает из виду тот факт, что мозг человека постоянно обучается с самого рождения. Мы постоянно получаем огромное количество визуальной информации, которая обрабатывается и систематизируется мозгом. Этот непрерывный процесс обучения формирует основу для распознавания новых образов в дальнейшем. Даже если мы видим цифру 3 впервые, наш мозг уже имеет огромный багаж знаний о линиях, изгибах, формах и других базовых элементах, из которых состоят изображения.
Процесс "запоминания" образа, описанный в статье, кажется чрезмерно упрощённым. Автор предполагает, что глаз двигается вдоль контура, и это движение напрямую кодируется в нейронной сети. Но как быть с более сложными образами, которые не сводятся к простому контуру? Как быть с объектами, которые мы видим под разными углами? Мозг не просто запоминает контур, он формирует многомерное представление объекта, учитывая его форму, цвет, текстуру, контекст и множество других факторов.
Что касается вопроса о мультимодальных LLM. Возможно, такие тесты уже проводились, и было бы интересно узнать их результаты. Однако, я сомневаюсь, что современные LLM смогут полностью повторить способности человеческого мозга в этой области. Потому что с рождения человека его мозг находится в непрерывном процессе обучения, получая информацию из всех доступных источников: зрение, слух, осязание, вкус, обоняние. Этот колоссальный по своим объёмам поток данных формирует основу для невероятно сложной и гибкой системы распознавания образов. LLM, даже самые продвинутые, пока что оперируют с наборами данных, которые являются лишь бледной тенью того, что переживает человек на протяжении своей жизни.
Поэтому для будущих мультимодальных систем надо будет собирать намного больше данных, и, что более важно, эти данные должны быть непрерывными, многоаспектными и контекстуально богатыми. Носимые устройства, такие как очки дополненной реальности, могут стать ключом к решению этой проблемы.DENEVGTAR Автор
18.01.2025 09:28Мне кажется что запоминание и распознавание сложных объектов как процесс состоит из более простых элементов. В статье описаны как раз эти простые элементы – запоминание и распознавание контуров объектов. Возможно что я ошибаюсь, но мне кажется, что в мозге нет сложной обработки данных в нашем обычном понимании, нет сложной координации процессов (ведь тогда для каждого сложного процесса в мозге понадобится физически создавать свой отдельный координатор – а сложных процессов, неограниченное количество). К тому же при сложной обработке одна нейронная сеть должна передавать в другие нейронные сети структурированную информацию, а нейронных сетях-получателях эта информация должна обрабатываться и передаваться дальше. Все это требует синхронизации, дополнительных “проводов” и затрат энергии в мозге. В предложенной модели мозг это более простая и однородная конструкция – маленькие нейронные сети работают параллельно и независимо, сложный распознаваемых образ это их общая одновременная активность. Про мультимодальные LLM, спасибо, почитаю.
perfect_genius
18.01.2025 09:28Какого размера должны быть тройка или как близко к лицу, что приходится двигать глазом?
Скорее уж глаз остановится в двух точках - центр полуокружностей тройки, а водить глазами по всей форме человеку надо только при записи этой цифры вручную.
DENEVGTAR Автор
18.01.2025 09:28Возможно, что человек не может отследить сознательно, как движется глаз, когда он смотрит на образ цифры, но у каждого процесса есть своя динамика. Нам кажется что мы посмотрели на образ и сразу его распознали, но на самом деле это ведь некий процесс, который как-то начинается, происходит, развивается. В этой модели предполагается, что небольшая нейронная сеть управляет глазом так, что он движется по контуру, ведь контур цифры 3 может быть самой разной формы, перевернутым, растянутым, с помехами и т.д. Но тем не менее мозг способен к обобщению, способен распознать внешне разные контуры как цифру 3.
Devastor87
18.01.2025 09:28Рисунок 1 КАЧЕСТВЕННО некорректный - аксоны НЕ ветвятся. Не знаю, откуда взят рисунок, но этот источник явно не шарит в биологии человека даже на базовом уровне.
По сути "метод", описанный в статье - это обобщённое описание принципа работы сверточной нейросети. То есть от чего пытались уйти:
Здесь что то не так. Рассмотрим другой подход.
К тому и вернулись...
Пример с цифрой, возможно, можно описать с помощью механизма саккад, но только такие узкие частные случаи и получится. Образы объекта в реальности далеко не всегда имеют четкие контуры, распознаются по контурам и т.д. В общем здесь просто описан ЧАСТНЫЙ случай ЧАСТНОГО случая, не более.
Саккад за "единицу времени" происходит на много порядков меньше, чем потребовалось бы, чтобы таким способом описать всё, что человек видит даже на одной статической "картинке".
Резюмируя: статья во многом некорректная и неверная, однако, сам посыл хороший и правильный - действительно, мозг в реальности очень быстро "учится" распознавать и отличать одни объекты от других в самых разных видах, ситуациях, освещении и т.д. Значит, принципы "распознавания" кардинально и качественно иные, нежели описанные в статье и существующие методы в области ИИ.
Гипотеза: возможно, стоит попробовать применить подход, схожий с тем, что применяется в генеративных визуальных моделях - диффузионный метод, в котором картинка создаётся не попиксельно, а совокупностью образов?
То есть, возможно, мозг "видит" перед собой сразу что-то вроде "нагромождения" множества образов (вот тут для их "разделения", вполне может быть, что во внутренних системах мозга где-то и применяется какое-то подобие алгоритмов поиска контуров объектов, однако, явно количества саккад не достаточно для такого объема, возможно, при этом идёт огромное количество параллельных процессов?), которые он "узнаёт" перед собой и далее фиксирует в своих нейросетях?..
DENEVGTAR Автор
18.01.2025 09:28Картинка с соединенными нейронами, конечно, условная. В статье описан, с моей точки зрения, не частный случай, а то как может работать такая система на нижнем уровне, на уровне запоминания и распознавания контуров. Нечеткий контур это все же контур и, возможно, такая система сможет его распознать, используя свою инерцию и обобщая детали. Спасибо про замечание о саккадах. Я предполагал направлением движения глаза управляет нейронная сеть и саккады это лишь дополнительный механизм на одном из этапов запоминания. Про множество образов и параллельные процессы – да, я имел в виду, что, возможно, такие небольшие сети работают параллельно и на нижнем уровне распознают записанные в них контуры, то есть основное управление глазом идет от микро сети, а не от саккад. Саккады лишь вносят небольшой элемент случайности при поиске в сети, когда она запоминает контур. Про диффузионный метод, спасибо, почитаю.
bigbamblbee
18.01.2025 09:28Мда, глупая человечешка пытается понять, как работает компьютер, разобрав его на винтики и выковыривая микросхемы и конденсаторы из материнской платы:
-не понимаю, где тут буквы и картинки, откуда звук, ведь нету рта...
Rolk
18.01.2025 09:28Скорее всего мозг сперва учится узнавать и запоминать точки, линии, светло или темно. Потом прямые, кривые, закорючки, кружочки, цвета и т.д. Т.е. сперва простейшие элементы, потом сложнее. Далее, уже эти закорючки соединять в более сложные сочетания. Цифра 3 запоминается не сама по себе, а как сочетание неких простейших элементов. От слоя нейронных сетей к слою повышается абстракция. И уже потом, мы можем найти цифру 3 в расположениях домов, деревьев, звёзд и т.д.
DustCn
А потом из сисек получается тройка. Понятно.
azTotMD
"О шея лебедя, о грудь, о барабан. И эти палочки, трагедии знаменье"
Скрытый текст
http://lib.ru/SOCFANT/CHAPEK/chapek13.txt