Введение
Во многих системах при обучении распознаванию образов загружается большое количество различных изображений этого образа. Однако человек запомнив, например, цифру 3 на примере одного из ее изображений, способен распознавать тройки самых разных форм, размеров и ориентаций. Причем распознавать быстро и безошибочно. Как такое возможно? Да что человек, возьмем более простые организмы, скажем насекомых. Неужели в нервную систему комара для того, чтобы он умел распознавать окружающие объекты нужно загружать сотни разных изображений этих объектов, как это делается в системах машинного обучения ?
Здесь что то не так. Рассмотрим другой подход.
Сначала несколько известных понятий о мозге, которые нам понадобятся.
Нейроны
Как известно активность мозга обеспечивают нейроны – клетки, приспособленные для передачи друг другу электрических сигналов. Нейроны связаны друг с другом через отростки двух типов – аксоны, по которым сигналы поступают от тела клетки и дендриты, по которым клетка получает входящую информацию. Место, где аксон соприкасается с дендритом называется синапсом. Через синапсы электрический сигнал передается от одного нейрона к другому.
Нервный импульс и потенциал действия
Физиологической основой нервного импульса является потенциал действия. Потенциал действия возникает при деполяризации нейрона — если достигнут некоторый порог клетка возбуждается и от её тела к аксонам и дендритам распространяется волна электрического сигнала.
Долговременная потенциация
Воспоминание это группа нейронов, которые возбуждаются всякий раз, когда возбуждается один из нейронов группы. Когда нейроны группы возбуждаются вместе, это увеличивает вероятность их следующего совместного возбуждения. Чем чаще возбуждается нейрон, тем сильнее его воздействие на другие, связанные с ним нейроны и тем выше вероятность того что он вызовет возбуждение в них. На поверхности возбужденного нейрона происходят химические изменения, делающие его чувствительнее к стимуляции со стороны тех нейронов, от которых к нему пришли импульсы. Этот процесс называется долговременной потенциацией. Многократное одновременное возбуждение может крепко связать нейроны – активность одного нейрона будет вызывать возбуждение всех нейронов группы, с которыми он связан. Так записываются воспоминания.
Саккады
Саккады это автоматические, неуправляемые, быстрые движения глаз, которые позволяют сканировать визуальную сцену. Глаз на короткое время фиксируется на элементе изображения и затем быстро переходит к следующему элементу.
На рисунке 1 показаны несколько соединенных друг с другом нейронов.
В мозге нейроны соединяются друг с другом в огромную сеть как на рисунке 2.
Очевидно что система, в которой множество нейронов посылают друг другу импульсы, имеет сложную динамику. Поэтому чтобы процесс запоминания и распознавания образа шел в нужном направлении, в данной модели используется обратная связь от глаза в нейронную сеть мозга.
Так как импульсы передаются от одного нейрона к другому в определенном направлении и система вряд ли может распознать образ за один цикл прохода импульсов от глаза по сети, то предполагается что система работает в импульсном режиме, как бы сканируя образ на некоторой частоте с обратной связью от глаза.
Запоминание образа
Предположим что человек не знает что такое цифра 3 и учится писать, запоминает ее. Учитель рисует тройку на доске и глаз ученика начинает двигаться вдоль контура тройки, как показано на рис. 3. Что при этом происходит в мозге?
Глаз начинает двигаться вдоль контура тройки не сразу. Сначала нейронная сеть мозга управляет мышцами глаза так что глаз ищет направление движения вдоль контура тройки. В процессе поиска глаз может двигаться в разных направлениях, показанных на рис. 3 зелеными стрелками S1, S2, S3, S4, как бы ощупывая пространство.
Начальный процесс поиска устойчивого направления вдоль контура тройки это случайная активность сети и саккадные движения, но он управляется сигналом обратной связи от глаза. Если в данный момент нейронная сеть управляет мышцами глаза так что он движется в направлении S1, то двигаясь в этом направлении глаз выходит за контур тройки и частота импульсов, поступающих в нейронная сеть от глаза уменьшается, а значит процесс распространения импульсов в этом направлении не поддерживается сигналом обратной связи от глаза и процесс в сети N1, вызывающий движение глаза в этом направлении, затухает. Затухание происходит не сразу - уменьшающаяся частота импульсов от глаза приводит к тому, те клетки, которые управляли глазом так что он двигался в направлении S1 становятся неактивными и глаз возвращается в точку, находящуюся на контуре тройки, откуда начиналось его движение в сторону S1, эта точка подтверждается сигналом обратной связи от глаза.
Импульсы от глаза перераспределяются - активируются соседние нейроны сети N1, которые направляют глаз по направлению S2, потом S3, S4. Этот процесс поиска продолжается до тех пор пока глаз не начнет двигаться в правильном, устойчивом направлении D1 вдоль контура тройки. Когда это происходит, контур обратной связи замыкается, в сеть N1 от глаза стабильно поступают импульсы с большой частотой, система переходит в устойчивое состояние. Для запоминания, долговременной потенциации процесс распространения импульсов в сети должен быть устойчивым какое то время, то есть поддерживаться сигналом обратной связи от глаза, что и будет подтверждением того что глаз движется в правильном направлении вдоль контура тройки.
Далее глаз, двигаясь в направлении D1 доходит до места, где контур тройки делает поворот. Это приводит к тому что импульсы обратной связи от глаза ослабевает и нейронная сеть начинает искать новое направление взгляда вдоль контура тройки (синие стрелки S1-S3 на рис. 4) пока не будет найдено следующее направление D2 с устойчивой обратной связью от глаза. В процессе поиска и в устойчивом состоянии импульсы от глаза будут входить в сеть N1 и распространяться через нее в сеть N2. Когда направление D2 найдено, нейроны сети N2 продолжат управлять мышцами глаза так чтобы взгляд двигался в направлении D2.
На следующем повороте контура тройки процесс запоминания будет таким же – сначала поиск направления движения взгляда сетью N3 (красные стрелки S1-S3 на рис. 5), затем обнаружение направления D3 и движение взгляда по этому направлению вдоль контура тройки.
И так далее, глаз движется вдоль контура тройки до его конца и сеть запоминает образ.
“Поиск направления – движение взгляда вдоль контура тройки – поиск направления – движение взгляда вдоль контура тройки” - эти процессы в мозге должны быть простыми, похожими и повторяющимися. Если для запоминания каждого образа эти процессы были бы разными, то это привело бы к ненужному усложнению мозга. Далее в тексте я называю такие сети, участвующие в запоминании и распознавании, микроплеерами или просто плеерами, потому что они небольшие и каждый раз как бы проигрывают запомненный образ.
Распознавание образа
Процесс распознавания образа тройки в мозге выполняется теми же нейронами, сетями и путями распространения импульсов, которые были задействованы при запоминании этой цифры. Схожи и сами процессы запоминания и распознавания. Вряд ли для запоминания и распознавания используются разные группы нейронов и разные процессы. Это было бы слишком сложно, тем более что разнесение в пространстве и времени запоминающих и распознающих сетей нейронов потребовало бы копирования информации из одной группы нейронов в другую, синхронизации процессов в обоих группах клеток и так далее.
Перейдем к процессу распознавания, показанному на рис. 6.
Заметим что тройка, которую нужно распознать, отличается по форме от тройки, которая использовалась при обучении. Как было сказано ранее, в распознавании тройки участвуют те же нейроны, которые участвовали в процессе обучения, и соседние с ними нейроны. Процессы запоминания и распознавания также схожи.
Когда глаз движется вдоль контура тройки, в плеер поступают частые импульсы обратной связи от глаза, что является подтверждением того что глаз движется в правильном направлении. Когда взгляд, двигаясь в текущем направлении вдоль контура тройки, подходит к месту, в котором контур тройки делает поворот, глаз начинает выходить за контур тройки и сигнал обратной связи от него ослабевает. Это приводит к тому что в плеере возникают локальные поиски немного в стороны от текущего направления, показанные маленькими стрелками, в том числе стрелками S1, S2, S3 на рис. 6. Глаз при этом как бы ощупывает взглядом окрестности точки, в которой направление взгляда вышло за пределы контура тройки, пытаясь найти точки продолжения контура. Если глаз находит такие точки то это сопровождается учащением импульсов от глаза, подтверждающим что глаз снова движется вдоль контура тройки - цепь обратной связи замыкается, локальные поиски прекращаются.
В процессе распознавания управление мышцами глаза последовательно переходит к нейронам сетей N1, N2, N3 для разных участков контура тройки. Нейроны сети N1 передают управление мышцами глаза нейронам сети N2, нейроны сети N2 передают управление нейронам сети N3 и так до конца контура тройки. При этом сигналы обратной связи от глаза в процессе распознавания все время проходят начиная с сети N1 к текущей сети, управляющей в данный момент мышцами глаза. То есть сначала по пути “глаз – сеть N1 – мышцы глаза”, потом “глаз – сеть N1 – сеть N2 – мышцы глаза”, затем “глаз – сеть N1 – сеть N2 – сеть N3 – мышцы глаза” и так далее. Еще раз отмечу, что распознавание в такой системе это процесс в котором участвуют те же нейроны и сети, которые участвовали в процессе обучения. И сам процесс распознавания такой же как при обучении – “поиск – стабильное состояние сети – поиск – стабильное состояние сети”.
В такой системе замыкание обратной связи через контур “глаз – нейронная сеть (плеер) – мышцы глаза – глаз - образ тройки – глаз” и поддержание благодаря обратной связи активности процесса в плеере это и есть распознавание – то есть соответствие процесса, запомненного в плеере, изображению тройки перед глазом.
При этом активность полного контура обратной связи в данный момент времени может поддерживать только один плеер, так как мышцы глаза одни и управлять ими может только один плеер. Этим обеспечивается правильность распознавания.
При запоминании и распознавании в нейронной сети нет понятия об ориентации образа тройки и его геометрии как таковой – плеер о них ничего не знает. Также на рис. 6 видно что при распознавании тройки геометрическая форма сети и направления распространения импульсов в ней могут быть совсем не похожи на образ тройки перед глазом.
При распознавании импульсы в плеере распространяются так, что при изменении направления контура тройки глаз ищет новое направление движения взгляда вдоль контура относительно текущего направления движения взгляда, поэтому плеер может распознавать перевернутую тройку как показано на рис. 7.
А как такая система справится с распознаванием образа тройки, в котором часть контура разорвана (зона А на рис. 7) или, например, пересекается с линиями которые не принадлежат контуру (зона В на рис. 7) ? Как описывалось ранее, когда взгляд движется вдоль контура тройки и в плеер поступают импульсы от глаза, система находится в стабильном состоянии, контур обратной связи “глаз – плеер – мышцы глаза – глаз” замкнут. Такая система имеет инерцию - контур обратной связи не может разорваться сразу, поэтому взгляд просто пропускает разрывы и пересечения контура с посторонними линиями и движется дальше вдоль контура тройки.
При этом распознавание в плеере это относительно простой, автоматический процесс. Сам плеер не знает что именно он распознает. Если, например, распознается образ, показанный в середине рис. 8 то, в зависимости от того, в каком направлении движется взгляд на этапе поиска точек контура, плеер может распознать тройку как в форме R1 красного цвета, так и в форме R2 зеленого цвета - система способна к обобщению, то есть к распознаванию образов тройки разной формы.
Распознавание одной из нескольких цифр
Допустим что мозг запомнил все цифры от 1 до 9. После обучения для каждой цифры в мозге есть свой плеер. Затем человеку показывают изображение одной из цифр. Система должна определить какая это цифра. При распознавании все плееры для цифр от 1 до 9 запущены и одновременно работают в мозге как показано на рис. 9.
На вход всех плееров подается сигнал от глаза и плееры пытаются распознать свою цифру независимо и параллельно. Но мышцы глаза одни и ими может управлять только один плеер. Какой именно ? А тот плеер в котором быстрее замыкается петля обратной связи распознавания. В данном случае плеер тройки первым перехватывает управление мышцами глаза. Процессы распознавания в плеерах для других цифр ослабевают и они не управляют мышцами глаза. То что процесс в плеере тройки остается активным а в других плеерах ослабевает это и есть признак того, что перед нами именно тройка а не другая цифра.
Однако это динамический процесс – если образ тройки перед глазами начнет трансформироваться в образ другой цифры, например, двойки, то активным станет плеер двойки. Он перехватит управление мышцами глаза а сигналы в плеере тройки ослабнут.
Заключение
Можно ли применить микроплееры не только для распознавания образов, но и для объяснения работы мозга в целом?
Возможно да. В статье был рассмотрен механизм распознавания зрительного образа, но тот же механизм может работать при распознавании информации от других органов чувств.
Для распознавания сложных образов и других видов когнитивной деятельности в мозге могут одновременно быть запущено большое количество плееров, работающих параллельно.
Комментарии (7)
atues
18.01.2025 09:28Где-то я похожее читал... А, вспомнил: книга Дж.Хокинса "Об интеллекте". Там еще много чего другого, например, многослойные структуры кортикальных колонок. Рекомендую
azTotMD
18.01.2025 09:28Однако человек запомнив, например, цифру 3 на примере одного из ее изображений, способен распознавать тройки самых разных форм, размеров и ориентаций. Причем распознавать быстро и безошибочно
Что-то у меня есть какие-то сомнения в этом тезисе. Попробуйте научить ребёнка 3-4 лет опозновать цифру 3, ему не раз и не два надо будет показать и повторить, прежде чем он запомнит и начнёт их узнавать.
iShrimp
18.01.2025 09:28Этот механизм, по-видимому, работает в первые месяцы и годы жизни ребёнка, когда он только учится познавать мир (и учится, конечно, не на цифрах, а на окружающих предметах - лица родителей, кровать, игрушки и т.д.). Со временем в зрительной коре запечатлеваются не только пятна и контуры, но и более сложные образы, так что мозг приобретает способность узнавать предмет с одного взгляда, не нуждаясь в необходимости обводить его глазами по контуру.
Сложность в том, что в мозге нет свёрточных нейронных сетей, поэтому для развития навыка беглого взгляда мозг должен запомнить, как выглядит предмет, не только в центральном, но и в околоцентральных положениях в поле зрения.
avshkol
18.01.2025 09:28Если для запоминания тройки нужно скользить по ней глазами, то как запоминаются более сложные узоры, геометрические фигуры, рисунки, картины?
Поэтому сомневаюсь, что описанный процесс работает.
kinh
18.01.2025 09:28Насколько я понял, в статье предлагается растровое изображение преобразовывать в векторное. При этом сама же нейросеть будет искать векторы в исходном растровом изображении, преобразовывать их в относительные перемещения, и распознавать ломаную из таких относительных перемещений. В принципе, вполне себе вариант. Такой подход будет мало чувствителен к повороту, однако будет чувствителен к масштабу. Но даже здесь можно нормализовать длины векторов. Проблема будет с большими сложными изображениями: пока нейросеть все векторы отсканирует - много времени пройдёт. Это - беда всех векторных представлений: они слишком много ресурсов требуют на сложных объектах.
Однако такой подход может быть вполне применим как раз для распознавания текста, как и предложено в статье.Вообще-то, глядя на картинку в аннотации статьи, я ожидал, что статья будет о "координациях", которые биолог Конрад Лоренц определил как врождённые последовательности действий. Например, есть координация плавания у рыб, координация броска на добычу у хищников. Эта последовательность действий поддаётся регуляции: например, может начинаться не сначала, и заканчиваться преждевременно. Две координации, в зависимости от внешнего стимула, могут плавно переходить друг в друга: то есть при слабом стимуле животное двигается одним способом, при сильном - другим, а при промежуточном - комбинированным способом.
DustCn
А потом из сисек получается тройка. Понятно.
azTotMD
"О шея лебедя, о грудь, о барабан. И эти палочки, трагедии знаменье"
Скрытый текст
http://lib.ru/SOCFANT/CHAPEK/chapek13.txt