В начале 1960-х у нас и в Америке появилась новая разновидность машинного зрения – лазерная, и приборы лазерного машинного видения – лидары. Во второй половине того десятилетия уже продавались промышленные тепловизоры. В основанном в 1966 году Центе искусственного интеллекта Стэнфордского исследовательского института построили программируемого робота колесиках, оснащенного антенной, телекамерой, ультразвуковыми дальномерами и чувствительными демпферами на случай столкновений, способного двигаться по заданному пути, самостоятельно обходя препятствия, а поскольку он при этом все время сам трясся, его так и назвали Shakey (Трясун). Уиллард Бойл и Джордж Смит из Bell Labs изобрели ПЗС-матрицу из светочувствительных диодов, которую окрестили «вездесущим цифровым глазом», новой цифровой ипостасью фотопластинок, фотопленок, телекамер, фотоэлектронного умножителя и т.п. 

Словом, шла свои чередом эволюция классического, докомпьютерного машинного зрения, берущего свое начало от камеры-обскуры, и новых его разновидностей, которая заметно оживилась после появления в 1957 году цифровой фотографии новорожденного сына инженера Рассела Кирша из Национального института стандартов и технологий США, отсканированной Киршем и помещенной в память мейнфрейма SEAC, где с ней можно было экспериментировать на уровне машинного программирования, что в свою очередь положили начало таким областям машинного зрения, как компьютерная обработка изображений и распознавание образов.

Первое цифровое фото
Первое цифровое фото

На этом фоне яркой заплаткой выглядит статья нейрофизиологов из Гарвардской медицинской школы Дэвида Хьюбела и Торстена Визеля «Рецептивные поля, бинокулярное взаимодействие и функциональная архитектура зрительной коры головного мозга кошки», опубликованная в 1962 году в чисто биологическом «The Journal of Physiology», которая присутствует во многих таймлайнах эволюции машинного зрения как знаковая веха. 

Здесь, вероятно, надо иметь в виду следующее. Двумя годами ранее в тоже чисто биологическом «Журнале общей физиологии» была опубликована статья «Анатомия и физиология зрения лягушки (Rana pipiens). Ее авторами были сотрудники Исследовательской лаборатории электроники MIT Уолтер Питтс и Уоррен Маккалок, которые, как известно в 1943 году впервые формализовали нейронную сеть в виде ее математической модели. Их статья 1960 года о зрении леопардовой лягушки, которая в Америке такая же обычная, как у нас травяная, была, как гласит сноска под ней «частично профинансирована Армией США (Корпус связи), ВВС США (Управление научных исследований, Командование воздушных исследований и разработок) и ВМС США (Управление военно-морских исследований), очевидно, озабоченных тем, нельзя ли снабдить их танки, самолеты и корабли с подлодками хотя бы таким самостоятельным зрением, как у лягушки.

Схема из статьи
Схема из статьи

Смешного в этом ничего нет. Питтс и Маккалок ставят перед собой вопрос: выполняет ли сетчатка глаза лягушки анализ и выделяет ли значимые параметры, которые позволят распознать универсалии, или этот анализ выполняется только позже в зрительных центрах? После серии опытов и расчетов отвечают на него так. Нервные узлы образуют пять естественных (природных) классов. Четыре из них воздействуют на зрительный образ, выполняя сложные аналитические операции, которые остаются неизменными при изменении общего освещения и общей картины видимого окружения. А пятый класс измеряет интенсивность света. Их операции с нервными окончаниями кратко описаны в их названиях: 

  • Класс 1. Обнаружение устойчивых краев – с нестираемым удержанием;

  • Класс 2. Обнаружение выпуклых краев – со стираемым удержанием;

  • Класс 3. Обнаружение изменения контрастности; 

  • Класс 4. Обнаружение затемнения;

  • Класс 5. Обнаружение в темноте. 

Иными словами, у них над формированием увиденного изображения работают те же демоны Селфриджа, только выдрессированные природой за миллионы лет не вопить по поводу и без повода, а молча исполнять свои функции.

Схема из статьи
Схема из статьи

Эти функция сетчатки лягушки заключается не в передаче информации о точечном распределении света и темноты в формируемом на ней изображении. Напротив, мы обнаруживаем, пишут Питтс и Маккалок, что ее функция заключается главным образом в анализе этого изображения в каждой точке (постоянные края, изгибы, изменение контрастов и локальное уменьшение интенсивности света) и измерения освещенности, и затем в отправке этой информации в бугорки (зрительные холмики в среднем мозге рыб и земноводных, или к Пандемониуму по терминологии Селфриджа), где окончательно формируется картинка увиденного.

Зрение у лягушки черно-белое. Более сложное, с точки зрения нейрофизиологии, зрение у высших животных – млекопитающих, к которым относятся и кошки. Их-то и выбрали для своего исследования Дэвид Хьюбел и Торстен Визель. Желающие, кому не претит чтение об их методиках исследования, похожих на изощренное издевательство над котами во имя науки, могут самостоятельно почитать их работу. Но при всем желании там трудно найти что-либо принципиально новое и конкретное для программирования машинного зрения по сравнению с работой Питтса и Маккалока о зрении лягушки. Разве что то, что функциональных разновидностей клеток в сетчатке глаза кошек много и работают они бригадами, отсылая импульсы в места слияния их нейронов в коре и подкорке головного мозга, где послания бригад бинокулярного зрения левого и правого глаза сливаются в латеральном коленчатом теле подкорки. 

Это если говорить именно о данном исследовании Хьюбела и Визеля 1962 года. Окончательный вариант их теории зрения не только кошек, но и приматов, включая нас с вами, за который они получили в 1981 году Нобелевскую премию по физиологии и медицине «за открытия, касающиеся принципов переработки информации в зрительной системе», в нейрофизиологии был «важным шагом вперед», как отметил Нобелевский комитет. Но такие шаги вперед в этой области науки продолжаются до сих пор и пока нельзя сказать, сколько еще придется их сделать, чтобы получить окончательную картину переработки зрительной информации в нашем мозге. 

А в начале 1960-х годов, когда Хьюбел и Визель постулировали присутствие в зрительной коре иерархических структуры нейронов: нейроны — детекторы признаков, комплексные нейроны и гиперкомплексные нейроны. Но «анализ закодированного сообщения, поступающего от сетчатки, в зрительной коре происходит так, как если бы определенные клетки считывали простые буквы в сообщении и складывали их в слоги, которые затем считываются другими клетками, а те, в свою очередь, складывают слоги в слова, которые, наконец, считываются другими клетками, складывающими слова в предложения, которые отправляются в высшие центры мозга, где возникает зрительное впечатление и сохраняется память об изображении» (закавычена выдержка из пресс-релиза Нобелевского комитета – Ред.), – все это ничего нового для программирования машинного зрения не давало. 

Если пользоваться терминологией Селфриджа образца 1959 года, демоны-вычислители присутствовали и в первой математической модели искусственной нейросети Питтса и Макссалока с 1943 года. Потом то, что они работают не в одиночку, а методом бригадного подряда в виде нейронных «клеточных синаптических ансамблей», показал Дональд Хебб в 1949 году. Что «не только заложило фундамент того, что сегодня известно как машинное обучение, но и обеспечила понимание того, как мы выживаем в этом мире». Ну, а потом Розенблатт сконструировал машину, где ансамбли вычислительных и когнитивных демонов формировали изображения из увиденных ими паттернов в трехслойной нейросети компьютера, то есть аналоге нашей коры головного мозга или, во всяком случае, ее зрительной зоны. И что тут, если не считать гипнотического воздействия их Нобелевской премии на историков машинного зрения, добавили в 1962 году Хьюбел и Визель? Если по-честному, то лягушка Питтса и Маккалока 1960 года с гораздо большими основаниями, чем коты Хьюбела и Визеля, может претендовать на роль знаменательной вехи в истории машинного зрения.

Далее нейрофизиология зрения и ее математическое моделирование с целью научить машину видеть окружающий мир глазами лягушки, кошки и наконец человека шли своим путем. А после появления первых расплывчатых цифровых фотографий, полученных пока еще методом цифрового сканирования, инженеры и изобретатели, далекие от нейрофизиологии, начали лечить астигматизм компьютерного зрения путем повышения числа пикселей. И по мере возрастания вычислительной мощности тогда уже полупроводниковых мейнфреймов это лечение шло вполне успешно. 

О сервисе Онлайн патент

Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам:

Комментарии (0)