Книга (бытия?). Размышления о природе разума. Часть II / forpes.ru

Главная
Книга (бытия?). Размышления о природе разума. Часть II

Книга (бытия?). Размышления о природе разума. Часть II -2

22.01.2020 11:37

Nehc 57 2000 Источник

Слово о процессах, или все мы немного контрамоты.

Продолжения размышлений на тему разума как естественного, так и искусственного (ИИ), Первая часть здесь

Вопрос на засыпку: живет ли человек в сейчас? Не, когда мы идем по улице и непосредственно созерцаем окружающий мир мы действуем более или менее realtime… Хотя на самом деле — пока то, что мы видим, пройдет обычные механизмы распознавания/классификации — все это будет недавним, но все-таки прошлым. Т.е. человек живет в прошлом?

На примере: вы идете по улице, видите собаку. Или машину. В любом случае, если мы говорим о моменте — эта информация уже устарела. Если мы будем оперировать данными, прошедшими все наши когнитивные механизмы (а мозг — далеко не самый быстродействующий вычислитель!) мы просто не будем успевать за миром! Собака нападет или наоборот — убежит, и ваше желание потрепать ее за ухом останется нереализованным, а машина собьет вас, или проедет мимо, хотя именно эту машину вы и хотели «поймать».

Но так слава богу не происходит, и вот почему: мозг работает иначе. Единицей восприятия является не объект, и даже не совокупность объектов, а процессы. Собака бежит. К вам или от вас. Или не бежит, а лежит, например. Машина так же — неподвижна (на парковке), или движется в определенном направлении. Во всех случаях вы воспринимаете процесс, имеющий протяженность во времени и, соответственно, определенное развитие в будущем. Когда я говорю, что мы воспринимаем события развернутыми во времени — это не фигура речи. Проведите эксперимент — возьмите десяток фотографий (т.е. моментальных слепков реальности) и опишите, что видите. Вот несколько людей в комнате, они ссорятся, или вот человек идет по улице, или вот сидит — смотрит телевизор, а тот — читает книгу. Это все протяженные во времени процессы! Вы воспринимаете моментальный слепок, как нечто имеющее протяженность. Вы не умеете по-другому, потому, что мозг так и работает: он натренирован опознавать процессы, а не разрозненные объекты на сцене. Так же, как не глаза-нос-рот, а лицо в комплексе (привет, сверточные нейронные сети).

Мир состоит из процессов, а не из объектов. Если спросить у вас, что такое яблоко, то взрослые люди в большинстве скажут, что это плод/фрукт, а дети — что это еда. Но и то и другое — процессное описание, потому, что первое означает, что оное яблоко растет на дереве, и служит дереву для размножения, а второе — что оно съедобно. Ни то, ни другое не связано с непосредственными признаками яблока — формой, цветом, размером… Потому, что признаки позволяют идентифицировать, но не позволяют использовать, или понять где оно используется в окружающем мире, т.е. определить именно процессы.

Если взять типичный диспут о природе времени, то классическими будут постулаты о неизменности прошлого (вне контекста путешествий во времени), важности настоящего (есть только миг… ;) ), и будущем, которое пока не существует, а значит его можно изменить. Когда мы говорим об объективной реальности — очень даже может быть, что так оно и есть. Однако человек живет в своей, субъективной модели мира, а там все почти наоборот!

Прошлое далеко не так неизменно, как хотелось бы. Постоянно получая новую информацию, человек перестраивает прошлое, что бы исключить противоречия (вы думали Петр Степаныч на симпозиуме, а он вон из стрип-клуба выходит… Это значит никуда, он, затейник, не ездил и вообще… ). В то же время ваше субъективное будущее во многих аспектах является константой (что бы там ни было, а в пятницу у меня пиво и футбол!). Мало того — имея определенную цель в будущем, вы не только выстраиваете цепочку процессов в обратном порядке (Что бы стать директором крупной компании, нужно закончить престижный вуз с дипломом, для этого в него надо сначала поступить, для этого надо хорошо сдать ЕГЭ, марш учить уроки!), но и вполне вероятно — уходите в этом процессе в прошлое (у не было ли у нас друзей/знакомых, которые сейчас поднялись и обросли связями и могли бы помочь ребенку с ВУЗом) — чем не контрамоция? ;)

Впрочем, я немного отвлекся. Все-таки главное, на чем я хотел сосредоточить внимание — это процессы. Я глубоко убежден, что потенциальный ИИ нужно обучать не на фото и даже не на видео. Сверточная сеть имеет два уровня (минимум) — и по сути это две разные сети: одна обучена находить в сырой картинке некие графические паттерны, вторая имеет дело — с выходом первой — т.е. с уже обработанной и подготовленной информацией. Для того, чтобы успешно взаимодействовать с миром ИИ нужно тоже самое: на каком-то (далеко не первом) уровне должна присутствовать сеть, получающая на вход развернутую во времени карту процессов. Концепции «начала» и «конца», «движения», «трансформации», «слияния» и «разделения» — это то, с чем должна научится работать сеть.

Я почти уверен, что те, кто занимаются ИИ игр, вроде Альфа Го, это так или иначе понимают. Возможно подходы там несколько иные, но суть та-же: текущая ситуация на доске (причем в развертке на несколько последних ходов) — анализируется на предмет того «что вообще происходит». И в зависимости от того, насколько то, что происходит соответствует тому, что должно происходить — подбираются собственные ходы.

Очень сложно говорить о стратегии/поведении, когда на входе картинка с сенсоров. И наоборот — подготовленный вектор, содержащий полный расклад по текущему состоянию поля в играх с полной информацией (считай полная картина мира) — вполне посильная задача, как показывает практика. Однако, если сверточная сеть первых уровней идентифицировала объекты, а следующие уровни анализируют эти объекты в динамике, идентифицируя процессы (знакомые по обучению, например) дополняет данные, полученные ранее, то с этим уже кажется можно работать…

Вопросы знатокам:

Насколько реально, учитывая текущие наработки по нейронным сетям сделать примерно следующее:

На входе, допустим, непрерывный видеосигнал, возможно стерео. Как вариант: с несколькими степенями свободы (возможность поворачивать камеру — произвольно, или по схеме). Впрочем, при необходимости видеосигнал может быть дополнен/заменен любыми другими способами пространственного восприятия — от сонара до лидара.

Строго говоря...

на входе может быть любой realtime поток — хоть речь/текст, хоть котировки валют, но… В рассматриваемом процессе мне проще опираться на единственный доступный мне для непосредственного изучения образец разума — мой собственный! ) А в этом «образце» сенсорный канал — вне конкуренции!

На выходе:

Карта глубин (если камера статична) или карта окр. пространства (динамическая камера/лидар, etc.);

Для чего
Необходимо, если мы хотим иметь реальное пространственное расположение объектов для оценки их взаимодействия. В таком случае картинка с камеры есть лишь двумерная проекция пространства большей размерности, и нужны дополнительные преобразования.
Выделение отдельных объектов (с учетом карты глубин/пространства, а не только/не столько видимых контуров);
Выделение движущихся объектов (скорость/ускорение, построение/предсказание траектории(?));
Иерархическая классификация объектов по любым извлекаемым признакам (формы/габаритов/цвета/нюансов движения/Составных частей(?)). Т.е. по сути извлечения метрик для Гилбертова пространства.

про иерахию
возможно слово «Иерархическая» не вполне уместно в данном случае. Я хотел подчеркнуть, возможность в любой момент подобрать метрики так, что бы Расстояние Хеминга между ними позволило считать два различных набора метрик суть одним понятием. Как «красная машина» и «Синий автобус» должны быть обобщены в понятие «транспорное средство», например.

Важно: по возможности система не предобученная. Т.е. какие-то базовые вещи могут быть заложены (например — сверточная сеть первого слоя, для выделения контуров/геометрии), но выделять объекты и позднее распознавать их должна научится сама.

Ну и, наконец, построение развертки (на основе пп 1,4, т.е. пространственной карты с учетом метрик) во времени (пока, на этом этапе видимо непосредственно наблюдаемого периода), с целью провести анализ по пунктам 2-4, с дабы выявить: процессы/события (являющиеся по сути своей изменениями во времени п.3) и их кластерной классификации (п.4).

Еще раз: из картинки с сенсоров мы сначала извлекаем описание мира в более подготовленном виде, размеченном по извлекаемым признакам и разделенном не на пиксели, а на объекты. Затем разворачиваем мир, состоящий из объектов во времени и полученную «картину мира» подаем на вход следующей сети, которая работает с ней так, как работали предыдущие слои с сенсорной картинкой. Там, где выделялись контуры объектов, теперь будут выделяться «контуры» происходящих процессов. Взаиморасположение объектов в пространстве подобно причинно следственной связи процессов во времени… Как-то так.

Предположительно после этого система должна быть способна опознавать процессы по их части (как способна опознавать образы, имея лишь их фрагмент, или как написание продолжения текста по образцу), и как следствие — предсказывать оные, как вперед, так и назад во времени, расширяя модель п.5 неограниченно в обе стороны. Так же, предположительно, имея представление о составных процессах, система может выявлять по нескольким связанным локальным процессам более масштабные, глобальные и как следствие — неявные, скрытые процессы, являющиеся составной частью выявленных глобальных, но не воспринимаемых непосредственно.

Ну и последнее: имея в будущем фиксированное состояние системы (где зафиксированы только значимые элементы гилбертовых метрик, при свободной трактовке остальных, не существенных значений) — способна ли сеть «домыслить» остальное?

Ну т.е. если бы это было изображение, в котором заданы только два несвязанных фрагмента — может ли сеть, обученная на какой-то выборке достроить «непротиворечивое» полное изображение? Выборка в данном случае — аналогичные временные интервалы из опыта, фрагменты — текущее и заданное состояния. Результат: непротиворечивая «история», связывающая одно и второе…

Мне кажется, это уже будет вполне существенная база для дальнейших экспериментов:

включение в «историю» собственных действий, если возможно/необходимо
приоритет «закономерных» причинно-следственных паттернов над неконтролируемыми стохастическими выбросами (проблема рулетки)
какой-то вариант любопытства, т.е. активное познание закономерностей через действие… etc

P.S. Вполне допускаю, что я только что изобрел велосипед, и знающие люди давно уже применяют эти принципы на практике. ;) В таком случае прошу меня «ткнуть носом» в соответствующие разработки. И уж совсем будет замечательно, если есть подробное описание фундаментальных проблем такого подхода либо обоснование, почему он в принципе не работает.

P.P.S. Я отдаю себе отчет, что текст сырой, и мысль перепрыгивает с одного на другое, но я очень хотел задать паре человек эти вопросы (раздел «вопрос знатокам»), а это трудно сделать без хоть какого-то изложения. Прошлый текст (а я его сейчас перечитывал, и понял что он очень сложный для восприятия) свою задачу выполнил: я получил несколько ценных для меня дискуссий… Надеюсь и в этот раз прокатит! ;)

Комментарии (57)

trir
22.01.2020 14:50
#21173318
Стимулов не хватает, ведь человек обучается не просто так, а зачем то и учит только то, что ему действительно нужно
1. Nehc Автор
  22.01.2020 15:01
  #21173376
  Стимулов для чего? Для познания? Для действия? Мотивация в этих случаях разная… Познание мотивированно самой сутью разума, коя есть построение модели. А мотивацией к действию будет тот факт, что эти действия являются частью выстроенной модели перехода из текущего состояния в заданное. Как-то так… Наверное.

Crazybunter
22.01.2020 15:23
#21173558
+1
т.е. стоит знать не только функцию, но и ее производную?
1. Nehc Автор
  22.01.2020 15:34
  #21173644
  Да! Очень похоже… ;) И не факт, что только первую…

trir
23.01.2020 07:02
#21177330
У нас есть идея пространства и формы, потому что у нас есть тело, которое можно пощупать
И у нас есть руки, чтобы определить форму других объектов
1. Nehc Автор
  23.01.2020 07:14
  #21177362
  Конечно! В первой части я про это писал… Если мы создаем сильный ИИ, с которым хотим общаться — он должен существовать в нашем (или подобном нашему — симуляция? Почему бы и нет?) мире. И «существовать» — означает не просто иметь к нему доступ, а присутствовать там, быть его частью… И быть активным началом!

MagneticFox
23.01.2020 09:09
#21177646
Я сначала попридираюсь немного.
Любой ответ ребенка (еда\фрукт) можно привязать к действию.
Да, этим ходом вы дали прочувствовать читателю свой взгляд (и это хорошо), но с точки зрения логического вывода это ничего не значить. Вы ложите перед обезьяной банан, яблоко и грушу. Если каждый раз она выбирает банан, то это что-то значит. Но если она выбирает случайный предмет, и вы говорите «она обязательно выбирает фрукт», то это ничего не значит, так как не фрукт она выбрать не может.

Хоть убейте меня, но я вижу в предметах не процесс, а выгоду. Возмем шкалу вреда-пользы [-10,+10]. Собака: можно погладить (+2), можно быть укушенным (-6), можно испугаться (-2). Вывод: если собака не твоя и не знакомая, то лучше держаться подальше.
Идем по лесу и видим на дереве яблоко. Яблоко — еда (+3), но если есть не мытым есть шанс отравиться (-5 * шанс). В принципе сейчас я есть не хочу, поэтому (+2), но могу съесть потом. В рюкзаке у меня места нет. Ищем самое бесполезное в рюкзаке, вместо чего можно положить яблоко. Пусть это будет книга, книга мне нужна (+5), она для меня имеет большую ценность. Значит яблоко для меня в итоге почти не ценно (всего +1), так как я не могу извлечь из него пользу. И оставляю висеть на дереве.
Помимо всего, более мение объективная польза умножается на коэффициент текущего состояния и потребности. Например если человек голоден, то яблоко может получить пользу уже не +3, а +6. А если он переел, то даже самое вкусное пирожное может получить для него отрицательную ценность.
1. Nehc Автор
  23.01.2020 09:58
  #21177862
  >>> но с точки зрения логического вывода это ничего не значить.
  
  Моя цель очень проста. Мы обучаем нейросеть выделять объекты, но хотим от нее действия. Все написанное выше — попытка привести все к единому базису: если объекты для нейросети лишь маркеры действий(процессов), то она работает с одними и теми-же сущностями. Поэтому да, я ввожу допущение, что все суть процессы. Это не объективная истина, это подход.
  
  >>> Хоть убейте меня, но я вижу в предметах не процесс, а выгоду
  
  Что есть «выгода»? Это… Ну в вашей интерпретации это метрика, увеличивающая или уменьшающая… Что? Некий… Итог. Правильно? Но итог чего? На мой взгляд некоего действия. ;)
  
  Т.е. выгода — это лишь оценка процесса как негативного/позитивного. Само по себе яблоко никакое. Все зависит от того, как вы его примените. Если съедите — одна оценка. Если используете как метательный снаряд — другая. Как собеседник — яблоко не очень. )) Именно поэтому оно все таки больше еда.
  1. MagneticFox
    23.01.2020 10:22
    #21177962
    Я смотрю наоборот: не «действие, как венец выгоды» (действие первично, а выгода вторична), а «действие — это всего лишь путь к выгоде» (выгода первична, действие вторично). Без выгоды само действия не представляет интереса. А выполняя некоторое действие мы думаем не про него само, а о выгоде, которое оно нам принесет.
    
    Что есть выгода? Да, наверное именно метрика, раз мы вынуждены сравнивать её с другой выгодой для формирования приоритетов. Итог? Может быть.
    
    1) Выгода может быть не осознаваемая, например сейчас чтобы подумать на текстом и встал из-за компа и прошелся по комнате. Понятно, что я не осознавал выгоду от этого действия (разгрузить входной канал информации), но тем не менее я это сделал.
    2) В идеале у нас есть цель (купить машину), и мы выбираем средства, которые ведут к этой цели. Насколько хорошо мы к цели продвигаемся, такую оценку полезности мы и ставим. НО!!! Не всегда мы понимаем почему это хорошо, и к какой цели это ведет. Но тем не менее это ХОРОШО. Игрок видит в сундуке странный материал, он не знает зачем это. Может быть из него можно выковать супер меч, или с его помощью можно изготовить зелье бессмертия, а может просто продать на рынке за большую сумму. Какой именно итог будет, игрок не знает, но все равно выкидывает из рюкзака пару обычных мечей, и 3 баночки с лечилкой. Он это делает просто потому, что в других играх это приносило пользу.
    
    ПС: В случае с игроком может быть все проще, он забирает материал только потому, что в нем срабатывает древний инстинкт (бери раз дают). А выкидывает другие предметы потому что он знает где их взять и их много, а материал всего один, и найдется ли другой не известно.
    
    Nehc Автор
    23.01.2020 10:38
    #21178070
    >>>Без выгоды само действия не представляет интереса
    
    Ну, действие бывает само по себе (процесс может происходить по независящим от вас обстоятельствам) и не касаться вас напрямую, однако «выгода» — всегда результат процесса. Поэтому я не совсем понимаю, что вы вкладываете в понятие «первичности». Может быть еда без насыщения и не представляет интереса, но что бы насытится — нужно поесть.
    
    Даже в приведенном вами примере про собаку и яблоко вы в каждом случае привели минимум по три процесса, прежде чем как-то оценили выгоду! Моя мысль заключалась именно в том, что яблоко само по себе бесполезно («выгоду», в вашей терминологии определить нельзя). Только как маркер связанных процессов. А уж как дальше работать с процессами — тема отдельной беседы.
    
    Kilorad
    23.01.2020 10:54
    #21178150
    Насчёт ориентированности на выгоду — я в основном согласен с вами, но не во всём.
    
    Выгода может быть не осознаваемая, например сейчас чтобы подумать на текстом и встал из-за компа и прошелся по комнате. Понятно, что я не осознавал выгоду от этого действия (разгрузить входной канал информации), но тем не менее я это сделал.
    — полагаю, человека не всегда полезно рассматривать как оптимизатор. Мы можем подобрать такую функцию полезности, что все действия, выбранные в прошлом, будут эту функцию максимизировать. Да, она будет сложная… Но мы можем.
    А можем сказать: у человека система ценностей «плавает» — входные сигналы типа голода и страха на неё влияют. И человек ведёт себя как рациональный агент, но с плавающей метрикой.
    Это не значит, что такое свойство следует переносить в ИИ, я лишь указываю, что подход «человек — это достигатель целей» — это упрощение, и иногда можно вывалиться за границы его применимости.
    
    Вообще, насчёт выгоды. Есть такая пара терминов: инструментальные и терминальные ценности. У системы (в том числе человека) могут быть какие-то самоценные штуки — то, чего система просто так. А могут быть штуки, которые нужны лишь как средства. Например, хочу я шоколада. Это не способ достижения какой-то осознанной цели, просто мне нравится вкус (то есть датчики вкуса шоколада соединены с моим каналом подкрепления). Это терминальная ценность. А деньги в таком случае — ценность инструментальная, потому что они являются одним из способов добыть этот шоколад.
    
    В зависимости от того, каковы терминальные цели, разные объекты будут или не будут инструментальными целями (и у них будет разная ценность, вплоть до отрицательной). Насколько я понимаю, вы выражали похожую идею, я просто… Немного дополнил и раскрыл)
    
    MagneticFox
    23.01.2020 11:15
    #21178272
    Да, ваши мысли мне близки.
    Насчет оптимизатора. Я очень старался найти вариант, когда такой взгляд на вещи был бы плохим. Но у меня не получилось. Оптимизатор — это пока лучшее, что я находил.
    
    Насчет цели и средства. Да большинство цепочек вещей средство-средство-средство-цель заставляет нас считать целью только то, что непосредственно влияет на наши рецепторы удовлетворения, а остальное только средством. Человек покупает машину, и с одной стороны для него это явное средство (катать девочек, быстрее добираться до работы), но на самом деле конкретно ему приятно просто знать, что у него есть машина. И для него это именно цель, даже если она будет просто стоять в гараже и ни разу не будет запущена (не выполнит задачи средства).
    Указанные цепочки слишком длинные, чтобы с ними мог работать наш мозг, поэтому он оформляет некоторые средства (элемент цепочки) в качестве цели, и работает с этим именно как с целью, пусть даже объективно эта вещь остается именно средством.
    
    Kilorad
    23.01.2020 12:14
    #21178652
    И для него это именно цель, даже если она будет просто стоять в гараже и ни разу не будет запущена (не выполнит задачи средства).
    — такой подход имеет смысл и широко распространён в психологии. Но я полагаю, он не вполне конструктивен. Любое поведение можно объяснить словами «он этого и добивался».
    Зенитная ракета не попала в самолёт, а упала на землю? Такова и была цель.
    Я согласен, что есть неосознаваемые ценности. Но есть ещё механика работы интеллекта, и эта механика состоит из физических деталей, а не из элементарных оптимизаторов. Чтобы иметь возможность сказать «вот здесь интеллект ошибся», надо чётко очертить цели и считать, что появление любых других терминальных целей — ошибка.
    
    Примеры того, как люди ведут себя не как оптимизаторы.
    1) Коленный рефлекс. Человека бьют по коленке, нога дёргается. Это не достижение ранее поставленных целей.
    2) Психические расстройства. Человек хотел вполне хороших штук — любви, признания, денег, комфорта — всё как у всех. Но вдруг на него нападает апатия и он даже поесть не может. Или случается биполярка, и человек просаживает все деньги на какой-то офигительно интересный проект, а потом остаётся ни с чем. Из здорового состояния того же самого человека эти действия выглядят неправильными. Ну или поведение наркомана. Когда человек не был наркоманом, он бы посчитал свои действия после появления зависимости как неправильные и не соответствующие целям.
    3) Сила воли. Допустим, вам заплатят миллион баксов, если вы задержите дыхание на 3 минуты. А вы, допустим, умеете только на полторы. За 3 минуты с вами ничего плохого не случится — ничего такого, что не стоило бы 1М$. Существует такая конфигурация неровных импульсов, которая привела бы к этому результату в 1 мегабакс, но мозг её не выдаст. Хотя он её прекрасно знает.
    4) Вы в детстве хотели одного, а сейчас хотите другого? В смысле, список и сила желаний не совпадает на 100% до 10-ого знака после запятой? Всё, вы не вполне оптимизатор, потому что тру-оптимизатор меняет верхнеуровневые цели лишь под угрозой расстрела, и то не факт. И незаметно изменить их тоже не выйдет — оптимизатор это заметит и сделает свою метрику максимально неуязвимой к влияниям.
    
    Конечно, можно придумать такую функцию полезности, согласно которой камень падает вниз потому, что он так хочет. А можно считать, что у человеческого разума есть физические ограничения, и он может быть оптимизатором лишь ограниченно.
    
    VDG
    25.01.2020 00:31
    #21187118
    Коленный рефлекс. Человека бьют по коленке, нога дёргается. Это не достижение ранее поставленных целей.
    
    Коленный рефлекс реализован на простой локальной схеме в спинном мозге.
    
    Kilorad
    25.01.2020 20:17
    #21188904
    Мозг из таких локальных схем весь состоит. Из сложной иерархической структуры простых локальных элементов. Но не суть. Есть много литературы по когнитивным искажениям, есть книги по силе воли, есть инфа по психическим расстройствам — это всё история о том, как мозг особенно сильно отклоняется от этой модели оптимизатора

MagneticFox
23.01.2020 10:57
#21178164
Про первичность. Помните, природу света объясняли отдельно волновой теорией и отдельно корпускулярной? Для одного автора была первичная именно волна, а для второго частицы (хотя про волны он естественно знал, но не считал такой взгляд полезным).

Может быть еда без насыщения и не представляет интереса, но что бы насытится — нужно поесть

На тумбочке лежит яблоко, но обязательно ли его есть? Нет, можно ничего не делать, дождаться пока придет медсестра и поставить капельницу с глюкозой.

Моя мысль заключалась именно в том, что яблоко само по себе бесполезно («выгоду», в вашей терминологии определить нельзя).

Можете применить эти слова к игроку, который нашел непонятный материал? Ведь какое действие он будет делать с этим материалом не понятно, может он нужен чтобы выполнить квест, который игрок уже выполнил другим способом. Ведь выгода уже есть (пусть и на основе старых данных из прошлого), а действия ещё нет. Если конечно не считать саму укладку материала в инвентарь действием.
1. Nehc Автор
  23.01.2020 11:46
  #21178464
  Я не вполне понимаю о чем спор. (
  
  Полезность/выгода — прекрасно, кто бы спорил. Но любые формы оценки привязаны к использованию, сиречь процессу. Нужно, что бы было, что оценивать. В вашем примере игрок может осознавать, что тот факт, что ему пока не известны процессы — не означает того, что процессов нет. И я не пытаюсь доказать, что процесс важнее чем выгода. Выгода — метрика процесса. В каких-то моделях возможно — основная, на которой базируется та или иная оценочная функция. В каких-то нет…
  1. MagneticFox
    23.01.2020 12:04
    #21178582
    О чем спор
    Я с вами не спорю. Я выражаю свои мысли, которые могут быть неверные (мне на них укажут), а могут оказаться полезными для читателя (в том числе и для вас). Никакого негатива, попытки кому-то что доказать и тому подобного нет. Простой обмен мыслями.
    
    Nehc Автор
    23.01.2020 12:26
    #21178738
    я еще пока не пишу ИИ… ;)
    
    Я пока хочу научится выделять действия (комрад Kilorad как-то сказал мне, что если мы научимся выделять возможные действия — будет прорыв! ;) ). С выгодой будем разбираться потом.
  1. Kilorad
    23.01.2020 12:21
    #21178702
    Насколько я понимаю, MagneticFox предлагает следующую формулу интеллекта (для ИИ):
    a = argmax( Q(a[],s) )
    где а — действие, которое мы сделаем,
    a[] — список всех возможных действий
    s — текущее состояние мира, как оно нам видится, с учётом всех предобработок, свёрток и памяти
    Q(a,s) — ожидаемая полезность действия a, как-то (есть разные варианты) рассчитанная по прошлой статистике.
    
    Кроме того, насколько я понял, ваша модель процессов — она… Что-то типа предобработчика, а не системы принятия решений. То есть в итоге будет всё та же формула a = argmax( Q(a[],s) ), но s будет построено с учётом процессного восприятия.
    Как-то так?
    
    Nehc Автор
    23.01.2020 12:27
    #21178742
    да вот мне бы a и a[] получить…
    
    MagneticFox
    23.01.2020 12:44
    #21178864
    В технической обвертке (формулировке) наверное так.
    
    Я бы даже вот так это представляю. Есть 2 потока. Первый поток выполняет argmax( Q(a[],s) ), причем делает это весьма добросовестно, вплоть до попарного рассмотрения элементов массива, чем один лучше другого.
    Второй поток бегает по памяти и ищет возможные варианты действий a. При этом он грубо оценивает полезность действия (может быть очень грубо). И если действие проходит фильтр динамически добавляя его в пул первого потока. Может быть не сразу, а помещая их в свой пул, и если ничего не найдено за некоторое время лучше этого, то передается запомненное действие.
    Для принятия решения дается минимальное время и максимальное. Если второй поток после истечения минимального времени не смог найти нового кандидата за какой-то период, то он останавливается.
    Аналогично, если первый поток после истечения времени за некий период не смог улучшить (некая метрика) приоритет, то останавливается и он. В итоге имеем решение.
    
    Kilorad
    23.01.2020 14:09
    #21179392
    В принципе, это может сработать.
    На данный момент у существующих ИИ обычно выходные действия — это либо несколько кнопок, одна из которых нажата (например, «стрелять», «вправо»), либо несколько рычагов, выставленных в определённые состояния типа float (руль повернуть на 5 градусов, а педаль газа зажать на 7 единиц).
    Это элементарные действия, их искать не нужно, их мало (с случае кнопок, по крайней мере).
    Но. Если мы обучаемся предсказывать профит от конкретного действия, то у нас выходит модель с относительно большой погрешностью. Поэтому часто имеет смысл задавать вопрос не «сколько будет профита за следующие 100 ходов, если я сейчас нажму на кнопку 1?», а «сколько будет профита за следующие 100 ходов, если я сейчас нажму на кнопку 1, затем 0, затем 2, затем… [длинная последовательность]?» И тут да, пространство перебора становится огромным, и нужны какие-то оптимизации, например, описанная вами

Kilorad
23.01.2020 11:54
#21178536
Насколько реально, учитывая текущие наработки по нейронным сетям сделать примерно следующее:

На входе, допустим, непрерывный видеосигнал, возможно стерео. Как вариант: с несколькими степенями свободы (возможность поворачивать камеру — произвольно, или по схеме). Впрочем, при необходимости видеосигнал может быть дополнен/заменен любыми другими способами пространственного восприятия — от сонара до лидара.

Строго говоря…

На выходе:

1) Карта глубин (если камера статична) или карта окр. пространства (динамическая камера/лидар, etc.);

Для чего
2) Выделение отдельных объектов (с учетом карты глубин/пространства, а не только/не столько видимых контуров);
3) Выделение движущихся объектов (скорость/ускорение, построение/предсказание траектории(?));
4) Иерархическая классификация объектов по любым извлекаемым признакам (формы/габаритов/цвета/нюансов движения/Составных частей(?)). Т.е. по сути извлечения метрик для Гилбертова пространства.

про иерахию

Важно: по возможности система не предобученная. Т.е. какие-то базовые вещи могут быть заложены (например — сверточная сеть первого слоя, для выделения контуров/геометрии), но выделять объекты и позднее распознавать их должна научится сама.

Ну и, наконец, построение развертки (на основе пп 1,4, т.е. пространственной карты с учетом метрик) во времени (пока, на этом этапе видимо непосредственно наблюдаемого периода), с целью провести анализ по пунктам 2-4, с дабы выявить: процессы/события (являющиеся по сути своей изменениями во времени п.3) и их кластерной классификации (п.4).

— похоже, как минимум часть этой конструкции надо будет предобучать. На данный момент есть средства для построения вектора по картинке, и из этого вектора можно другой нейросетью получить карту глубин. Потом, если мы можем строить карту глубин по картинке, то примерно теми же средствами мы можем строить карту движения и скоростей по видео. При этом объекты мы, скорее всего, сможем выделить. Это всё пока что одна предобученная нейросеть и одна самопальная.
Про иерархию… Тут сложнее. Похоже, мы можем разделить объект на детали по-разному, иерархий может быть много разных. Я сейчас затрудняюсь привести пример, который виден на картинке, но мы можем разделить человека на руки, ноги, голову и туловище, а можем на кожу, кровеносные сосуды, нервы, мышцы и кости. То, как мы проводим разбиение, сильно зависит от того, какую практическую задачу мы решаем.
Полагаю, можно нейросетью построить «3Д-сцену», которая будет ещё и динамической, но прогноз можно будет делать… Весьма ограниченный. Я могу составить план того, как ИИ по видео предсказывает, куда полетит мячик. Но план того, как ИИ по видео предсказывает, будет ли мячик рикошетить или пробивать препятствие, насколько упруго он будет рикошетить и как сильно опрокинется препятствие… Составить план могу, но сильно не факт, что получится. А это только базовая физика, поведение людей или даже простых механизмов ИИ будет предсказывать ещё хуже. Такой ИИ, как я описал, на двух-трёх нейросетях, одна из которых свёрточная и предобученная.
1. Nehc Автор
  23.01.2020 12:21
  #21178706
  Я вас ждал… )
  
  >>> Похоже, мы можем разделить объект на детали по-разному,
  
  Да. Пока на этот счет есть только следующее соображение: скорее всего определение метрик находится в неотрывной связи с выделением и классификацией процессов.
  
  Чтоб понятно о чем речь: есть камера. смотрит на улицу. Умеет детектировать неподвижные и подвижные объекты. Собственно само по себе движение — процесс, которая она должна выделить. Сможет ли она выделить некую метрику/набор метрик, позволяющую в будущем предсказывать возможность движения? например столб/урна/остановка — неподвижны. Машина/автобус/велосипед — встречались в движении. Может у нас в результате какой либо обработки сама собой выработаться концепция «транспортного средства»? Отличительным признаком которого являются колеса, например? ;) Если в кадре будет несколько категорий объектов (не только транспорт, но и люди/звери/птицы) — есть ли какой-то способ не только объединить их в одну категорию движущихся объектов, но и как-то разделить их? Например, если удастся выделить иные процессы/взаимодействия, где эти объекты ведут себя по-разному (например маленькие и средние движущиеся объекты могут поглощаться/выделяться большими движущимися объектами, после чего те могут перестать двигаться/начать движение...). Т.е. возникновение дополнительных метрик результат необходимости объединить/разделить объекты в/на группы с разным/одинаковым поведением? Ну это если предположить, что нам как-то удастся выделять процессы как минимум с не меньшей эффективностью, чем объекты.
  
  >>>похоже, как минимум часть этой конструкции надо будет предобучать
  
  меня это абсолютно не пугает! ) для реализации чисто технических аспектов работы системы, либо для реализации какой-то самой базовой общей логики — предобученные сети самое то. Главное, чего хотелось бы избежать — обучения выделять конкретные объекты/признаки (процессы(?))
  1. Kilorad
    23.01.2020 12:46
    #21178884
    Есть один более-менее универсальный способ разбиения на… Хотелось бы сказать, что на детали, но нет. Выделение значимых частей видеоряда. Которые могут быть процессами, объектами или чем-то ещё.
    Надо поставить задачу: по видеоряду предсказывать следующие кадры. По 100 кадрам угадывать 200-ый, например. Или со 101го по 200й. При этом внутреннее состояние прогнозной системы (циферки в скрытом слое RNN, например) будет чем-то, по чему можно предугадывать картинку. Как в случае с автоэнкодером.
    Я недавно общался на эту тему с DesertFlow, он говорит, что лучшая архитектура под эту задачу — это Transformer для обработки текстов, но она сложная, поэтому идею лучше проверять чем-то более легковесным.
    Готовых предобученных решений на эту тему пока нет, лишь архитектура сетки.
    
    Можно предсказывать не саму картинку, а её эмбеддинг от свёрточной сети =) Суть мало изменится.
    
    Потом, можно предсказывать по видеоряду некую одномерную метрику. Например, число аварий или заработок какого-нибудь таксопарка за следующий час. Тогда выделятся какие-то более узкоспециализированные фичи, например, людей эта нейронка будет хуже различать, зато будет отлично различать надпись «яндекс» на машинах. То есть по эмбеддингу от этой нейронки мы сможет лучше понимать те вещи, которые связаны с метрикой, и хуже — все остальные.
    Но кажется, разумнее всего начинать с чего-то типа автоэнкодера, как я выше написал.
    
    Nehc Автор
    23.01.2020 12:49
    #21178908
    >>>Я недавно общался на эту тему с DesertFlow
    
    Его я тоже жду! )
1. Nehc Автор
  23.01.2020 17:52
  #21180812
  Очень важный для меня вопрос: могу ли я сделать весьма сильное допущение, что на основании камеры (возможно стерео, возможно с лидаром), усиленной саккадами, с учетом паралакса/перспективы, сегментации, градиентов и тд и тп — получить на выходе вместо видео что-то подобное 3D сцене с анимацией? Если в каком-то приближении ответ «да» (пусть и с неизбежной потерей части информации), то дальше задача сводится к анализу этой сцены, где объекты выделены и взаимодействуют.
  1. Nehc Автор
    23.01.2020 18:33
    #21181030
    Впрочем, я наверное все-таки зря акцентировал именно на 3D. ;) Я как бы преследую две основных цели. Первую можно сформулировать так: если на текущем этапе развития технологии или в ближайшем будущем можно перевести машинное восприятие фактически в симуляцию, то можно сразу продолжить эксперименты в симуляции (не расходуя ресурсы на детальную проработку именно восприятия мира, либо отложив оную, либо условно отдав на откуп другим), причем близкой по форме к модели с прямым, а не сенсорным восприятием, т.е. такой модели, когда вся информация о положении, форме, движении и взаимодействии объектов (а так же собственно полный перечень этих объектов) известны на любой момент времени.
    Вторая цель — это собственно все то же самое, но без симуляции, как таковой. Т.е. детектирование объектов их положения/движения/взаимодействия для последующей кластеризации и перехода на уровень процессов. Я не вполне понимаю, возможно ли все это без перехода в 3Д…
    
    Kilorad
    24.01.2020 10:46
    #21183402
    Мои исходные данные.
    1) По картинке можно построить карту глубин
    2) На ИИ-мобилях всё ещё есть лидары
    3) Ещё кое-какие детали по ИИ-мобилям.
    Вывод. Карта глубин даст довольно грубую 3Д-сцену. С плохим разрешением. Но да, можно. Сцена будет динамическая, то есть каждый кадр немного другая, и её можно будет прогнозировать. Насколько на этой сцене будут идентифицироваться объекты — это вопрос.
    Есть такой противорадарный манёвр — ножницы. 2 самолёта пролетают по траектории, похожей на парную спираль ДНК. И радар больше не может различить, где какой — он просто видит 2 самолёта, но не знает, какой из них 1-й, а какой 2-й (при том, что изначально он их разметил). Как на 3Д-сцене будет реализовано различие между «самолёт-1» и «самолёт-2» — я пока не знаю. Если сцена будет явной, то это можно, но если у нас будет эмбеддинг, из которого сцену можно получить, но лишь при наличии датасета… Тогда хз. Но что-то типа воксельной карты сцены сделать можно.
    
    Kilorad
    24.01.2020 13:30
    #21184318
    Кстати. Я предлагаю такой тест. Проводить его, скорее всего, буду я, но всё же.
    Вот список тестовых сред для ИИ:
    github.com/openai/gym/wiki/Table-of-environments
    Есть тестовые среды вот такого типа: Seaquest-ram-v0
    То есть это игра, которая передаёт в ИИ в качестве сенсорного входа дамп своей оперативки.
    Так вот. По идее — я не проверял, но полагаю, что это так — по оперативке можно вручную составить правила для выделения объектов. А дальше аугментировать этот сенсорный вход — докинуть туда события вида «какие-то два объекта столкнулись», «объект такого-то класса уничтожен», «объект такого-то класса появился», «нас ранили» и так далее. Всё, что придумаем, причём правила составляем вручную и для одной конкретной игры.
    А дальше мы проверяем, насколько по этим событиям можно предсказать, что скоро будет reward. Моя гипотеза: события вида «в меня попали», «объект такого-то типа уничтожен», «объект такого-то типа породил объект такого-то типа», «объект такого-то типа летит в объект такого-то типа» очень хорошо предсказывают награды.
    
    Ещё есть соображение, что в большинстве этих тестовых сред будет полезен (но это не значит, что я знаю, как его ввести) такое когнитивное смещение:
    1) Есть 2Д или 3Д объекты, которые бОльшую часть времени медленно движутся. Их мгновенная скорость — максимум десятки пикселей за такт, скорости меняются либо мгновенно, либо на единицы пикселей на такт в квадрате.
    2) Некоторые кнопки приводят к изменению или появлению скорости у некоторых объектов. Или к повороту.
    3) Некоторые кнопки приводят к появлению новых объектов.
    4) Когда два объекта сталкиваются, часто один из них уничтожается. Или оба.
    5) И когда это происходит, это служит хорошим предиктором нашей метрики качества
    6) Есть объект «я». Когда мы жмём на кнопки, обычно движется/поворачивается именно этот объект. Либо все, кроме него. Либо что-то создаётся вблизи этого объекта. А если этот объект с чем-то соприкасается, то такое событие является очень сильным предиктором изменения метрики качества.
    
    Я пока не знаю, как внести такое смещение, но кажется, оно будет хорошо работать в очень многих тестовых мирах — если такие гипотезы будут рассматриваться как априорно очень вероятные, то ИИ вроде бы должен быстрее обучаться.
    И ещё такие смещения требуют понимания скорости. А значит, даже если игра с полной информацией и память вроде бы не нужна… Всё равно придётся её делать, иначе не составить события «объект уничтожен», «объект движется», «объект — мой аватар в игре»
    
    Nehc Автор
    24.01.2020 15:53
    #21185194
    Надо немного не так… нужно запустить сотни игр человека или как-то обученной сетки, что бы наша потенциальная сетка могла в каждой из этих игр выделить события/процессы (желательно сама), их корреляцию вдоль (причинно-следственная связь) и поперек (одновременность=связанность?) оси времени. И кормить сеть играми до тех пор, пока она не научится предсказывать развитие событий. А когда научится — можно попробовать задать ей цель в виде целевого состояния/состояний, при это проложив между ней и игрой блок управления, который будет воспринимать предсказания сети относительно управляемых сущностей, как руководство к действию. При этом мотивация/награда и в процессе обучения и в последствии — соответствие предсказания реальному раскладу.
    
    Kilorad
    24.01.2020 16:18
    #21185346
    кормить сеть играми до тех пор, пока она не научится предсказывать развитие событий.
    — я бы хотел так сделать. Со временем. Пока что это… Требует от меня освоения трёх технологий, которыми я пока не вполне владею. Картинка с экрана -> свёрточная нейронка, содранная из инета -> вектор признаков (не человекочитаемых каких, но информативных) -> RNN (можно и лучше, но это потом) для прогноза будущих векторов признаков, её надо обучать самим -> вектор признаков уже от RNN, тоже непонятный, но содержащий полезную информацию о прошлых состояниях -> какая-нибудь форма RL: или QL (в таком случае мы на прошлом размечаем желательные состояния сигналами награды и обучаем нейронку на всей истории), или Model-Based, или Goal-Oriented.
    Моя гипотеза: очень многие миры-задачи похожи, если смотреть на них глазами в динамике. Везде 2-3 измерения, везде объекты, везде околоньютоновская механика. А потому RNN можно обучать на множестве разных игр. Или на реальных видео. Обучать — в смысле обучать предсказывать следующие кадры, но потом использовать не сам прогноз, а эмбеддинг.
    Если моя гипотеза верна, то у нас со временем получится RNN, умеющая делать описание динамического мира — такое, что оно работает для очень многих миров, и что оно хорошо пригодно как входные state для RL.
    
    цель в виде целевого состояния/состояний, при это проложив между ней и игрой блок управления, который будет воспринимать предсказания сети относительно управляемых сущностей, как руководство к действию.
    — я экспериментировал с таким подходом… Сложно. Он у меня пока что показывает результаты хуже, чем более обычные способы RL. Над ним надо ещё серьёзно думать.
    
    При этом мотивация/награда и в процессе обучения и в последствии — соответствие предсказания реальному раскладу.
    
    — насколько я понял, здесь под словом «предсказание» подразумевается «целевое состояние» (предсказание: мы сейчас поранимся. Желание: уцелеть. Реальность: мы поранились. Прогноз=факт!=цель. Подкреплять?). По-моему, для Goal-oriented систем награда необязательна. Если у них есть «контакты», через которое можно подавать описание цели, и можно постоянно сравнивать реальность с этим описанием, то goal сам разберётся. Он будет просто отвечать на вопрос «что такого мы раньше делали перед тем, как результат был такой-то»?
    
    Nehc Автор
    24.01.2020 16:37
    #21185462
    >>>— насколько я понял, здесь под словом «предсказание» подразумевается «целевое состояние» (предсказание: мы сейчас поранимся. Желание: уцелеть. Реальность: мы поранились. Прогноз=факт!=цель. Подкреплять?).
    
    Предсказание = происходящие помимо нашей воли события+наши действия. Ну или можно иначе — из всех возможных предсказаний, включающих помимо прочего наши действия мы выбираем те, которые больше всего похожи на поставленную цель. Мы не выбираем невозможных вариантов. Мы понижаем значимость неконтролируемых нами факторов, если их вероятность мала или неизвестна (т.е. они не следуют напрямую из расклада, а могут произойти могут нет), но повышаем значимость наших действий, потому, что знаем — если они есть в прогнозе, то контроллер их выполнит. И дальше строим РЕАЛИСТИЧНЫЙ прогноз. И вот если он не попал в факт — это реально проблема самой прогнозной системы и ее надо ребалансировать. Но… Если наилучший прогноз всегда сбывался, а цели мы не достигли — это ведь может значить просто недостижимую цель, так ведь? И вот тут мне нужно подумать. Тут по всей видимости реально гибрид обычного алгоритма обучения с учителем и RL. И когда что балансировать — пока не знаю. Нужно понять разницу между неверной оценкой ситуации и неверной стратегией.
    
    Kilorad
    24.01.2020 17:00
    #21185574
    Кажется, пришло время рассказать про то, что я называю проблемой свободы воли у ИИ хД
    Когда мы делаем прогноз на более чем один такт вперёд, мы в прогнозе учитываем, какие у нас будут действия на следующих тактах. Обычно — неявно.
    Например, ИИ стоит на краю обрыва. Как он оценивает свои шансы упасть? Это зависит от его действий. Если в прошлом он действовал хаотично, то совершенно неважно, каков его алгоритм сейчас. При прогнозе он будет неявно полагать, что будет действовать так же хаотично. Неважно, что сейчас он ни за что не пойдёт к обрыву — у него статистика такая: «я у обрыва» -> «шанс навернуться 50 на 50». А если он раньше действовал идеально точно и почти не падал, он будет считать шансы упасть низкими.
    Это если делать прогноз наивно. Есть всякие разные способы сделать прогноз так, чтобы в нём предполагалось, что ИИ будет действовать оптимально, или каким-то определённым заданным способом.
    Будущее зависит от решений агента. А решения агента зависят от его прогноза будущего. А прогноз будущего зависит от прогноза решений, которые в свою очередь будут приняты на основании прогноза будущего, который зависит от решений, которые зависят от прогноза будущего. Чтобы честно это отмоделировать, ИИ должен уметь предсказывать сам себя, то есть либо быть неточным, либо быть сложнее самого себя. Либо придерживаться какой-то стратегии, в которой он достаточно хорошо понимает свои будущие действия, потому что придерживается достаточно простой стратегии, и при этом стратегия достаточно хороша, что он не станет её менять.
    R=F(S,P), где P — это стратегия, а она каждый шаг переобсчитывается на базе новых данных, и у ИИ будут проблемы с её прогнозом.
    Так вот. Это я рассказал, почему у нас проблемы с тем, чтобы сделать ИИ вида a=argmax(Q(a[],s)).
    Если же мы решаем задачу a=a(s,s_targ), то проблема всё так же существует, ИИ неявно полагает, что его стратегия такая же, как была на истории.
    Потому если ИИ нужно достичь некоей цели, а он её никогда раньше не достигал, хотя физически мог, то ответ на вопрос a=a(s,s_targ) будет… Неизвестно, каким. Реалистичный прогноз на базе статистики будет таким: я этой цели не достигну. Потому что не достигал раньше. Прогноз идеально сбылся, но цель не достигнута.
    SARSA точно так же облажался бы. А вот QL и Model-Based имели бы нехилые шансы справиться. Потому что MB явно просчитывает свои шаги наперёд, а QL исходит из предположения, что в будущем он будет действовать оптимально (это довольно сложная концепция, она описывается уравнением Белмана).
    Почему goal-oriented подход действует при решении задач по физике, не в RL, я пока не знаю. Неочевидно. Казалось бы, постановка задачи аналогична.
    
    Nehc Автор
    24.01.2020 17:13
    #21185630
    Не очень понимаю почему так. Почему, если «ИИ никогда этого не делал — честный прогноз: не сделает и в этот раз»? В моем представлении ИИ должен определять себя (ту часть себя, которая действует), как часть системы и прогноз должен строится не на базе достигаемых ранее целей, а на базе возможных действий и заданных целей! Т.е. прогноз не должен быть чем-то, что ИИ раньше обязательно уже видел! Или, если хотите — он это мог видеть при моделировании, т.е. не в реальном мире, а воображаемом. В моем видении честный прогноз, значит не натягивание сову на глобус, т.е. избегании невозможных ситуаций, но не обязательно «повторение пройденого» или воспроизведение удачной стратегии. НЕ — в каждый конкретный момент времени ИИ должен моделировать что-то виденное ранее, но с поправкой на кластеризацию — если он видел, как это делал кто-то другой, а так же с чем-то другим, но имеющим нужные метрики процесса — он может это использовать при моделировании/достраивании… Взять хотя-бы ту штуку, которая дописывает текст — она же не повторяет что-то ранее виденное! Она подбирает то, что логично дополняло бы уже имеющееся…
    
    Kilorad
    24.01.2020 17:45
    #21185802
    В моем представлении ИИ должен определять себя (ту часть себя, которая действует), как часть системы и прогноз должен строится не на базе достигаемых ранее целей, а на базе возможных действий и заданных целей! Т.е. прогноз не должен быть чем-то, что ИИ раньше обязательно уже видел!
    — нейросетка (или дерево) работает как апроксиматор. То есть в вырожденном случае её можно представить себе как функцию, заданную таблично. Поэтому приведу простенькую sar-таблицу, демонстрирующую эту идею.
    Пусть у нас есть 4 разных s (1,2,3,4) и два разных a(0,1). Таблица переходов полностью детерминирована, рандома нет. Таблица такая:
    s=1->s=2,r=0 при a=0
    s=1->s=3,r=0 при a=1
    s=2->s=1,r=0 при a=0
    s=2->s=1,r=0 при a=1
    s=3->s=4,r=10 при a=0
    s=3->s=4,r=-1000 при a=1
    s=4->s=1,r=0 при a=0 или 1
    А теперь таблица опыта:
    SAR
    100
    200
    110
    31(-1000)
    410
    110
    30(10)
    410
    1
    И на этом месте ИИ думает, что ему делать. Допустим, у него горизонт планирования — 2 такта, и у него простой алгоритм прогноза профита. И нет дисконтирования. То есть он каждой паре sa ставит в соответствие Q — это суммарный профит за следующие 2 хода.
    Итак, наша таблица. После R запишем Q:
    SAR_______Q
    100_______0
    200_______0
    110____(-1000)
    31(-1000)(-1000)
    410_______0
    110______(10)
    30(10)___(10)
    410_______0
    1
    И вот мы стоим в s=1. Думаем, что делать. Вообще, в таблице есть путь, дающий 10 награды. Но…
    У нас ИИ, делающий простой прогноз, без учёта априорных знаний о стратегиях. И он спрашивает себя: что будет, если я сделаю a=1?
    И он получает ответ: «Смотри, у нас в таблице есть в строки:
    110______(10)
    и
    110____(-1000)
    Значит, в среднем там -495 награды. Не иди ты туда!»
    Да, есть способы борьбы с этим, но они выходят за рамки «просто сделать прогноз». В вашем случае ситуация отличается, но… Я сейчас просто демонстрировал концепцию: в прогнозе будущего важен прогноз своего поведения, а по умолчанию этот прогноз некорректен
    
    Nehc Автор
    24.01.2020 19:11
    #21186232
    У меня ограничен скорее не горизонт планирования, а количество вариантов! Потому, что мы танцуем от цели. Контрамоция, вот это вот все… в вашем примере система должна сначала найти точки с большой наградой, потом выстроить(найти) к ним переход, а не считать просто среднее улучшение в каждой точке.
    Конечно при условии, что выбор между s3 и s4 из s2 определяется не вероятностью, действиями самой системы. Еще можно на это смотреть чуть иначе: что a=0 можно внести с коэффициентом близким к 100%, а=1 к нулю, потому, что а=1 на s2 абсолютно точно имеет огромный штраф.
    
    В такой системе как раз наоборот: сильно снижена вариативность на каждом ходу (потому, что к цели мы идем кратчайшим путем, а не путем последовательного просчета всех вариантов в поиске лучшего… это вот то, о чем мы говорили с DesertFlow в первой части: у нас нет огромного числа вариантов — у нас скорее один, но просчитанный между сейчас и целью. Возможно далеко не лучший, но… мое глубокое убеждение, что так оно у нас в голове и работает! ;) Ну сами посудите: разве человек реально просчитывает варианты? Вернее он их просчитывает, но только потому, что ищет тот самый единственный: первый попавшийся! И только дополнительные ограничения заставляют считать другие. Но, учитывая проблему выбора из 100500 вариантов, я считаю, что это не баг — это фича!

buriy
23.01.2020 15:01
#21179694
Мне кажется, проблема в другом.
Сейчас реально сделать всё, для чего есть достаточно большой датасет.
Логика, пространственная ориентация, «модель сцены» (моделирование субъектов и объектов по текстовому описанию), временное мышление, любые другие виды мышления…
Например, 6 лет назад сделали bAbI ( research.fb.com/downloads/babi ) — большинство задач компьютер легко решил ещё 4 года назад.
А вот подходы без датасета, с «unsupervised learning» — пока что не работают. Не хватает железа и signal supervision, наверное: на чемпионские программы для игр Go, Starcraft и Dota ушли сотни миллионов долларов, в основном на железо. А ведь там была однозначная «реакция окружения», хоть и не сразу, в виде сигнала «победа/поражение», но была, и игра была максимум 300 ходов / 20 минут.
Если теперь мы будем учиться в человеческом мире, то обратной связи будет столько же или ещё меньше, и она будет плохого качества… Мы не будем готовы мариновать компьютер в таком 20 лет (если даже не 200 лет), обучая его… Точнее, мы предпочтём более быстрое и качественное модульное обучение, то есть, датасеты на каждую подзадачу.
У вас есть датасеты для ваших задач?
1. Kilorad
  23.01.2020 15:36
  #21179902
  При решении задачи reinforcement learning (то есть как раз задачи оптимального управления) используются не датасеты, а environmets. Это виртуальные миры для обучения и тестирования ИИ. Да, они есть:
  github.com/openai/gym/wiki/Table-of-environments
  Обучение в таких условиях и правда отличается от обычного обучения с учителем. И тут дело даже не в мощности компов. Многие алгоритмы RL неэффективны по опыту — то есть они для обучения требуют избыточно много примеров. Тут не в процессоре дело (хотя он бы помог), а в аугментации данных или алгоритмах обучения. Другие алгоритмы по опыту эффективны, но требуют какого-то безумного просчёта ходов в глубину — тут тоже грубой силой можно было бы решить проблему, но кажется, есть и иные варианты, животные же явно не просчитывают реальность на минуты вперёд во всей её детальности.
  Есть много соображений, что не так с ИИ… habr.com/ru/post/437020
  
  От модулей, видимо, никуда мы не денемся. Кажется, без предобученной сверточной сети анализ видео проводить… Непросто
  1. buriy
    24.01.2020 07:41
    #21182858
    >Многие алгоритмы RL неэффективны по опыту — то есть они для обучения требуют избыточно много примеров.
    Так я и объясняю почему — потому что:
    у сегментации на одну картинку порядка 10Кб обратной связи,
    у классификации на 1000 классов — 100 байт,
    у детекции — 10-100 байт (10 если считать через координаты, и 100 если считать задачу как вид сегментации),
    а у RL — зачастую 1 бит на много картинок.
    А выучить надо миллионы нейронов с маленьким learning rate.
    Отсюда и требовательность к ресурсам.
    Отсюда и появляются более эффективные решения с использованием вспомогательных loss-ов и использование strong supervision для обучения каких-то подмоделей по этим лоссам: то пакмана пройдут через модели всех игровых объектов, то используют примеры с youtube в качестве supervision, то используют предсказание будущего, любопытство или избегание опасности в качестве таких дополнительных лоссов…
    Но, в общем, тогда, при правильных настройках этих лоссов (у человека — вероятно, комбинация из разных способов: генетически, через механизмы эмоций и взаимные autoencoder-ы между разными частями мозга)… всё ещё остаётся одна проблема: DL по прежнему в 100-1000 раз менее эффективен, чем человек, в отношении количества предъявляемых примеров для того же уровня обучения. Но уже хотя бы не в миллион и не в миллиард раз…
1. Nehc Автор
  23.01.2020 22:16
  #21182000
  Датасет нужен, когда мы хотим научить сеть опознавать образцы.
  
  Я же хочу заставить сеть извлекать эти самые образцы из данных. Я уверен, что это возможно.
  
  Существующие решения Задач сегментации изображения по фону/градиенту/контурам усиленная смещением камеры (в результате паралакса появляется глубина, а синхронно смещающиеся сегменты могут быть объединены в один объект) должны работать.
  
  Имея коллекцию объектов-гипотез я могу провести кластеризацию и попытаться группировать их и выводить нужные метрики не только по критериям сходности чисто геометрических и цветовых, но и по их вовлеченности в те или иные процессы, выделять которые я хочу теми же примерно средствами, что и объекты на предыдущем шаге.
  
  Это не совсем unsupervised learning. Обучение предполагает наличие образца/цели, а тут это скорее именно задача сегментации/классификации/кластеризации… Т.е. выявления неких данных вообще, без каких либо «вводных» с нашей стороны.
  
  Теория в том, что выявленные таким образом паттерны система будет способна предсказывать, а в случае когда задана какая-то цель в будущем — достраивать переход между тем что есть и тем, что должно быть.
  
  >>> У вас есть датасеты для ваших задач?
  побочным продуктом такого рода деятельности как раз могут стать размеченные датасеты. ;)
  1. buriy
    24.01.2020 07:18
    #21182834
    +1
    ок, выделили объекты, кластеризовали.
    допустим, кластеризация уверенно относит рыжую курицу, ржавый металл и перезревший ананас к одному типу объекта… что дальше будете делать?
    аналогично с процессами: поливка цветов, наливание чая и спортивное упражнение похожи — везде вытягивание руки вперёд. что дальше?
    
    Nehc Автор
    24.01.2020 09:11
    #21183038
    Зависит от того, как проводилась кластеризация. В моей концепции хочется добиться объединения объектов в разные кластеры по метрике процессов. В вашем случае это значило бы, что по опыту данной сети ананас и курица имеют одно практическое применение: их либо ели, либо покупали, либо, не знаю, кидали в кого-то! Во всех этих случаях метрика сформирована правильно и сеть сможет предсказать подобные процессы в будущем.
    
    Я понимаю, о чем вы. Ошибки обучения. Необученная сеть строит гипотезы, зачастую весьма рандомно, и задача размеченной выборки эти гипотезы подтвердить или опровергнуть. Но это актуально как раз для обычного обучения — когда сеть можно недоучить, можно переучить и процесс обучения и процесс использования никак не связаны.
    
    В данном случае выделение процессов служит основой гипотез о важных метриках объектов, а последующая проверка предсказаний процессов служит валидацией и того и другого, следите за руками:
    
    Сеть выделила среди прочего курицу и ананас
    
    Сеть выделила два процесса (процесс — суть некое изменение во времени. В простейшем случае — движение, более сложные варианты требуют проработки) каждый из которых связан с одним из этих объектов
    
    Сеть делает предположение, что это один и тот же процесс (на основании того, например, что траектория движения на определенном интервале времени была близка)
    
    Для этих двух объектов фиксируется общая метрика. По сути мы имеем новый класс объектов, при определенных условиях ведущих себя схожим образом.
    
    В определенных условиях сеть моделирует этот процесс (достраивает в процессе предсказания следующих, или промежуточных «кадров»)
    
    Сеть получает данные о фактически произошедших процессах и сопоставляет их с моделируемыми. Если данные совпали в каких-то пределах — значимость метрики растет. Если нет — снижается. Причем, вероятно не у всего класса, а у конкретного объекта.
    
    Таким образом, предположительно. В итоге сеть создаст кластеризацию объектов по поведению/применимости. Что в моем понимании — единственно значимая кластеризация! ))
    
    На самом деле тут до хрена подводных камней… Например, сеть должна не только создавать метрику, но и разделять/сворачивать объекты по следующему принципу:
    
    Если у двух объектов метрики равны — это один объект. Т.е. если курицу и ананас мы смогли выделить только в одном процессе, например поедания и никаких других кейсов для каждого из них нет — то это для сети одно и то же: Еда. Как сеть натасканная просто на распознавание людей не делит их по полу/возрасту/расе и тп. Это нужно для снижения размерности.
    
    Если у одного объекта (с учетом написанного ранее) выявляются выбросы из предсказанного поведения (хотя в основном предсказания оправдываются), то нужно искать возможность разделения объектов и именно по их чисто внешним факторам. т.е. если еда вдруг способна на самостоятельное движение (но не вся!), то можно сделать новое предположение, что некоторая еда, а именно с перьями и клювом — может таки бегать… Как-то так.
    
    Это обычная детская загадка на что общее/чем отличается, но она крайне важна…
    
    Ну и ваш вопрос про поливку цветов/наливание чая хорош в том плане, что когда предсказанный процесс не проходит валидацию не вполне понятно что именно не правильно — кластеризация объектов или процессов? Т.к. это у нас две разные сети и объектная как бы свертка для процессной — принцип «корректировки весов» не очевиден. Но думаю на практике можно пробовать…
    
    Kilorad
    24.01.2020 14:16
    #21184630
    В принципе можно к этой кластеризации относиться не как к чему-то окончательно заданному, а как к предобработке данных. В ней будут ошибки, которые потом скомпенсирует обычный RL, который эти ошибки получил на вход. Мы же умеем работать с шумными данными.
    Но всё равно, кажется, что кластеризацию нужно проводить как-то так, чтобы это было связано с действиями и наградами. Алгоритм должен быть адаптивным. Если посмотреть, что у нас уже есть по кластеризации… Я пока не вижу, как сделать адаптивность. Разве что проводить кластеризацию 100500 раз с разным random seed и разными настройками, а затем обучать нейронку предсказывать reward. Где прогноз точнее — то разбиение на кластера и оставим, хотя бы временно
    
    Nehc Автор
    24.01.2020 16:02
    #21185266
    Ну я там выше написал… Мое глубокое убеждение, что награда/штраф только на основании одной метрики — соответствие предсказанию. Если соответствует — молодец, если нет — штраф (понять бы еще к чему). Тогда в ситуации заданного будущего, модель вынуждена строить предсказание в направлении победы, и получать штрафы, за нереалистичные предсказания. До тех пор пока они не станут реалистичными с поправкой на победу.
    
    Единственное — все равно нужен период предобучения для понимания возможных процессов, причем что важно: не выигрышных, а вообще! Понимаете? система должна иметь достаточную «библиотеку» элементов, из которых можно строить переход из одного состояния в другое с любыми накладываемыми ограничениями… Я только пока не знаю, как сделать ограничения не жесткими, а рамочными — типа чтоб стремится к максимум жизней, максимуму убитых врагов, но не считать игру полностью провальной при недостижении абсолютной цели… Но думаю, это должно быть решаемо. Так же как возможность не задавать состояние полностью, а только в важных аспектах. Т.е. голубая мечта вполне может быть размыта и недостижима, но это не должно мешать к ней стремиться! ;)
    
    Kilorad
    24.01.2020 16:32
    #21185436
    система должна иметь достаточную «библиотеку» элементов, из которых можно строить переход из одного состояния в другое с любыми накладываемыми ограничениями
    — даже если мы будет учиться в режиме обычного РЛ, мы эту библиотеку получим. Но быстрее и качественнее мы её получим автоэнкодером, как я описал выше. Ну, это мои соображения, я не уверен, что это сработает.
    
    Я только пока не знаю, как сделать ограничения не жесткими, а рамочными — типа чтоб стремится к максимум жизней, максимуму убитых врагов, но не считать игру полностью провальной при недостижении абсолютной цели…
    — тут нужно отталкиваться от метрик. Обычно используются одномерные метрики, типа количества очков.
    Допустим, мы хотим пройти уровень Doom и открыть максимум секреток. А у нас есть QL (но очень умный).
    Мы ему размечаем: на прошлом на всех играх он получал reward в конце уровня, и reward равен числу открытых секреток. Мы эти reward просто вписываем в таблицу задним числом, а потом обучаем нейросеть Q-функции.
    А потом мы хотим пройти его так, чтобы победить максимум врагов. Мы зануляем столбец наград и переразмечаем заново и переучиваем нейронку.
    Если отталкиваться не от наград, а он целевого состояния, то мы добавляем к сенсорному вектору что-то типа «процент секреток, процент убитых монстров, пройден ли уровень». Мы размечаем эту величину на прошлом. А потом делаем прогноз: состояние = текущее состояние, результат = (100% секреток, уровень пройден=1), действие =? Кажется, можно так. Соответственно, если на прошлом мы собирали только 80% секреток, не больше, то нейросеть предложит примерно те действия. В теории. С goal у меня пока не очень пошло — идея рабочая, но пока менее мощная, чем другие идеи по RL
    
    Nehc Автор
    24.01.2020 16:52
    #21185534
    >>> Но быстрее и качественнее мы её получим автоэнкодером, как я описал выше.
    Я с этим уже практически согласен. ;) Согласится целиком и полностью мне пока мешает то, что я плаваю в теме (два из 4 минусов за статью — за слабый технический уровень и это, к сожалению, справедливо). Т.е. я уже совсем согласен с необходимостью предсказания (рассматриваю ваш экодер, как то самое что-то, что будет достраивать недостающие фреймы!), но пока не понимаю, как он будет «извлекать процессы», хотя вы объяснили, что это будет «что-то в скрытых слоях».
    
    >>> тут нужно отталкиваться от метрик. Обычно используются одномерные метрики, типа количества очков.
    
    Кажется начинаю понимать! Опять же пытаюсь уложить в голове… Да, скорее всего это так. Мы не задаем будущее в виде конкретного фрейма. Мы скорее размечаем все процессы (состояния?) метриками, как до этого объекты и именно эти метрики максимизируем/миниммизируем! Понимаю теперь о чем говорил MagneticFox! )) Респект ему. Хотя все равно — выгода это метрика процессов/состояний, но понимаю, почему он на это давил…
    
    Я немного боюсь, что сейчас упущу что-то важное, что мне казалось я понимал… (
    
    Kilorad
    24.01.2020 17:24
    #21185692
    >>> Но быстрее и качественнее мы её получим автоэнкодером, как я описал выше.
    Я с этим уже практически согласен. ;) Согласится целиком и полностью мне пока мешает то, что я плаваю в теме
    — я их сам толком не пробовал, да и об эмбеддингах от последовательностей не слышал, так что и сам настроен скептично. Но ничего лучше в голову не пришло.
    
    buriy
    24.01.2020 17:35
    #21185750
    Как сделать адаптивный алгоритм кластеризации:
    Объектам (в виде векторов фич) приписываются дополнительные фичи, получаемые в качестве обратной связи (информация о предполагаемых классах, свойствах, итп), и производится кластеризация заново на конкатенированных векторах.
    
    buriy
    24.01.2020 17:46
    #21185810
    Ну, в целом, как-то оно работать будет. Стол не кластеризуется с детским столом (за детским столом сидят дети, а за взрослым — взрослые, очевидно, что это разные классы!, и кстати, Рэмбо с его раскраской лица — очевидно ребёнок, ведь это дети ляпают краски на лица), разные молотки будут принадлежать к разным классам (ими делают разные работы же), наличие джойстика, цвет клавиатуры, мониторы разного размера и формы будут отличать типы компьютеров между собой… и так далее, миллион различий классов при кластеризации. А может — наоборот, алгоритм не будет видеть разницы между частью телевизоров и частью компьютеров, между ананасами, дурианами и сидящими на месте курицами, между бегающими курицами и некоторыми медведями (кластеризующий признак — двигающаяся шерсть)… И, кстати, ошибки определения границы объекта тоже могут образовывать классы виртуальных объектов или быть добавленными в какие-то классы.
    В общем, границы классов вас зачастую будут удивлять, их нормально при кластеризации не настроить.
    Но на таких фичах (свойствах объектов) и на таком разбиении вполне можно строить эмбеддинг (векторное пространство), и задавать вопросы о близости разных молотков друг к другу, а так же, о близости куриц и ананасов. А потом словарём назначать классы каким-то объектам и каким-то кластерам… Ах да, тут тоже датасет нужен, но тут уже проще, можно выдачи ютьюба брать… ах да, есть же даже готовый youtube 8m video understanding challenge! берите и участвуйте.

VDG
25.01.2020 03:05
#21187300
У Вас процессы существуют независимо от субъекта, созерцающего их. Но в комментариях, я вижу, Вы обсуждаете действия агента (RL). Человек («и все все все») познаёт мир через взаимодействия с ним.

Если процессы заменить на действия, то отпадёт вопрос: почему ананас и курица оказались в одном классе. И то и другое было съедено. В контексте этого действия эти объекты одно и тоже — не различаются. В контекстах других действий они могут/будут различаться.

Тогда объект определяется набором действий, которые можно к нему применить.
Например, кулёк и лопух — это одно и тоже в определённом контексте — ёмкость под семечки (действие — удержание вместе). Тот же лопух и аэродром — одно и тоже, если рассматривать их как взлётную площадку для мух и самолётов. Причём последние в данном контексте тоже связаны через общее действие — полёт.

А сама классификация происходит по мере надобности и является оценкой применимости к объекту того или иного действия. «Открываете холодильник и ищите чего такого бы съесть».

Прогноз применимости действия основывается на предыдущем опыте, выполнение действия закрепляется в нём. "Открытый кефир простоял в холодильнике уже неделю, он несъедобен". Обратите внимание, что информация в действиях, и наличие в описании этого кефира двух действий переводит его в класс несъедобных продуктов.

michael_vostrikov
25.01.2020 19:46
#21188850
Насколько реально сделать примерно следующее:
Выделение отдельных объектов
Выделение движущихся объектов
Иерархическая классификация объектов по любым извлекаемым признакам
Ни насколько. Никто не знает, как это сделать на уровне человека. Особенно последнее.

Nehc Автор
25.01.2020 20:22
#21188922
Последнее как раз фигня! ;) если признаки «извлекаемы», то и классификация по ним не проблема. Я же не говорил «по всем признакам на уровне человека».

А вот с первыми двумя я пока для себя не уяснил. Работать должно (хоть в каком-то виде), но когда пытаешься гуглить на эту тему — все забито поиском известных обьектов на основе ImageNet. Жто хорошо и круто, но немного не то.
1. michael_vostrikov
  25.01.2020 22:49
  #21189170
  Проблема как раз в том, как их извлечь.
  
  Работать должно (хоть в каком-то виде)
  Если оно будет работать недостаточно хорошо, то и нужного результата не будет.
  1. Nehc Автор
    25.01.2020 23:54
    #21189252
    >>> Проблема как раз в том, как их извлечь.
    
    Несомненно. Есть вот идея «плясать» от процессов, но сырая.
    
    >>>Если оно будет работать недостаточно хорошо, то и нужного результата не будет
    
    Наверное… но если есть не достаточно хороший результат — его можно улучшать. Т.е. есть с чем работать.
    
    Просто одно дело: нельзя извлечь объекты. Это ставит крест на всей идее. Другое: объекты извлекаются криво/косо, с ошибками и через раз. Тут можно работать над улучшением технологии.
    
    Мне тут накидали пару идей, куда можно копать… ;) с одной стороны — вы скорее правы, чем нет: надежного и простого способа видимо нет. С другой — есть кое-что, с чем можно эксперементировать
    
    michael_vostrikov
    26.01.2020 18:24
    #21190760
    Есть вот идея «плясать» от процессов
    Так ваша идея основывается на классификации объектов, а не наоборот. У вас же в статье развертка во времени идет после классификации, а не является ее механизмом.
    
    но если есть не достаточно хороший результат — его можно улучшать
    Снова, как именно надо улучшать — никто не знает. Давайте я вам скину программку выделения черного движущегося квадрата на белом фоне, а вы ее улучшите до произвольных объектов.
    
    надежного и простого способа видимо нет
    Надежный и простой способ есть, об этом свидетельствует наличие естественного интеллекта. Но см. выше.

Книга (бытия?). Размышления о природе разума. Часть II -2

Комментарии (57)

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор

Nehc Автор