Нейросетей разного типа становится все больше, и они реально помогают людям жить и работать. Какие-то системы погоду предсказывают, какие-то — учатся диагнозы ставить, а часть систем ушла в большой бизнес. ИИ, слабая его форма, уже умеет анализировать огромные массивы данных, находя зависимости между, на первый взгляд, никак не связанными факторами. Но, конечно, проблем остается еще много — искусственный интеллект не в состоянии справиться с анализом поведения такого «загадочного» мультипликационного персонажа, как Гомер Симпсон.

Нет, какие-то его действия система может идентифицировать, но далеко не все. При этом нейросеть тренировали на большом количестве YouTube роликов из «Симпсонов». Стоит отметить, что DeepMind далеко не новички в разработке различных ИИ-систем. Например, одна из разработок этой компании, ранее входившей в состав Google, а теперь перешедшей под юрисдикцию Softbank, смогла победить чемпионов мира в игре го.

Системы DeepMind, равно, как и разработки такого рода других компаний, в состоянии анализировать огромные объемы информации. С течением времени работа нейросетей становится все более совершенной, поскольку они самообучаются. Будь то распознавание лиц или перевод с английского на китайский и обратно — результаты улучшаются день ото дня. Для того, чтобы научить свою систему, получившую название Kinetics, понимать поведение людей, сотрудники DeepMind «скормили» более 300 000 роликов с YouTube, научив различать около 400 типов действий человека.

«ИИ-системы сейчас очень хороши в распознавании различных объектов на изображениях, но их слабая сторона — работа с видео», — говорит представители DeepMind. «Одна из основных причин — отсутствие больших выборок качественных видео».

Для того, чтобы решить эту проблему, сотрудники DeepMind решили создать собственную выборку. Для каждого из 400 типов действий человека с YouTube «нарезали» минимум по 400 видео, продолжительностью около 10 секунд. В итоге получился один из первых качественных и специализированных дата-сетов, предназначенных для обучения ИИ. Конечно, компании DeepMind, которая формировала эту выборку еще будучи подразделением Google, повезло, поскольку Google (сейчас — холдинг Alphabet) является владельцем YouTube. Соответственно, сотрудникам Deepmind, вероятно, был доступен специализированный инструментарий по работе с материалами видеосервиса. Другим компаниям в этом отношении придется сложнее, поскольку найти общедоступные качественные видео для составления специализированного дата-сета не так и просто, как могло бы показаться.

Точность идентификации различных увиденных Kinetics в роликах действий людей составила около 80%, что не так и мало. Правда, это касается обычных видео, где играют в теннис, успокаивают плачущего ребенка, делают прогноз погоды и т.п. В случае с Гомером Симпсоном все сложнее, здесь точность сразу падает в четыре раза, вплоть до 20%. Нейросети было сложно идентифицировать действия Гомера вроде подбрасывания монетки, причесывания несуществующих волос (те пара волосинок, что остались, не в счет) и другие.

Кроме Гомера, Kinetics сложно идентифицировать блюдо или продукт, если показана только его часть. Съеденный наполовину гамбургер уже определяется гораздо менее точно, чем целый. Проблемы возникают и в том случае, если объект показан очень малого размера. По словам представителя DeepMind, для того, чтобы научить нейросеть правильно определять какое-то действие с высокой степенью точности, порой хватает всего нескольких видео. Но иногда даже сотня не помогает повысить точность определения специфических действий.



Все это — достаточно известные проблемы. Например, ранее у этой же нейросети возникали сложности с идентификацией лиц людей, принадлежащим к определенным этническим группам. По мнению некоторых специалистов, алгоритмы, лежащие в основе Kinetics, в состоянии определить пол человека по некоторым особенностям речи и текстов.

Нейросеть от DeepMind в состоянии определить пол человека и на видео (правда, далеко не во всех случаях), а также оценить «половой баланс» ряда роликов. Например, видео с бритьем усов и бороды в основном, мужские (кто бы удивлялся), а вот работа с бровями или чирлидинг — женские. Правда, проблема с распознаванием полов еще остается, здесь разработчикам есть, над чем поработать.

В дальнейшем работа над такими системами, скорее всего, позволит определять не только то, что делают люди на видео, но и причину их действий. Например, нейросеть сможет определить, почему человек воскликнул «ой», объяснив, что стало причиной этого действия. Для этого нужна солидная дополнительная работа и много-много дата-сетов для обучения.

Наверное, если потренировать Kinetics получше, то эта система научится определять и действия Гомера Симпсона. Хотя кто знает, очень уж непредсказуемый это персонаж. Получится ли?
Поделиться с друзьями
-->

Комментарии (25)


  1. lash05
    13.06.2017 17:12

    системы погоду предсказывают
    — интересно было бы сравнить погрешность прогноза сегодня и лет 30 назад…


  1. Ugrum
    13.06.2017 17:51

    Хотя кто знает, очень уж непредсказуемый это персонаж. Получится ли?

    Ставлю на Гомера.


    1. VJean
      13.06.2017 22:47

      Они еще на Барте не проверяли :)


      1. saboteur_kiev
        14.06.2017 15:33

        А как им Том и Джерри?

        Что? Кот танцует, поет, катается на коньках, иногда ловит мышь но НЕ ЕСТ?


        1. UJIb9I4AnJIbIrUH
          14.06.2017 16:27

          Том и Джери может научить только насилию. Вот так вот, на обучающих мультиках в итоге Скайнеты и появляются.


          1. Ugrum
            14.06.2017 17:44

            Том и Джери может научить только насилию.

            Да это же добрейший мультик.
            По сравнению с "Щекоткой и Царапкой" из тех же Симпсонов или с "Happy Tree Friends".


          1. saboteur_kiev
            14.06.2017 19:06

            С какой это стати?
            1. Для начала, противостояние кота и мыши — совершенно адекватное. Кот ест мышей. Мы едим других животных.
            2. Во-вторых вы точно смотрели Том и Джери? В разных сериях показано, сколько всего нужно уметь, чтобы быть Томом — на пианино играть, оркестром дирижировать, на коньках и роликах ездить, уровень демонстрируемого паркура — вообще пример здорового образа жизни.
            3. В третьих — в мультике всегда показывается, что пить — плохо, курить — вонюче, дружба — важна, сентиментальность — прекрасно. И плохой поступок — всегда наказывается, и что немаловажно это бывает и Том и Джерри. Потому что в «Ну погоди» никакой дружбы нет, просто есть один заяц-бездельник, у которого по непонятным причинам все есть и все хорошо, а другой — вроде как хулиган, но у него всегда все плохо.
            4. Без насилия в этом мире жить нельзя. Нужно уметь себя вести, а не бояться услышать или увидеть насилие.

            Просто мультики детям — это для развлечения, а не вместо родительского воспитания. Нужно воспитывать, а не лепить отмазки в милиции, что «он в детстве мультиков злых насмотрелся»


            1. UJIb9I4AnJIbIrUH
              14.06.2017 22:17

              Вы слишком серьёзно восприняли мой комментарий)


              1. saboteur_kiev
                14.06.2017 23:58

                Знаете, на фоне запрета «Ну погоди», не так уж все смешно… )


  1. UJIb9I4AnJIbIrUH
    13.06.2017 18:28
    +3

    Перефразируя известную шутку: Симпсоны это вам не го, тут думать надо!


  1. ferocactus
    13.06.2017 18:39

    Интересно насколько влияет на обучаемость использование только плоских изображений (видео). Ведь в стерео гораздо больше информации. Впрочем, наверняка, слепые на один глаз с рождения люди обучаются не значительно иначе людей с двумя функционирующими глазами. Или нет?


    1. NorthDakota
      13.06.2017 19:40
      +1

      У меня один глаз практически ничего не видит, и это меня в принципе не смущает, но иногда мешает наслаждаться жизнью. Например мне недоступны 3д фильмы, а так же очень сложно играть в игры типу футбола/волейбола, ибо растояние до мяча тяжеловато определить.
      Во всем остальном полный порядок)


      1. IvanTamerlan
        14.06.2017 14:53

        3д фильмы как раз доступны. Не доступны те фильмы, где идет передача сразу для двух глаз независимых картинок.
        Вот примеры 3д для одного глаза и без очков (осторожно, трафик! У меня на нетбуке картинки лагают):

        3д картинки 3шт




    1. arandomic
      14.06.2017 14:45

      Мозг строит 3D модели окружающего мира не только по бинокулярной картинке, но и за счет «склеивания нескольких кадров при движении головой/глазами», «прикидывания глубины за счет перспективы и предполагаемых размеров объектов» и прочих вычислительных фокусов…

      3D фильмы, которые не может смотреть NorthDakota дают информацию о глубине только за счет бинокулярности…

      У самого один из глаз немного косил полжизни. Проблем с 3D и глубиной картинки «в жизни» никогда не было (мозг легко всё компенсировал), но «заточенная под здоровую бинокулярность» модель в 3D фильмах не прокатывала — болела голова и видел просто две расплывчатые картинки.
      Сделал операцию — сходил на первый свой 3D фильм и посмотрел… Увидел «глубину» картинки…


      1. ferocactus
        14.06.2017 20:52

        Именно.

        Обладая несколькими органами чувств и возможностью взаимодействовать с реальностью, мы формируем представление о том, что существует пространство, с минимум тремя измерениями, время, материя. Моделируем устройство этой реальности, и уже исходя из представлений о её характере, строим гипотезы о том, что видим. Поэтому странно ожидать, что полностью виртуализированный разум (изолированный от нашей реальности) будет воспринимать изображения подобно человеку. Слишком маленькое пространство признаков обучающей выборки и анализируемых объектов.

        Плюс, вероятно, часть наших знаний о реальности формируется без обучения, а уже благодаря архитектуре системы, наследуемой генетически и отточенной миллионами лет эволюции (а строго говоря миллиардами, если учесть, что биологической эволюции предшествовала химическая, а ей в свою очередь цепочка событий от самого начала существования вселенной).


  1. barmaley_exe
    13.06.2017 19:22
    +5

    Например, одна из разработок этой компании, ранее входившей в состав Google, а теперь перешедшей под юрисдикцию Softbank

    компании DeepMind, которая формировала эту выборку еще будучи подразделением Google

    Что? Вы действительно думаете, гугл бы отдал кому-нибудь сильнейшую команду исследователей в эпоху ИИ бума? Гугл отдал Boston Dynamics, которая к DeepMind не имеет никакого отношения


    1. PapaPadlo
      13.06.2017 20:46
      +1

      Да, на это месте я тоже полез гуглить


  1. ideological
    13.06.2017 20:22

    Из статьи «Машинное обучение для самых маленьких»:

    Алгоритмы машинного обучения работают только тогда, когда имеющихся данных действительно достаточно для решения проблемы.
    Поэтому нужно помнить, что если человек не может использовать данные для решения проблемы, компьютер, скорее всего, тоже не сможет.

    Почему-то об этом, многие умышленно или неумышленно — забывают.


    1. darthmaul
      14.06.2017 14:29

      если человек не может использовать данные для решения проблемы, компьютер, скорее всего, тоже не сможет
      и зачем тогда весь этот хайп вокруг ИИ и МО? Он то и нужен для того, чтобы обработать информацию, недоступную человеку (из-за обьёма) и извлечь из нёё пользу.


      1. arandomic
        14.06.2017 14:53

        Ну, в этом и смысл.
        Если человеку «не хватает» данных — ИИ не справится
        Если человеку хватает данных и он в состоянии их обработать сам — ИИ не нужен
        Если данных для человека слишком много — ИИ справится, и именно тут он и нужен.


  1. zedalert
    13.06.2017 21:01
    +4

    Предвижу статью — нейросети не понимают женщин.


    1. pavelpromin
      13.06.2017 21:44

      Это читерство!


  1. QDeathNick
    14.06.2017 01:05

    Идентифицировать действия без построения виртуальной модели происходящего по-моему нельзя.
    По 2D картинке, даже если это видео, человек сначала подсознательно строит модель, домысливает невидимое, а потом уже анализирует действия персонажа.
    Пора переходить к 3D нейросетям. Вроде как наработки по автоматическому созданию 3D сцены на основе картинки уже есть, осталось на основе построеной сцены найти кости скелетной анимации, оттестировать визуально этот слой, дополнить недостающими деталями и вот уже эти движения всего персонажа загонять в слои анализирующие действия и причины поведения.
    Вот попробовали бы анализировать действия игроков в гта, но не по картинке, а по 3D сцене с костями, всё бы получилось.


    1. mx2
      14.06.2017 14:06

      Сам по себе переход к трем измерениям необходим, но недостаточен, иначе это превратится просто в решение топологических задач и лютый матан, что само по себе неплохо, но без фундаментальных знаний об окружающей среде и попыток сортировать объекты и их свойства будет всё так же далеко от ИИ.
      А вообще у Оливера Сакса было много интересного про нарушения работы мозга или например про слепых людей, которым внезапно сделали операцию в зрелом возрасте. В итоге человек не был в состоянии узнать собаку, если она поворачивалась другим боком или вообще различать животных, не был способен ориентироваться в пространстве и т.п.
      Попытки что-то там распознавать в мультфильме, который является плоской искаженной проекцией трехмерного пространства — это вообще дичь.


  1. General_Failure
    14.06.2017 07:43

    Съеденный наполовину гамбургер уже определяется гораздо менее точно, чем целый
    Всё правильно, большинство людей тоже кем-то подъеденный гамбургер не стали бы считать за еду