Первые состязательные 3D-примеры для обмана нейросетей / forpes.ru

Главная
Первые состязательные 3D-примеры для обмана нейросетей

Первые состязательные 3D-примеры для обмана нейросетей +18

06.11.2017 15:46

alizar 113 11600 Источник

Напечатанная на 3D-принтере черепаха распознаётся нейросетью как черепаха (зеленый контур), винтовка (красный контур) или как другой объект (чёрный контур)

Давно известно, что небольшие целенаправленные изменения в картинке «ломают» систему машинного обучения, так что она классифицирует совершенно другое изображение. Такие «троянские» картинки называются «состязательными примерами» (adversarial examples) и представляют собой одно из известных ограничений глубинного обучения.

Работают они просто: нужно сделать градиентное восхождение в пространстве входных данных для генерации образцов, которые максимизируют предсказание класса для заданного класса. Например, если взять фотографию панды и добавить градиент «гиббон», мы заставим нейросеть классифицировать эту панду как гиббона. Черепаху можно выдать как винтовку (см. иллюстрацию вверху). Кот превращается в холодную закуску гуакамоле (см. под катом) — неважно. Любой объект превращается в любой другой для в глазах машинного интеллекта, потому что у ИИ особая система «зрения», отличная от человеческой.

До сих пор такая тонкая настройка градиента работала только на 2D-изображениях и была очень чувствительна к любым искажениям.

Фотография кошки распознаётся как гуакамоле в классификаторе InceptionV3

Посмотри на котика под другим углом или с другого расстояния — и нейросеть уже снова видит в нём кота, а не холодную закуску.

Фотография кошки снова распознаётся как кошка в классификаторе InceptionV3, если немного повернуть её

То есть в реальности такие состязательные примеры не будут эффективны из-за зума, шума цифровой камеры и прочих искажений, которые неизбежно возникают в реальности. Это неприемлемо, если мы хотим надёжно и устойчиво обманывать системы компьютерного зрения в офлайне. Но теперь появилась надежда, что эта задача людям по силам. Исследователи из Массачусетского технологического института и независимой научно-исследовательской группы LabSix (составлена из студентов и выпускников MIT) создали первый в мире алгоритм, который генерирует состязательные примеры в 3D. Например, в видеоролике ниже показана черепашка, которая устойчиво распознаётся классификатором Google InceptionV3 как винтовка (rifle) почти под любым углом.

Алгоритм способен генерировать не только черепашек, но и любые произвольные модели. Для образца исследователи напечатали также бейсбольный мяч, который классифицируется как эспрессо (кофе) под любым углом, а также создали большое количество других моделей — своеобразных оптических иллюзий для ИИ.

Обман машинного зрения работает даже в том случае, если объект на фотографии находится в семантически нерелевантном контексте. Очевидно, что нейросеть при обучении не могла видеть ни винтовку под водой, ни эспрессо в перчатке кетчера.

Состязательные примеры в 3D: черепаха, которая для нейросети InceptionV3 выглядит как винтовка, и бейсбольный мяч, который выглядит как эспрессо

Хотя метод «заточен» именно для конкретной нейросети, но в комментариях к прошлым научным статьям на эту тему обращали внимание на ремарку исследователей, что, скорее всего, атака подействует на многие модели, обученные на данном конкретном наборе данных — включая разные архитектуры свёрточных сетей и даже линейные классификаторы. Так что для проведения атаки достаточно гипотезы, на основе каких данных могла обучаться модель.

«В конкретных терминах это означает, что вполне вероятно, появляется возможность создать дорожный знак о продаже дома, который для человеческих водителей кажется совершенно обычным, но для беспилотного автомобиля будет казаться пешеходом, который внезапно появился на тротуаре, — сказано в научной работе. — Состязательные примеры вызывают практический интерес, который нужно учитывать по мере того, как нейросети становятся всё более распространёнными (и опасными)».

Для защиты от подобных атак разработчики ИИ будущего может держать в секрете информацию об архитектуре своих нейросетей, а главное — о наборе данных, который использовался при обучении.

Научная статья опубликована 30 октября 2017 года на сайте препринтов arXiv.org (arXiv:1707.07397v2).

Комментарии (113)

kuznetsov2
06.11.2017 19:54
#10424597
кажется

Заголовок спойлера

staticlab
06.11.2017 20:03
#10424611
А где на КДПВ зелёный контур?
1. Hidon
  06.11.2017 20:19
  #10424629
  +1
  наверное, как черепаху не распознало вообще.
1. alizar Автор
  06.11.2017 20:19
  #10424631
  Отсутствует.
1. ainoneko
  07.11.2017 04:01
  #10425077
  А где на КДПВ зелёный контур?
  Это как «The S in IoT stands for security.» и
  
  «Я уже букву „к“ нарисовал.»
  «Я сейчас здесь умру, — сказал Роман. — Газета называется „За
  передовую магию“.»

mistergrim
06.11.2017 20:13
#10424619
Что со всей очевидностью показывает, что все эти нейросети к «интеллекту» не имеют никакого отношения. Человеческому ребёнку достаточно показать пару картинок с черепахой (а не несколько тысяч), и в дальнейшем в жизни он будет её идентифицировать с 99,9% точностью, и уж точно не перепутает с винтовкой.
1. ankh1989
  06.11.2017 21:09
  #10424691
  Это называется one shot learning: arxiv.org/pdf/1606.04080.pdf
1. BlackMokona
  06.11.2017 23:20
  #10424847
  Вообщето точность будет ниже плинтуса. Вы просто потом не проверяли его существами очень похожими на черепаху.
  1. staticlab
    06.11.2017 23:27
    #10424855
    А как вы определите, что тестовое существо "очень похоже на черепаху"?
    
    BlackMokona
    07.11.2017 09:21
    #10425291
    С помошью своего более совершенного классификатора У детей он намного хуже и чем они младше, тем больше разница. Ребёнку до трёх лет даже по цветам разложить проблема
    
    Hardcoin
    07.11.2017 10:03
    #10425351
    Вы можете сами определить, а потом показать ребенку. Точность действительно не очень, для приемлимой точности нужно заметно больше картинок, чем две. Движущуюся в живую ещё лучше — сразу и видео и тактильные ощущения.
1. Kardy
  07.11.2017 01:24
  #10424953
  Более того, ребенку можно показать нечто лишь весьма отдаленно напоминающее черепаху (рисунки в детских книжках), и он все равно будет в состоянии распознать настоящую черепаху когда увидит.
1. allcreater
  07.11.2017 02:01
  #10424997
  Мне кажется, Вы немного недооцениваете сходство ЕИ и искуственных нейросетей: некоторые картинки-обманки влияют и на людей! К примеру, мяч действительно выглядит так, как будто его обклеили текстурой кофейной пенки. И это весьма впечатляющий результат, если учесть, что мяч сделан не артистами, а сгенерирован при решении обратной задачи распознавания.
  
  Сдаётся мне, принципиальных различий между биологическими и искусственными нейросетями таки нет, а разница как раз в том, что интеллект предполагает наличие модели, с которой сравнивается объект. Ребенок, учащийся распознавать животное по одной фотографии, на самом деле владеет гораздо большим количеством информации, чем набором пикселов на входном слое нейросети. Тут работает весь жизненный опыт обращения с физическими объектами и наблюдения их во всевозможных условиях.
  1. mistergrim
    07.11.2017 05:47
    #10425129
    То, что мяч выглядит, как чашка кофе (да, он на самом деле так выглядит) никак не отменяет того факта, что черепаха мало похожа на винтовку.
    
    Это всё пока что показывает лишь следующее: мы идём ложным путём. Как с шахматами — ну помнит Deep Blue все эндшпили, а человек-то их помнит? А противостоять кремниевой мощи более-менее может.
    
    Areso
    07.11.2017 06:51
    #10425161
    Может, но уже не в шахматах.
    
    mistergrim
    07.11.2017 09:21
    #10425289
    Я ж говорю, более-менее)
    Лично у меня Psi Chess на спектруме уже вызывал определённые сложности, но я комплексом неполноценности перед Z80 не страдал.
    
    red75prim
    07.11.2017 09:32
    #10425305
    Одна из причин — это то, что существующие сверточные сети, в каком-то смысле соответствуют только части зрительной коры — они распознают изображение как целое, без разбиения на части и анализа взаимного положения этих частей. Поэтому сеть может использовать множество признаков, разбросанных по всему изображению совсем не в том порядке как на изображении винтовки, чтобы сделать заключение, что это — винтовка.
    
    Исследователи в курсе, и ведутся работы на тем, чтобы использовать и информацию о взаимном расположении частей. Я ниже приводил ссылку: капсульные сети.
    
    mistergrim
    07.11.2017 09:44
    #10425307
    Поэтому сеть может использовать множество признаков, разбросанных по всему изображению совсем не в том порядке как на изображении винтовки, чтобы сделать заключение, что это — винтовка.
    И поэтому это не ИИ. Согласитесь, мы определим винтовку с поувзгляда, не спутав её с черепахой и не держав её ни разу в руках (как и черепаху, в общем-то).
    
    red75prim
    07.11.2017 09:50
    #10425317
    Это — полезная часть для построения более функционального ИИ, но, естественно, не ИИ и, тем более, не ИИ общего назначения. Кусок зрительной коры человека — это интеллект? Конечно, нет.
    
    mistergrim
    07.11.2017 09:55
    #10425333
    Не работает оно даже как кусок зрительной коры.
    Мозг таких ошибок не допускает в принципе.
    
    Hardcoin
    07.11.2017 10:13
    #10425369
    В принципе? Очень смелое заявление, не стыкующееся с существованием зрительных иллюзий.
    
    Зрительная кора, кроме того, что имеет заранее (генетически) подготовленные шаблоны, ещё и обучается годами, прежде чем сможет показать трюк "обучение с первого раза". Дайте перекрестному обучению нейросетей ещё пару лет, и мы увидим много интересного.
    
    mistergrim
    07.11.2017 11:26
    #10425531
    Зрительная кора однозначно имеет шаблоны (парейдолия, вот это всё). Но мы не о них! Ну нет никаких шаблонов у европейского гоминида о черепахах, пингвинах (и винтовках, если уж на то пошло).
    
    Hellsy22
    07.11.2017 13:31
    #10425719
    Зато есть синее и белое платья. Распознавание лиц с эмоциональными выражениями буквально во всех мыслимых объектах. И отсутствие распознания искомых объектов на сложных картинках.
    
    mistergrim
    07.11.2017 13:54
    #10425757
    Синее и белое платье это неизбежные баги (и крайне редкие, надо заметить). А распознавание лиц — это как раз вполне нормальное явление (ну про парейдолию я вхолостую упомнял, видимо), вот это-то как раз генетически заложенный паттерн.
    
    Hardcoin
    07.11.2017 16:48
    #10426051
    Баги редко находятся, потому что карты градиентов нет. Без нее их просто труднее искать. Я бы не поставил на то, что их на самом деле мало.
    
    Hellsy22
    07.11.2017 18:45
    #10426241
    +1
    Цветовые баги встречаются постоянно
    
    Я знаю, что A и B одного цвета, но ничего не могу поделать с восприятием.
    
    we1
    08.11.2017 06:56
    #10427113
    Это называется «bubbles effect». Полно примеров, даже специальный инструмент есть — www.bubbleimage.net/en
    
    red75prim
    07.11.2017 10:24
    #10425385
    Эти изображения скорее всего не испытывались на людях с различными видами зрительных агнозий, так что лучше сказать «неповрежденный мозг не допускает таких ошибок».
    
    mistergrim
    07.11.2017 10:42
    #10425429
    Повреждённый мозг допускает и не такие ошибки, но зачем нам имитация повреждённого мозга?
    
    red75prim
    07.11.2017 10:46
    #10425433
    Смысл не в том, что мозг поврежден, а в том, что в неповрежденном мозге часть зрительной коры, которая может допускать такие ошибки, не работает изолированно и её ошибки корректируются другими структурами мозга. Повторю ещё раз: это — полезная часть для построения более функционального ИИ.
    
    vbif
    07.11.2017 10:23
    #10425381
    На четвёртой картинке как раз немного похожа.
    
    vbif
    07.11.2017 10:35
    #10425407
    Больше того, если не знать, что на картинке черепаха, не факт, что удастся увидеть черепаху на половине из этих картинок.
1. niknamezanat
  07.11.2017 08:47
  #10425253
  Не забывайте, нейросети пока работают с 2D изображениями. Человек в 3D (стерео). Натренированные на трехмерные объекты нейросети обмануть будет на порядок сложнее, кмк.
  1. mistergrim
    07.11.2017 09:15
    #10425277
    +1
    3D человеку нужно процентов на 10. У меня серьёзные проблемы со зрением, и тридэ у меня и близко не работает, но проблем с распознаванием образов никаких нет. (основная проблема — как бы сходить в кино на 2D-сеанс)
    
    vbif
    07.11.2017 10:27
    #10425395
    Даже если у вас работает только один глаз, вы всё равно видите предметы в 3D, как минимум потому что всегда можете посмотреть на предмет чуть с другого угла. Возможно, если бы нейросети при обучении давали возможность осматривать объект с разных сторон, таких ошибок было бы много меньше.
    
    fatronix
    07.11.2017 10:33
    #10425401
    Не выдумывайте. Человеку хватит одной фотографии, чтобы раз и навсегда запомнить объект. Да что там фотографии, ему карандашный рисунок можно показать, нейронные сети сейчас даже близко к такому уровню распознавания не подошли.
    
    vbif
    07.11.2017 10:41
    #10425425
    Потому что человек уже имеет большой опыт сопоставления трёхмерного объекта и двумерного. Плюс, вы уверены, что если речь идёт не о простом объекте типа животного, у которого можно выделить привычные голову, ноги, туловище и хвост, вы так легко справитесь? Не говоря уже о сложных условиях видимости (никогда не решали задачки типа «сколько кошек на картинке»?)
    
    mistergrim
    07.11.2017 10:48
    #10425439
    Да не нужна человеку трёхмерность для опознавания объектов. Когда вы периферийным зрением одного глаза опознаете змею, то отпрыгнете на пару метров без опознания её объёма и расстояния до неё.
    
    vbif
    07.11.2017 10:58
    #10425457
    И выясните, что это была не змея, а просто ветка, или вовсе ветер траву колыхал определённым образом, что с определённого ракурса кажется, будто там змея.
    
    mistergrim
    07.11.2017 11:40
    #10425555
    Ужас-то какой! Ветка вместо змеи.
    А если наоборот?
    Естественно, что в данном случае опознание работает с избыточностью. Так а что там насчёт 3D?
    
    BigBeaver
    07.11.2017 11:50
    #10425579
    Так и с винтовкой в статье то же самое. «Робот» поднимет тревогу, а потом (после получения новых картинок с других расстояний и под другими углами) вдруг поймет, что это была просто черепаха. Совершенно полная аналогия.
    
    mistergrim
    07.11.2017 12:36
    #10425635
    Человек понимает под винтовкой «опсность». Робота просто клинит.
    Тут было же: нейросеть ломалась на распознавании пляжа, просто когда ей вместо цветного фото давали чёрно-белое.
    
    BigBeaver
    07.11.2017 13:21
    #10425701
    Механизм-то один.
    
    mistergrim
    07.11.2017 17:50
    #10426131
    Механизм абсолютно разный, о том и речь. Ветка действительно может оказаться змеёй. То есть опознавающий алгоритм в мозгу работает с избыточностью, но это оправдано. Но ветку за ворону или лошадь, или даже опасного льва он не примет.
    
    BigBeaver
    07.11.2017 18:20
    #10426187
    Очень даже примет. Постоянно принимаю всякую фигню в боковом зрении за людей, собак, кошек и тд.
    
    Ну и если вы правда считаете, что тут есть принципиальная разница, стоило бы на нее указать. А «опасность» это не свойство алгоритма распознования, а причина, по которой он имеет уклон в сторону ложноположительных срабатываний по конкретным предметам. Прямой связи с механизмом это не имеет.
    
    ARTamos85
    08.11.2017 08:55
    #10427225
    Я никак понять не могу, вы о чем спорите?
    В одном треде прямо противоположные высказывания:
    >>тридэ у меня и близко не работает, но проблем с распознаванием образов никаких нет.
    >>Ветка действительно может оказаться змеёй
    
    Что вы пытаетесь доказать?
    
    vbif
    07.11.2017 13:44
    #10425737
    Как раз с винтовкой не то же: здесь наоборот, учили робота по плоским картинкам, в результате он при любом ракурсе не может понять, что перед ним черепаха.
    
    BigBeaver
    07.11.2017 14:39
    #10425827
    Это уже нюансы, но принцип один. Просто, реальный человек помимо расширенной обучающей выборки имеет дополнительные априорные знания, информацию о размере и тд.
    
    T-362
    07.11.2017 15:17
    #10425899
    Не совсем. У человека более ассоциативная память и вещи, концепция которых не понятна или не получает сильной ассоциации с чем-то замещающим игнорируются. Недавно как отличный пример была статья на хабре про то как люди рисуют логотипы по памяти — у русалки старбакса ее раздвоенный хвост, который она в руках держит, очень плохо запоминался у тех кто не видел старый, более подробный, логотип, или не понимал что это.
  1. AllexIn
    07.11.2017 14:45
    #10425839
    И много «3Д» вы видите на фотографии мяча или черепахи?
    
    vbif
    07.11.2017 14:49
    #10425843
    Видео
1. Alexmaru
  07.11.2017 09:23
  #10425295
  э? двух картинок человеку тоже мало. И есть точно такие же глюки, когда картинку воспринимают как что-то живое.
  
  Тут ИИ угадывает за один шаг, а у человека шагов много: "Орешек? Охренеть, орешек!"
  1. mistergrim
    07.11.2017 11:00
    #10425461
    Двух мало? А трёх? А десяти? Или как для нейросети, нужны тысячи? Не придирайтесь к словам, порядок значений вполне ясен. Мало кто видел в живую пингвина, но любой опознает его при встрече безошибочно.
    
    vbif
    07.11.2017 11:05
    #10425477
    Вживую мало кто видел, но на картинках, в кино и телепередачах видели не меньше миллиона раз.
    
    mistergrim
    07.11.2017 11:20
    #10425507
    Ждал этого коммента. Вы считаете, у старшего поколения, не имевшего интернета, и познававшего мир по журналу «вокруг света» и чёрно-белой телепередаче «клуб путешественников», по сравнению с нами нынешними имеются серьёзные проблемы с опознанием пингвинов?
    
    vbif
    07.11.2017 12:16
    #10425617
    И в чём отличие? Или вы скажете, что до появления интернета люди видели пингвинов в одной единственной картинке в журнале вокруг света за 19ХХ год?
    
    mistergrim
    07.11.2017 12:45
    #10425653
    Да нет, конечно же, каждый день на улице встречали и ощупывали.
    
    vbif
    07.11.2017 12:51
    #10425663
    Как минимум, на этикетках мороженого, на бортах фургончиков-рефрижераторов, в мультфильмах (иногда почему-то про Северный полюс), в журнале «мурзилка». И главное, есть такое место в каждом более-менее крупном городе, называется «ЗООПАРК».
    
    mistergrim
    07.11.2017 13:47
    #10425741
    И главное, есть такое место в каждом более-менее крупном городе, называется «ЗООПАРК».
    До чего же я рад за жителей крупных городов.
    А вот жители мелких городов такого счастья лишены, и постоянно пингвина с уткой путают.
    
    vbif
    07.11.2017 14:00
    #10425771
    А вы, кстати, попробуйте узнать животное по картинкам в средневековых бестиариях. Или взгляните на Грипсхольмского льва — в гербовом ракурсе он смотрится как надо, а спереди — как упоротый лис.
    
    mistergrim
    07.11.2017 17:44
    #10426123
    Ну так средневековые художники были от слова «худо», но это проблема художников, а не воспринимающего.
    
    BigBeaver
    07.11.2017 18:22
    #10426191
    +1
    То есть, вы не допускаете мысли, что люди могли действительно иначе видеть вещи? Ведь суть рисования (до появления фотореализма) была в том чтобы передать на рисунке некоторый набор референсных признаков, отвечающих за распознование. Этот набор вполне может быть культурозависимым (тк культура определяет окружение и оучающую выборку), и люди тогда вполне могли считать эти рисунки котов релевантными (точно так же, как дети не видят проблемы в распозновании собственных творений).
    
    Mogwaika
    07.11.2017 19:04
    #10426275
    Скорее у них были стандартные заготовки для фигур и лиц людей, мог быть манекен с одеждой, а кота рисовали по памяти…
    Хотя левая картинка это что-то из разряда рисунков мистера Бина.
    
    Meklon
    07.11.2017 13:00
    #10425675
    Так они же в Мурманске все равно по подъездам греются.
    
    Slavik_Kenny
    07.11.2017 14:34
    #10425817
    и чёрно-белой телепередаче «клуб путешественников», по сравнению с нами нынешними имеются серьёзные проблемы с опознанием пингвинов?
    
    Пингвинов конечно нет — они тоже черно-белые :)
    
    Meklon
    07.11.2017 15:42
    #10425925
    +1
1. engine9
  07.11.2017 10:44
  #10425431
  Ха! Вот где мы обгоним «тупые нейросети» так это в ригидности мышления. Ребенку достаточно рассказать пару пословиц или «житейских мудростей» и он всю жизнь будет им следовать, даже когда они будут неуместны и приводить к вредному результату.
  
  Например, батя научил, что пацан всегда должен дать сдачи иначе он фуфло, а не пацан. И через тридцать лет взрослый мужчина ввязывается в бытовую потасовку, которая переходит в драку и убийство. Ведомый жесткой, директивной установкой он раздувает мелкую перебранку до тяжелого преступления, которое может поставить крест на всей жизни.
  
  Если поковыряться в подобных незыблемых истинах и самоочевидных установках то вдруг понимаешь что ~~живешь в обществе биороботов~~ люди следуют массе инструкций и не пытаются их проанализировать. Даже на уровне применимости к той или иной ситуации.
  1. we1
    08.11.2017 08:00
    #10427167
    Все намного хуже. Вокруг настоящие андроиды, которым программа загружается из телевизора.
1. ARTamos85
  08.11.2017 08:00
  #10427169
  Давайте в таком случае приблизим эксперимент с ребенком к условиям эксперимента с нейросетями: нам нужен специальный ребенок, который всю жизнь прожил в темной комнате в полной изоляции от окружающего мира, ему все это время только показывали картинки: то с черепахами, то с винтовками. А затем подкинем ему картинку со специально сгенерированной черепахой.
  Вы все еще уверены в исходе эксперимента?
1. MatiasGray
  09.11.2017 12:03
  #10429711
  Поэтому нужно тренировать на трёхмерных изображениях, ведь у нас нехилая такая оптическая система, в отличии от кучки нейронов, которым показывают жалкие плоские жипеги.

Tarolrr
06.11.2017 20:19
#10424627
Кажется, фотография кота в статье зеркально отражена. Интересно, это было необходимо в данном случае, чтобы сеть глюкнула?

red75prim
06.11.2017 20:30
#10424645
Собственно уже появилась архитектура сети, более устойчивая к этому типу атак: капсульные сети. В этой публикации есть оценка устойчивости: https://openreview.net/forum?id=HJWLfGWRb

densss2
06.11.2017 20:31
#10424647
+1
Моя головная нейросеть пока ещё не ассоциирует Ализара с новой аватаркой. Продолжу обучение.

tormozedison
06.11.2017 21:54
#10424743
Эспрессо в мяче действительно можно разглядеть.

pehat
07.11.2017 01:01
#10424933
Удивительно, что уже несколько лет генерируют разные контрпримеры для нейронок (с каждым годом всё лучше), но это не позволяет выяснить причину бага и сделать распознавание более надежным.
1. Tenebrius
  08.11.2017 12:34
  #10427609
  В некотором приближении, причина в том, что сеть ориентируется не на все изображение, а на отдельные фрагменты, которые можно подменить.

quwy
07.11.2017 02:43
#10425025
В определенном смысле такой обман возможен и для человека. См. ослепляющий камуфляж.

Tallefer
07.11.2017 03:41
#10425049
Ключевая информация в конце:

Для защиты от подобных атак разработчики ИИ будущего может держать в секрете информацию об архитектуре своих нейросетей, а главное — о наборе данных, который использовался при обучении.

Хипстеры, прыгающие вокруг черного ящика нейросетей, ожидаемо пришли к решению «security through obscurity» — ну вот и всё, можно расслабиться, человечество гарантированно обречено. %)
На самом деле я рад тому факту, что стали появляться статьи с робкими попытками противопоставить что-то нейросетям, вот например, и вроде была еще, как минимум одна, но не смог найти, к сожалению.

killik
07.11.2017 04:37
#10425109
Ну, такой бейсбольный мяч и я не распознал. Бейсбольный мяч он круглый и белый, а тут какая-то многоугольная полупрозрачная НЕХ с пеной и сопливыми дырами в поверхности, похоже на птичий зародыш без скорлупы — вон и веко фиолетовое виднеется.
1. Areso
  07.11.2017 07:02
  #10425165
  Мне долго казалось, что это губка для мытья посуды или пемза. Для мяча эта штука больно уродлива.

agat000
07.11.2017 05:23
#10425121
Моя нейросеть ушла в даун при попытке найти признаки класса «винтовка» в объекте «черепаха/модель/пластик».
При некоторой абстракции можно опознать герб Австралии — «Щит с дубиной и двумя бумерангами».

А вообще идея хорошая, поскольку все нужно проверять на крайностях, чтобы определять границы применимости.

Личный пример важности распознавания: В темное время увидел на тротуаре возле пешеходного перехода тетку с вытянутой рукой. После милисекундного колебания (сумбурный анализ идиотской позы, сравнение с известными образами) на всякий случай дал по тормозам. Не ошибся — абсолютно черная собачка на черном поводке уже была на дороге, хотя хозяйка только подходила. Автопилот бы намотал ее на колеса, пришлось бы отмывать потом. Хотя у меня возник образ ребенка, бегущего впереди матери к дороге, тянущего за руку.
1. Tallefer
  07.11.2017 14:11
  #10425787
  Вот черт — отличный паттерн для обучения ~~автопилота~~ водителей в автошколе, но его же нигде не упоминают, так?
  1. agat000
    08.11.2017 09:05
    #10427243
    Упоминается в виде настоятельной рекомендации — смотреть по сторонам. А в темное время вообще не слезать с измены, не гнать на узких улицах, притормаживать при любых непонятках. А то у нас модно у народа — ходить в темной одежде через дорогув неположеном и неосвещенном месте.

ElderMan
07.11.2017 05:26
#10425123
с людьми тоже ведут исследования
Пример фото
1. agat000
  07.11.2017 09:04
  #10425261
  А вот это интересно, спасибо.

Alcpp
07.11.2017 06:46
#10425157
Т.е. человек в соответствующем камуфляже сможет буквально прикинуться шагающим деревом для боевого робота.
1. Areso
  07.11.2017 07:24
  #10425171
  Только у боевого робота датчиков больше, чем у людей. Оптическое распознавание, в котором так хороши люди, будет далеко не единственной возможностью у робота.
  1. agat000
    07.11.2017 09:03
    #10425257
    Не так уж больше возможностей, разве что тепловизор, но его тоже нетрудно обмануть, есть специальные камуфляжи. Датчики движения и дальномеры — да, немного помогут, но далеко не в каждой ситуации.
    Биологический распознаватель изображения пока гораздо мощнее кремниевого, и способы его обмана намного превосходят возможности железа.
  1. lamoss
    07.11.2017 11:54
    #10425583
    Можно на человека куст густой надеть и тут единственное на чем его сможет подловить робот — тот факт, что кусты не могут перемещаться.
    
    Alcpp
    08.11.2017 03:20
    #10427049
    Как бы null reference exception в этом случае не подловил робота.
    
    Alcpp
    08.11.2017 03:21
    #10427051
    Не представляю себе включение в скоуп тесткейса с бегающими деревьями или лужами.
    
    Tallefer
    08.11.2017 16:42
    #10428163
    А тут уже несколько проверок должно быть, как и у человека — мы же не по фоткам ориентируемся. Например, как робопылесос с главным сервером — сосканил квартиру, а потом если увидел что-то, чего там быть не должно по схемам — алерт. Или просто даже как система видеонаблюдения с детектором движения.

Dmitry_7
07.11.2017 07:58
#10425203
Скажите, а грузовик поперек дороги тоже можно спутать с чистым шоссе?

velovich
07.11.2017 08:10
#10425211
я сейчас загуглил гуакамоле — действительно, иногда мой кот смотрит на меня именно так

vbif
07.11.2017 12:19
#10425621
Кстати, на картинке — не черепаха!

muhaa
07.11.2017 15:27
#10425905
Проблема в том, что нейронная сеть обучается с чистого листа: она ничего не знает о мире кроме классификации нескольких десятков тысяч плоских картинок.
Например, ребенок на картинке с котом видит животное с определенным строением тела, расположением и формой глаз, носа, мягкой шерстью и т.д. Способность к распознаванию этих признаков по плоскому изображению или даже стилизованному рисунку уже наработана мозгом ребенка.
Дальше, по этим признакам распознать кота уже совсем не сложно. Обмануть такую систему тоже гораздо сложнее.
Для решения проблемы нужны гораздо более сложные многоуровневые нейронные сети, обученные выделять в изображениях сложные системы потенциально полезных высоко-уровневых признаков. Дальше, такую «знающую мир» сеть можно будет быстро и надежно обучить распознаванию любых объектов.
Естественно, я понятия не имею как это сделать.

Konachan700
07.11.2017 16:05
#10425981
+1
Я распознал мяч с картинки как «осминог» и «что-то с пеной» (близко к кофе, да). Мяч на первый взгляд там не очевиден. Такие странные предметы и человек плохо опознаёт, чего уж про ИИ говорить.
Черепашки скорее всего просто нейросеть не знает, ее не было в наборе для обучения, вот и выдает ближайшее похожее (приклад винтовки, покрашенный под камуфляж). Такое же поведение видно в нейросети гугл-переводчика, если выбрать перевод с монгольского на русский и вводить русские буквы Э — вылезают очень криповые тексты вместо ошибки перевода…
1. T-362
  07.11.2017 16:19
  #10426005
  29 букв «Э» — «ЭТО ЗЕМЛЯ»,
  31 буква — «РАЗРАБОТАННЫЕ»,
  41 буква — «СДЕЛКИ»,
  42 буквы — «СВЕЖИЕ».
  
  Емок и чудесен монгольский язык. Хотя это отличный пример как уязвимости сетей распознавания будут расходиться по форумам или продаваться на черном рынке.
  1. Tallefer
    07.11.2017 17:18
    #10426069
    Еще одно, причем общее для всех языков планеты, значение произвольного количества букв Э — «Извините, эта кабинка занята».
  1. dee3mon
    07.11.2017 19:06
    #10426281
    Как у вас это получилось? Он выдает мне ОЧЕНЬ странные фразы с вариациями слов мама, ребенок, тетя, верблюд и пчела?
    
    T-362
    08.11.2017 13:20
    #10427727
    Так как у меня русской раскладки на работе нет (с тремя раскладками вообще живется плохо) я просто скопировал «Э» из комментария Konachan700 и пейстил по одной штучке в .com (англоязычной) версии гугл переводчика.
    
    Konachan700
    09.11.2017 18:20
    #10430847
    Там еще попадаются данные веб-приложения (строки с вилдкардами), логины, почтовые адреса и телефоны… Попадаются похожие друг на друга адреса, на которые если что-то написать, то в ответ приходят те же криповые тексты рандомом. На форчане тред был.
    Гугл молчит, видимо это фича, а не баг.
1. vbif
  07.11.2017 16:24
  #10426015
  Скорее всего имеет место явление, аналогичное поисковым бомбам.
1. Alcpp
  08.11.2017 03:37
  #10427061
  А для этой пары языков точно включили нейросеть?
  1. exehoo
    08.11.2017 11:16
    #10427457
    Похоже, для этого развлечения подходит любой язык, использующий кириллицу — казахский, таджикский и чешский тоже выдают белиберду

zigrus
07.11.2017 17:42
#10426117
нейросеть «смотрит» картинки и выделяет для себя определенные детали которые общие для все черепах, в ее понимании. человеку покажи любую черепаху, но узнает в ней черепаху и точно не перепутает с винтовкой. даже не представляю как нужно замаскировать черепаху что бы она была похожа не винтовку.
можно узнать по каким признакам нейросеть увидела винтовку?
1. Tallefer
  07.11.2017 18:00
  #10426151
  Нельзя. %) Но можно предполагать. Понятия не имею, что делать с красной черепахой, но с черной можно сделать две догадки:
  1) голова — дуло, плавник — рукоять или приклад, тело — человек, который держит винтовку (в темном камуфляже), либо просто нагромождение темных областей в середине винтовки.
  2) Мы вообще ничего не знаем о тех фотках, на которых тренировали, поэтому там может быть что угодно, к примеру — такой ракурс, когда дуло упирается в объектив, а приклад еле виден, таким образом пропорции нарушаются и вполне можно получить «черепаху», ведь нейросеть ничего не знает о 3д мире, в отличие от человека, у которого мозг после считывания с «матрицы» делает «шумоподавление». :)
  1. zigrus
    07.11.2017 18:08
    #10426165
    распознавание картинок и в чат ботах(яндекс и майкрософт) есть кое что общее. такое ощущение что если бы это был живой человек, то его можно было бы назвать пьяным или больным на голову. у пьяного что на уме, то и на языке. тут тоже, пьяному может померещится увидеть то чего нет.
    
    Tallefer
    07.11.2017 18:19
    #10426185
    Да, как вариант. Распознавание еще работает, а коррекция уже сбоит и тормозит. :)
1. Hellsy22
  07.11.2017 19:09
  #10426295
  человеку покажи любую черепаху, но узнает в ней черепаху и точно не перепутает с винтовкой
  Почему вы так думаете?
  1. serg_meus
    07.11.2017 21:50
    #10426667
    Я тоже считаю, что человек принципиально не перепутает черепаху с винтовкой. Однажды я играл на смартфоне в шахматы, моя полуторогодовалая дочь мельком глянула на экран, затем вытянула указательный палец и произнесла «Иго-го!». Я был слегка ошарашен, по моему мнению, на сегодняшний день с точки зрения нейросетей способность людей к обучению неотличима от магии.
    
    Hellsy22
    08.11.2017 01:35
    #10426975
    Если вам показать тридцать разных картинок с пикселями, скажем трех разновидностей (т.е. три набора по 10 картинок), то совершенно не факт, что вы сможете вычленить основные признаки и тридцать первый отнести к правильной категории, если все эти предметы не будут иметь никакого привычного вам контекста.

red75prim
07.11.2017 23:09
#10426805
Вот здесь можно посмотреть, на какие паттерны реагируют отдельные нейроны в искусственных сетях.

Первые состязательные 3D-примеры для обмана нейросетей +18

Комментарии (113)

alizar Автор