Исследователи из Тюбингенского университета обучили нейронную сеть распознавать изображения, а затем попросили указать, какие части изображений наиболее важны для принятия решения. Когда они попросили нейросеть выделить наиболее важные пиксели для категории «линь» (разновидность рыбы), вот что она выделила:
Розовые человеческие пальцы на зелёном фоне.
Человеческие пальцы на зелёном фоне!
Почему она искала на фотографиях пальцы, когда должна была искать рыбу? Оказалось, что большинство снимков линя в наборе данных были изображениями людей, держащих рыбу в качестве трофея. У неё нет никакого контекста, что такое линь на самом деле, поэтому она предполагает, что пальцы являются частью рыбы.
Нейронная сеть, генерирующая изображения в ArtBreeder (BigGAN) обучалась на том же наборе данных ImageNet, и когда вы просите её генерировать линей, она делает то же самое:
Четыре изображения — белые люди, держащие что-то зелёное и крапчатое. На некоторых изображениях у зелёной штуки более рыбья текстура, но нигде нет чёткой головы и хвоста. Это просто большое рыбье тело. Нижние плавники причудливо смешаны с множеством розовых человеческих пальцев
Люди гораздо более отчётливы, чем рыбы, и меня очаровывают сильно преувеличенные человеческие пальцы.
В ImageNet есть и другие категории с аналогичными проблемами. Вот вам «микрофон».
Четыре изображения с сильно тёмным фоном. Верхнее левое похоже по форме на микрофон с пушистой звуковой перегородкой или головой из седых человеческих волос. Остальные выглядят как люди
Нейросеть распознала контрастное освещение сцены и человеческую форму, но многие изображения не содержат ничего, что отдалённо напоминало бы микрофон. Во многих фотографиях из обучающего набора микрофон — это крошечная часть изображения, которую легко не заметить. Аналогичные проблемы возникают и с маленькими инструментами, такими как «флейта» и «гобой».
В других случаях есть свидетельства, что фотографии неправильно помечены. В этих сгенерированных изображениях «футбольного шлема» некоторые явно изображают людей, не носящих шлемов, а некоторые подозрительно похожи на бейсбольные шлемы.
Четыре сгенерированных изображения. Верхние два — это люди, ни один из которых не носит футбольного шлема (хотя их волосы могут быть немного странными; трудно сказать, так как остальные тоже такие странные). Внизу слева человек носит шлем, похожий на металлический бейсбольный. Внизу справа… внизу справа — футбольный шлем, скрещённый с зубастой мультяшной рыбкой
ImageNet — это действительно грязный набор данных. У него есть категория для агамы, но нет для жирафа. Вместо лошади как категории там щавель (специфический цвет лошади). «Велосипед для двоих» — это категория, а скейтборд — нет.
Четыре изображения, которые явно являются своего рода многоколёсными велосипедными объектами. Колёса имеют тенденцию быть гибкими со странно разъединёнными спицами, и иногда колеса подвисают. Есть люди, похожие на всадников, но их трудно отделить от велосипедов
Главная причина загрязнения ImageNet в том, что база автоматически собрана в интернете. Предполагалось, что изображения фильтруются рабочими на краудсорсинге, которые их помечали, но многие странности просочились. И ужасно большое количество изображений и меток, которые определённо не должны были появиться в универсальном исследовательском наборе данных, и изображения, которые выглядят так, словно попали туда без согласия изображённых людей. После нескольких лет широкого использования сообществом искусственного интеллекта команда ImageNet, как сообщается, удалила часть этого контента. Другие проблемные наборы данных, например, собранные с онлайн-изображений без разрешения или с записей камер наблюдения, были тоже недавно удалены (другие, как Clearview AI, всё ещё используются).
На этой неделе Винай Прабху и Абеба Бирхане указали на серьёзные проблемы с другим набором данных, 80 миллионами Tiny Images. Система вырезала изображения и автоматически присваивала им теги с помощью другой нейронной сети, обученной на интернет-тексте. Вы можете быть шокированы, но в интернет-тексте встречаются довольно оскорбительные вещи. MIT CSAIL удалил этот набор данных навсегда, решив не фильтровать вручную все 80 миллионов изображений.
Это проблема не только с плохими данными, но с системой, в которой крупные исследовательские группы могут выпускать наборы данных с такими огромными проблемами, как оскорбительные выражения и отсутствие согласия на фотосъёмку. Как выразился специалист по этике в технологиях Шеннон Валлор, «для любого учреждения, которое сегодня занимается машинным обучением, „мы не знали” — это не оправдание, а признание». Как и алгоритм, который апскейлил Обаму в белого человека, ImageNet — это продукт сообщества машинного обучения, где существует огромное отсутствие разнообразия (вы заметили, что большинство сгенерированных людей в этом блоге — белые? Если вы не заметили, это может быть связано с тем, что большая часть западной культуры рассматривает белый цвет как цвет по умолчанию).
Требуется много работы, чтобы создать лучший набор данных — и лучше узнать о том, какие наборы данных никогда не должны создаваться. Но эта работа стоит того, чтобы её делать.
barbaris76
Где ещё можно посмотреть этой прикольной дичи?