Исследователи из Массачусетского технологического института проанализировали популярные датасеты, которые используются для обучения нейросетей, и обнаружили в них существенное количество ошибок маркировки. Десять датасетов, включая ImageNet, базу данных изображений, используемую для обучения алгоритмов компьютерного зрения, содержат в среднем 3,4% ошибок. Число ошибок варьировалось от чуть более 2,9 тысяч в ImageNet до более 5 миллионов в QuickDraw.
Исследователи проанализировали наиболее часто используемые наборы данных с открытым исходным кодом, созданные за последние 20 лет. В общей сложности они оценили шесть датасетов изображений (MNIST, CIFAR-10, CIFAR-100, Caltech-256 и ImageNet), три набора текстовых данных (20news, IMDB и Amazon Reviews) и один набор аудиоданных (AudioSet).
По оценкам исследователей, у QuickDraw был самый высокий процент ошибок — 10,12% от общего числа меток. Второе место занял CIFAR с примерно 5,85% неверно промаркированных изображений, третье ImageNet с 5,83%. Примерно 4% от набора данных Amazon Reviews промаркировано неверно.
Речь идет о ситуациях, когда, например, одну породу собак путают с другой; отзыв о продукте Amazon маркирован как отрицательный, хотя на самом деле он положительный; звук обозначен как свист, хотя на самом деле он представляет собой высокую ноту в песне.
Предыдущее исследование МТИ показало, что у ImageNet «систематические проблемы с аннотациями». В ходе эксперимента исследователи отфильтровали ошибки в ImageNet и протестировали несколько моделей на исправленном наборе. Исследователи пришли к выводу, что более крупные модели работали на исправленных датасетах хуже, чем нейросети с меньшей емкостью.
«Удивительно, но мы обнаружили, что модели с более низкой емкостью могут быть практически более полезными, чем модели с более высокой емкостью, в реальных наборах данных с высокой долей ошибочно помеченных данных», — указывают авторы исследования.
Кроме того, большое количество ошибок в датасетах делает результаты тестов нейросетей ненадежными. Исследователи выпустили версию каждого датасета с ??исправленными ошибками. Команда рекомендует специалистам по данным измерять реальную точность нейросетей.
cepera_ang
Если вдруг у кого-нибудь возникнет вопрос насколько это важно и новость ли это вообще, то вот примерный контекст, в котором нужно это понимать:
А работа хорошая, полезная, но одна из миллиона других. Ну и вот, для примера, какие там ошибки в ImageNet'e:
Military Сap это или Assault Rifle? Да это ложная дилемма и не решается выбором той или иной метки, а скорее выдачей мультиметок. Важно ли это в большой картине мира? Да не особо, для исследователей — да, чтобы разобраться в тонкостях почему нейронка выбрала тот или иной вариант и как ей помочь учиться, чтобы не штрафовать за подобные "ошибки" и как улучшить процессы разметки на будущее и т.д., для пользователей — "ну учёные что-то там делают, плохо делают наверное, как обычно, вон у них нейросети ошибаются, исследователи из MIT сказали"
mkovalevskyi
тут явная ошибка, надо коммент и статью местами поменять… ;)
cepera_ang
Может и пора уже свои начать писать, но у меня как-то легко пишется в ответ в комментариях, а начисто — не особо.
sshikov
>выдачей мультиметок
А почему мульти? Вот я бы сказал, что на этом фото — шотландский гвардеец, это королевская гвардия Великобритании. На нем медвежья шапка и обычная парадная юниформа, а на плече у него штурмовая винтовка SA-80 (L85A1) в чехле, которую по нашей терминологии скорее всего назовут автоматом, чем она в сущности и является. Ну т.е. по-хорошему, для описания картинки отдельные метки вообще недостаточны сами по себе, а нужна некая семантическая сеть из них, которая описывала бы взаимосвязи, скажем что винтовка на плече, а не стоит у ноги.
cepera_ang
Всё так и даже ещё гораздо больше, современные системы компьютерного зрения могут дополнительно определить позу этого гвардейца, распознать его лицо, посчитать людей на фоне (и их позы и лица и во что одеты), и определить точную координату камеры в момент съёмки (если вон те разбитые кирпичи попадали другим в кадр и эти кадры привязаны к координатам), а ещё выдадут глубину каждой точки, нормали и вообще могут представить весь кадр в виде 3д-меша и описать его в виде связного предложения/графа объектов, как вы правильно и предлагаете.
Но вот что интересно: всё это великолепие стало доступно буквально на днях, последние несколько лет, а ImageNet задумали в 2006 году и сделали и презентовали к 2009. В те годы была неразрешимой даже задача просто классификации, хотя бы назвать единственный объект, снятый отдельно. Всего 10 лет назад, в 2011 году лучшее академическое решение показывало 28% ошибок при условии пяти предсказаний на картинку.
А сейчас мы подошли к пределу этой конкретной задачи и конкретного датасета — лучшие нейросети показывают точность 90% с одной попытки, что и вызвало вопросы — почему не 100% и как улучшить дальше? Ответ на эти вопросы оказался примерно таким — ограничения исходной постановки задачи ("одна метка на картинку") приводят к неопределённости и становятся очевидны ошибки или предвзятость в разметке (например, если на картинке стоит компьютер на столе, то разметчики почти всегда выбирают класс "компьютер", а не "монитор", "клавиатура" или "стол"). Это очень детально обсуждается в работе Гугла, ссылку на которую я выше давал, Imagenet ReaL (и которая релевантно называется "Are we done with ImageNet?").
Как решать? Два пути:
Каждое направление имеет смысл, но и недостатки — с одной стороны, переразмечать миллионы картинок сейчас может уже быть бессмысленно с учётом того, что задача сама по себе уже устаревает, с другой стороны, датасет остаётся важной вехой для сравнения и т.д.
Я сосредоточился на ImageNet'e потому что он мне ближе всех, но в целом рассуждения касаются остальных упомянутых в значительной мере, но с нюансами — какой-нибудь cifar (малюсенькие картинки 32*32 из 10/100 классов) игрушечный, чтобы его переразмечать, MNIST — это уже ходячий мем, как датасет, который настолько смешной размеру и сложности, что ученых стыдят, если его используют не только как smoke test (потому что любой метода даёт точность 99%), а к примеру QuickDraw — вообще натуральные каракули из интернета, никакой принципиальной важности в его идеальной точности — просто нет.
Но если хочется датасетов, где метки практически идеальные — вот есть Danish Fungi 2020 — Not Just Another Image Recognition Dataset, атлас грибов в Дании, проверенный волонтёрами и экспертами и в тестовом наборе имеющий точность 100%, потому что грибы из тестовой выборки не просто визуально оценены, но и класс подтверждён генетическим анализом.
sshikov
Не, ну тут реально нужно пост писать. Хотя я понимаю, что это сложно, ответы на комменты мне тоже даются проще :)
sshikov
>вон те разбитые кирпичи
Это вполне может быть часть Букингемского дворца :)
mkovalevskyi
Грибы — это вам не гвардейцы, они ошибок не прощают.
Другой вопрос, что мы таки тренируем. Бо если формулировка задана как «человеческое зрение», то я вот не очень уверен что среднестатистический человек сможет распознать те 100гб грибов, так что этот датасет тоже может быть не совсем валиден ;)
Это, кстати, вот вопрос. Насколько в этих всех ИИ эмуляторах человечности запланированы ошибки? Ведь людей без них не бывает…