Imagenet Challenge — международный конкурс для систем распознавания образов. По условиям, компьютерная программа должна распознать и классифицировать ряд объектов на цифровых изображениях, определив одну из 1000 тематических категорий.

В соревновании участвуют многие крупные компании, которые выделяют большие бюджеты на подобные разработки. Поэтому новость о читерстве китайской компании Baidu вызвала настоящий скандал: говорят, это первый случай мошенничества в сфере разработок систем искусственного интеллекта. В результате, Baidu исключена из соревнований Imagenet на следующий год.

Imagenet Challenge сравнивают с тестом Тьюринга для систем ИИ, хотя здесь задача состоит не в осмысленном разговоре, а в распознавании образов. Но это тоже очень важная задача для ИИ.

В научной статье инженеры Baidu описывают суперкомпьютер, который якобы показывает лучший результат в распознавании объектов, чем предыдущие разработки, в том числе от Google и Microsoft. Китайцы заявили, что их программа показывает рекордно низкий уровень ошибок 4,58%, тогда как у Google этот показатель составляет 4,82%, а у Microsoft — 4,9%.

Baidu разместила публикацию на сайте Arxiv.org в электронном виде. На этом сайте статьи публикуются без предварительной проверки. Ситуация усугубилась тем, что через пару дней новость о «достижении» китайских инженеров перепечатало издание MIT Technology Review и другие научные издания. Только через три недели факт читерства был вскрыт, а статью обновили.

Расследование показало, что Baidu зарегистрировала как минимум 30 аккаунтов для участия в конкурсе Imagenet Challenge и за последние полгода внесла более 200 заявок с результатами, в том числе более 40 заявок в течение пятидневного отрезка в марте 2015 года.

Компания Baidu позже принесла публичные извинения за свой поступок.

Эта история ещё раз показывает, что исследования в сфере распознавания образов сейчас являются одним из главных направлений в ИТ, если даже крупные компании не стесняются использовать такие уловки, чтобы выставить себя впереди конкурентов.

Комментарии (12)


  1. k12th
    16.06.2015 09:04

    Зачем, интересно, это Baidu? Ими до сих пор невозможно пользоваться без знания китайского, не все ли им равно, как белые дьяволы на них смотрят?


    1. igordata
      16.06.2015 10:40
      +3

      А зачем Газпрому социальная реклама, из которой выясняется, что свет и тепло в наших школах ещё не угасли только благодаря ему?


      1. ChiefPilot
        16.06.2015 10:52
        +1

        Может быть, затем, чтобы народ расплывался в умилении и не поднимал бучу из-за размеров их небоскрёбов и зарплат руководящего состава?


      1. k12th
        16.06.2015 10:53
        +6

        Ну вот представьте, что Газпром крутит свою рекламу в Китае.


        1. bazilxp
          16.06.2015 11:55

          Да да =) очень своеобразный поисковик, нужен сезам откройся =) Без волшебного слова никуда


  1. mariner
    16.06.2015 12:54
    +9

    так а в чем читерство-то?


    1. wtigga
      16.06.2015 13:04
      +7

      Я тоже не понял. Всё читал и ждал, когда же расскажут, как вместо ИИ было 50 (500, 5000, 50к) китайцев, которые распознавали образы вручную…


    1. Hottaby4
      16.06.2015 13:08
      +1

      Думаю, по правилам, должен быть один аккаунт. А они сделали кучу, а в качестве своего достижения указали лучший.


    1. barmaley_exe
      17.06.2015 01:21
      +1

      В алгоритмах, которые лежат в основе этой и подобных работ очень много разных параметров. Например, способ инициализации начального приближения (границы для равномерного распределения или среднее и отклонение для нормального) или даже seed генератора псевдослучайных чисел. Путём варьирования этих параметров можно улучшить качество алгоритма (уменьшить ошибку), однако стоит быть осторожным, ведь уменьшение ошибки не влечёт низкую ошибку на новых данных: действительно, всегда можно просто запомнить ответы для данных, для которых ответ известен, и выдавать его, а на остальных данных выдавать что-нибудь произвольное. Ура — ошибка стала нулевой, но, очевидно, для практических целей такой алгоритм не очень годится (по крайней мере в задачах компьютерного зрения).

      К сожалению, данных для тестирования всегда конечное число, а нам хотелось бы, чтобы алгоритм хорошо работал на бесконечном множестве «таких же» данных (генеральной совокупности). Поэтому, чтобы не обмануть самих себя, не следует подбирать параметры на тестовых данных. Для того, чтобы исследователи не использовали систему оценки ImageNet как «оракул», выдающий качество модели, для оптимизации, было введено ограничение на количество запросов (в неделю, кажется). Ребята из Baidu же завели несколько аккаунтов и обошли это ограничение.


  1. progman_rus
    16.06.2015 13:12
    +7

    Какой то куцый перевод.
    В оригинале пишут про какие то внутренние правила — типа они кол-во запросов радикально превысили. тем самым получив преимущество перед другими командами.


    1. Lorien_Elf
      16.06.2015 14:53
      +9

      A — Ализар. Даже не попытался вникнуть в суть новости.

      To make this clear, by exploiting the ability to test many slightly different solutions on the test server it is possible to
      1) select the best out of a set of very similar solutions based on test performance and achieve a small but potentially significant advantage and
      2) choose methods for further research and development based directly on the test data instead of using only the training and validation data for such choices.


  1. excoder
    20.06.2015 14:22

    Andrew Ng не очень здорово сейчас, наверное.