6–14 декабря 2021 года была виртуально проведена конференция Neural Information Processing Systems (NeurIPS). Это одна из самых влиятельных конференций, собирающих лучших инженеров по ML, дата-саентистов и исследователей искусственного интеллекта со всего света. Это место для обмена информацией об исследованиях нейронных систем обработки информации в их биологическом, технологическом, математическом и теоретическом аспектах.
Так как конференция проходит в декабре, обычно она позволяет получить представление о новых тенденциях в сообществе Data Science на следующий год.
Так какими же будут тенденции в обработке данных на 2022 год? В этой статье я поделюсь основными темами, которые обсуждались на NeurIPS.
Сдвиг в сторону ИИ, для которого главное — это данные
Конференция этого года продемонстрировала сдвиг в сторону подхода к ИИ и машинному обучению, при котором на первое место ставятся данные. Похоже, дата-саентисты достигли точки, после которой настройки алгоритмов и улучшения оборудования уже недостаточно для создания более качественных моделей ML. Сегодня основным «узким местом» в разработке ИИ являются данные, и в течение всей конференции был заметен упор на повышение качества данных.
На NeurIPS появился новый профиль под названием «Datasets and Benchmarks» («Массивы данных и бенчмарки»), отражающий рост популярности подхода к разработке ИИ, главными в котором являются данные. Влияние этой тенденции стало наиболее заметно, когда Эндрю Ын рассказал о соревнованиях по машинному обучению, в которых участники должны настраивать данные, а не модель.
Построение массивов данных и бенчмарков
В других докладах также отразился сдвиг в сторону главенства данных с упором на создание качественных массивов данных. Заявлялось, что самым важным является качество аннотирования данных, а многие докладчики рассказывали о трудностях получения высококачественных наборов данных.
Сообщество разработчиков ИИ имеет чёткое понимание того, как измерять качество моделей. Однако вопрос качества данных до сих пор является неопределённой и плохо исследованной проблемой. Некоторые из докладчиков предложили использовать ошибки массива данных в качестве одного из важнейших показателей качества.
Многие из докладчиков говорили о проблеме сбора данных и пытались внедрить в своей работе передовой опыт: создание чётких инструкций, обучение аннотаторов и тщательный мониторинг процесса. Такие практики необходимы для создания массивов данных, в которых для сбора и аннотирования данных применяются сложные и затратные по времени конвейеры.
Также во многих докладах подчёркивалась важность версионности данных и документирования. Это критически важные шаги для отслеживания информации о массиве данных и об изменениях, вносимых на каждом этапе эволюции массива данных.
Этика использования данных
Внимание к массивам данных на конференции также вызвал споры относительно этики применения данных. Многие модели создавались на основе данных со смещениями, и такие смещения теперь отражены в результатах работы моделей. Докладчики говорили о проблемах, связанных с этим смещением, и предполагали, что подобные проблемы должны устраняться на этапе сбора данных благодаря использованию корректных выборок с включением различных меньшинств, а не настройкой параметров моделей на последующих этапах процесса.
Дальнейшее развитие
В этой статье мы вкратце рассмотрели основные мысли, которые обсуждались на NeurIPS 2021.
В целом, конференция продемонстрировала существенный сдвиг в сторону подхода разработки ИИ, при котором основное внимание уделяется данным. Многие докладчики говорили о данных, их качестве и делились передовым опытом, связанным с этой концепцией.
Похоже, в 2022 году мы увидим ещё больше новостей, касающихся подходов, ставящих на первое место данные. Могу предположить, что мы можем увидеть новые метрики, которые помогут нам оценивать качество массивов данных. Возможно, в ближайшее время станет мейнстримом измерение качества данных аналогично тому, как сегодня мы измеряем качество моделей.