Пару лет назад выдвигались опасения, что искусственный интеллект очень быстро достигнет уровня, когда его развитие станет неподконтрольным человеку и вдобавок пойдет по экспоненте. С одной стороны, это праздные страхи сторонних наблюдателей. С другой — возникает логичный вопрос: возможно ли это вообще и в какие сроки? Что такое сильный ИИ и в чем его проблема? Почему Европа проигрывает США и Китаю в области ИИ?
Всю эту пачку вопросов мне удалось задать Игорю Пивоварову — генеральному директору и руководителю программного комитета конференции OpenTalks.AI. Это тот случай, когда человек, который глубоко в теме, может на пальцах объяснить, что сейчас происходит в индустрии, и сделать ряд прогнозов (всё как мы любим).
Логично сказать несколько слов про самого Игоря: физик-теоретик, закончил кафедру Квантовой теории поля в МГУ, потом учился в аспирантуре на биофизике. С 15 лет программирует на разных языках (после второго десятка потерял им счет), а в последнее время создает модели для машинного обучения. Кроме того, Игорь всю жизнь был предпринимателем. Самый известный его стартап — «ГемаКор» — компания, которая сделала новый лабораторный диагностический тест свертывания крови. Три года назад ушел из медицины, занимается искусственным интеллектом, в частности конференцией OpenTalks.AI. В роли главного аналитика Центра компетенций НТИ «Искусственный интеллект» при МФТИ Игорь с коллегами выпускает альманах «Искусственный интеллект» по отдельным областям технологий.
Note: не, этим интервью мы не собираемся рекламировать его конференцию, но вот попиарить на его фоне наш акселератор AI-проектов Архипелаг 20.35 очень хотим. Тем более что отбор бесплатный, да еще и подача проектов на него заканчивается. И если вы — профи, то вам по ссылке строчкой выше. А если просто интересуетесь ИИ — приятного прочтения интервью. Игорь — интересный собеседник.
Про сегодняшние задачи для ИИ
— Меня терзают вопросы терминологии. Задачи машинного обучения — математические. Не мешает ли работе то, что в свое время кто-то ассоциировал эти задачи с человеческим мышлением, назвав искусственным интеллектом?
В принципе нет. Хотя в свое время термин привлек к этой области массу внимания.
До этого мир много лет использовал алгоритмическое программирование, когда разработчик жестко задавал логику работы. Теперь же мы пишем алгоритмы, которые учатся в процессе работы. В результате мы видим, что модель делает некое предсказание или принимает решение, но мы до конца не понимаем, почему решение именно такое. В этом смысле модели машинного обучения действительно похожи на человека.
Но сегодняшнее название «искусственный интеллект» — в большей степени маркетинговое, потому что реального интеллекта у этих систем нет.
Профессиональное сообщество предпочитает вместо ИИ использовать термин машинное обучение.
— О каких задачах для ИИ сегодня говорят больше всего?
Я бы выделил два направления.
Практические люди больше говорят о том, что коммерчески работает, — о предсказательной аналитике, распознавании языка, генерации речи, компьютерном зрении. По этим темам есть много публикаций и новостей, например о внедрении камер с распознаванием лиц.
Но параллельно все больше и больше говорят о так называемом сильном или общем ИИ (General AI), который еще не так давно был запретной темой. Это некая пока недостижимая для человечества абстракция — искусственный интеллект, способный превзойти человеческий по всем задачам. Доступные сегодня алгоритмы генерации текста или распознавания лиц — это всего лишь слабый ИИ, способный отвечать на узкие вопросы. Он не способен переключаться между разными задачами: алгоритм, распознающий лица, никогда не напишет текст.
— С чего вдруг сильный ИИ стал запретной темой?
Считалось, что это спекуляция, поскольку это невозможно. Но в последние несколько лет мир снова развернулся к этой идее. Она перестала быть неприличной. О ней всё больше говорят, в том числе в контексте того, что если человечество создаст сильный искусственный интеллект, то столкнется с неизбежными рисками — мы не можем предположить, что после этого произойдет.
— Почему вдруг произошел такой перелом?
За последние 10 лет ситуация поменялась полностью. Сложились одновременно несколько факторов, благодаря которым вся область буквально рванула вверх.
Во-первых, появилось много доступных данных. Соцсети дали возможность обучаться на огромных массивах размеченных самими пользователями текстов и картинок.
Во-вторых, появились дешевые вычислительные мощности и их стоимость продолжает падать. Появились графические ускорители, которые могут параллельно считать сложные вещи, а также удаленные серверы — облака. В итоге стоимость вычислений сильно упала. И это дало возможность считать очень большие модели, которые ранее были недоступны.
Когда я начинал работать с нейронными сетями — в 1995–1996 годах, они состояли из сотен или тысяч нейронов и считались по несколько часов, а сегодня за то же время считают сети из сотен миллиардов весов. И хотя большие модели считать все-таки дорого, это по крайней мере стало реалистично.
В-третьих, развилась концепция открытого ПО. Практически все успешные инструменты машинного обучения опенсорсные. Компании создают свои решения и не просто публикуют результаты, а выкладывают в открытый доступ исходный код, который могут переиспользовать и дописывать другие. Удачные библиотеки подхватывает и переписывает все сообщество, а потом их же использует для своих проектов. Это очень все ускоряет.
Благодаря этим трем факторам появилось много сильных моделей, обученных на большом количестве данных.
Во многих узких областях сейчас достигнуты результаты, сопоставимые с возможностями человека или даже превосходящие его. Например, человек распознает порядка 96% лиц, а лучшие модели — примерно 97,5%.
Увидев наметившееся превосходство моделей в узких областях, сообщество развернулось обратно к идее сильного интеллекта. Появилось ощущение, что теоретически мы можем его сделать. Хотя пока неясно как.
— А что тормозит развитие — доступные вычислительные мощности или алгоритмы?
Они взаимосвязаны. Одно двигает другое и наоборот. Это самоподстегивающаяся система — петля с положительной обратной связью.
В 90-х годах прошлого века мы наблюдали ту же картину с развитием ОС и ростом аппаратных мощностей ПК. По мере совершенствования ОС требовали все больше вычислительных ресурсов, которые росли параллельно. Эти процессы поддерживали друг друга. Нельзя сказать, что именно первично. Все это движется, пока есть спрос и заказчик, который готов за это платить.
— Лично вам какие задачи машинного обучения кажутся наиболее интересными?
Наша небольшая группа занимается вполне прагматическим классом задач, которыми сейчас интересуются практически все крупные компании мира, — предсказательной аналитикой и рекомендательными системами.
Есть теория, что человек — настолько успешный с точки зрения эволюции биологический вид именно благодаря тому, что может строить модели окружающей реальности, и, прогнозируя, что будет дальше, выбирать оптимальный вариант действия.
Предсказательная аналитика — как раз об этом, о возможности прогнозировать в пространстве и времени, чтобы в соответствии с прогнозом двигаться дальше. Сегодня если крупная компания быстро растет, значит, скорее всего, она использует предсказательную аналитику. И мы делаем такие прогнозы для себя в своей области.
А параллельно мы ведем работу по разработке новых моделей в области сильного ИИ.
— А вы можете дать прогноз, когда у нас будет сильный ИИ?
На эту тему есть очень много разных прогнозов. Кто-то считает, что уже через 7 лет, а кто-то — что в течение ближайших 50 лет мы ничего не увидим. Проблема в том, что никто не знает, что это конкретно такое. Все определяют по-разному, и в зависимости от определения строят свои оценки.
Если мы определяем сильный ИИ как условный мегаинтеллект, который способен решить любые задачи в мире лучше, чем человек, то я думаю, что такой ИИ мы увидим в лучшем случае через 30–50 лет, если вообще увидим. Если же определить более узко, например, представив машину, которая сможет решать большинство задач, которые решает человек, лучше человека, то этого вполне реально достичь в ближайшие 10–20 лет.
Про Россию, Европу и законодательство
— Каково место России в мире в этом сегменте? И кто вообще у нас двигает эту отрасль?
К сожалению, у нас сейчас огромное отставание. В начале года в своем альманахе «Итоги 2019 года» мы сделали попытку оценить положение России. По нашим оценкам, Россия занимает примерно 25–30-ю позицию. Безусловными лидерами в этом сегменте являются США и Китай, они идут примерно на равных, при том что в США сильнее технологии, а в Китае — больше данных, необходимых для обучения алгоритмов. В этих странах находятся сильнейшие компании мира — Google, Facebook, Alibaba и прочие.
В России это направление двигают только большие компании. Самая сильная — однозначно «Яндекс», но есть еще много игроков — «Лаборатория Касперского», ABBYY, Сбербанк.
А вот наука в университетах и научных учреждениях финансируется до сих пор катастрофически плохо, так что многие сильные специалисты уехали и работают не в России.
— Несмотря на отставание, у нас активно говорят про законодательное регулирование этой отрасли. Как вы считаете, оно нужно?
Общество, конечно, хочет как-то контролировать потенциально опасные вещи. Но я думаю, что это ни к чему не приведет.
Попытка стандартизировать и регулировать на данном этапе — это потеря времени, поскольку сама область развивается намного быстрее, чем законодатели на это реагируют.
Но такая активность ведется, и не только у нас. В первую очередь из-за того, что ИИ — технология «двойного назначения». Она может использоваться во благо, а может нести в себе опасность. Так что законодатели пытаются это регулировать.
— Сообщество, которое развивает ИИ, как-то участвует в обсуждении нормативных документов?
Не совсем. Есть большие заметные компании, которые работают на государственном уровне с большими государственными контрактами, — они вынуждены включаться в это регулирование. Маленькие группы, наоборот, выступают против любого регулирования, поскольку для них оно ухудшает ситуацию.
— Именно ухудшает?
Регулирование — это хорошо теоретически. Но практически оно идет вразрез с бизнесом и с успешностью компаний, которым нужны данные.
Есть наглядный пример.
На мой взгляд (как аналитика и наблюдателя за рынками), Европа сильно проигрывает Америке и тем более Китаю в области искусственного интеллекта, потому что там в свое время был принят GDPR — закон о защите персональных данных.
Он совершенно разрушил перспективы европейских компаний в области машинного обучения, потому что сильная защита данных, в частности персональных, автоматически лишает компании возможности получить доступ к большим данным и обучать на них свои алгоритмы.
В Китае более спокойное отношение к правам человека на его данные. Поэтому китайские компании имеют возможность оперировать большим количеством данных. В этом смысле у них колоссальное преимущество.
Обучение ИИ и проблема данных
— Уровень вхождения в машинное обучение падает. Появляются конструкторы, доступные рядовым школьникам. Конечно, их модели дают не такие хорошие результаты. Не дискредитирует ли это машинное обучение?
Да, технологии становятся доступнее. Меньшими силами можно делать то же самое и ставить в реальную работу. Но то, что такие конструкторы сейчас доступны школьникам, не означает автоматически, что их самые простые смешные модели становятся на ключевые места в работающих бизнесах. Модель, которую сделал школьник для урока информатики, банк не поставит себе в продакшен. Очевидно, что прежде чем использовать любую модель, необходимо провести большое количество тестов на надежность, нагрузку, некорректные данные и т.п. И эта работа ведется во всех компаниях.
— Можно протестировать нагрузку. Но можно ли как-то проверить, на корректных ли данных обучалась модель?
Прямой ответ — нет, над этим сейчас многие работают. К сожалению, все понимают, что если система обучена на плохих недостаточно сбалансированных данных, то и результаты она будет выдавать несбалансированные. Это как человек: если в школе ему попался плохой учитель, который не знает предмет, то ничему хорошему он не научит. Поэтому сейчас многие компании собирают аккуратные правильные датасеты. Это отдельные большие вложения. И этим надо заниматься.
— А есть примеры именно злонамеренного использования несбалансированных датасетов?
В исследовательских целях такие вещи делали. Но в реальности я слышал только об истории, с которой вообще началось обсуждение некорректных датасетов.
Несколько лет назад в США, где уже активно работают алгоритмы машинного обучения в разных областях, был случай в штате Флорида, связанный с формированием проекта судебного решения.
Обученный на 7000 дел алгоритм формировал для чернокожих заведомо более строгие приговоры.
Судья же в большинстве случаев соглашался с предложением. Заметил это журналист из ProPublica, который после разбирательств выяснил, что исторические данные выявляют больший процент рецидивов у чернокожих.
Здесь встает моральная дилемма — с одной стороны, такое решение статистически обосновано, а с другой, получается некорректным для конкретного человека: приговор ему выносят не на основании совершенных им действий, а на основании смещенной в одну из сторон исторической выборки. Скандал усугубился тем, что компания Northpointe, создавшая этот коммерческий алгоритм, отказалась раскрывать подробности.
Этот случай вызвал целую серию дискуссий о том, что данные должны быть сбалансированы. Но никаких готовых рецептов, как подготовить данные и убедиться в том, что они корректны, нет. И это большая проблема машинного обучения. Нет способа доказать, что система будет давать правильный ответ. Результаты ее работы все равно будут вероятностными.
— Можно ли как-то еще «сломать» алгоритм, кроме как подсунув ему некорректные данные?
Есть много способов атаковать алгоритмы. Например, можно сконструировать такой тип входной информации, который обманет обученную сеть. То есть зная использующийся алгоритм распознавания лиц, можно нанести на кожу раскраску или надеть специального вида очки с цветными вставками, чтобы нейронная сеть «сломалась» — не распознала лицо.
— В перспективе машинное обучение во многих отраслях заменит человека. Какие профессии не выдержат этой конкуренции?
Считается, что в первую очередь будут автоматизированы и роботизированы все рутинные процессы — любые алгоритмические работы, вроде сборки на конвейере. В последнюю очередь будет автоматизироваться работа, связанная с креативом и творчеством.
Кстати, считается, что программирование — это творческая задача. Но уже есть системы, которые пытаются автоматически писать код, решающий некую задачу. Нельзя сказать, что там 100% результат. Но чем более механическая работа, тем больше риск, что она будет заменена на алгоритм машинного обучения.
При этом надо понимать, что объем всего труда на земле — не константа.
Грубо говоря, если 30% сегодняшнего трудового ресурса автоматизировать, это не приведет к тому, что 30% людей останутся без работы.
Появится множество новых типов работы — например, воспитатель роботов, только нужно будет успевать на них переучиваться. Вопрос в том, успеет ли система образования подготовить таких людей.
Я думаю, что необходимость перестраивать систему образования, которая очень консервативна и не хочет меняться, — это настоящий вызов для человечества. Гораздо больший, чем замена отдельных профессий алгоритмами.
И самые драматические изменения ждут нас именно здесь. И у России есть шанс — у нас всегда было хорошее образование, но в последние годы его качество сильно упало. Я бы бросил сейчас все силы на образование — это ключ к успешному будущему.
Dabbuger
"… Я бы бросил сейчас все силы на образование — это ключ к успешному будущему."
Тем кто может изменить это будущее — менять его не хочется.
ip17
Это печальная правда. Я принимал участие в разработке Нац стратегии по ИИ как эксперт и мы много усилий сделали, чтобы образование выделить в приоритетное направление. Но в результате многочисленных межведомственных согласований практически всё выбросили… Но мы сами делаем маленькие образовательные программы для бизнеса и это очень востребовано!) Если государство в целом не делает правильных движений, это не означает, что каждый из нас не может сделать правильных движений))) Все в наших руках!)