Искусственный интеллект давно перестал быть темой только для исследовательских лабораторий. Он уже пишет код, редактирует изображения, помогает бизнесу, спорит с нами в чатах и постепенно превращается в новый слой интерфейса между человеком и цифровым миром. Но за громкими словами «нейросеть», «сильный ИИ» и «агент» часто теряется главное: что именно мы автоматизируем, где заканчивается маркетинг и почему искусственный интеллект может оказаться не угрозой, а способом не погибнуть от собственных технологий.

Я, Александр, автор телеграм-канала «Shulepov Code», поговорил с Сергеем Марковым — директором по развитию технологий искусственного интеллекта Сбера, автором сайта «markoff.science»  — о том, как устроена профессия ИИ-разработчика: от первых шахматных программ до мультимодальных моделей, почему за генеративными нейросетями будущее и как не потерять человеческое лицо в гонке алгоритмов.  

Путь в ИИ: от Реверси и шахмат до общего искусственного интеллекта

Александр: Сергей, расскажите, как вы пришли к работе, связанной с искусственным интеллектом.

Сергей: Это была дорога длиною в жизнь. Я из семьи потомственных программистов: мой отец тоже был программистом. Впервые он взял меня с собой на завод «Научприбор», где работал заместителем начальника отдела, и посадил за компьютер. Мне было лет шесть или семь.

Александр: Какой это был год?

Сергей: Примерно 1986, 1987 или 1988 год – сейчас уже трудно установить точно. Сначала я, конечно, играл. Потом отец очень правильно сформулировал мысль: играть интересно, но ещё интереснее самому делать игры. В юности я начал заниматься разработкой игр, параллельно увлекался шахматами и настольными играми. В старшей школе мы с моим товарищем Андреем Федичкиным писали искусственный интеллект для Реверси, стравливали наши программы друг с другом и смотрели, кто победит. В институте я продолжал хобби-проекты, связанные с искусственным интеллектом для игр. У меня была айтишная специальность: я учился в Орловском государственном техническом университете по направлению «Информационные системы в экономике». Уже в институтской программе был отдельный предмет «Искусственный интеллект».

Александр: Уже тогда?

Сергей: Конечно. Сам термин «искусственный интеллект» очень заслуженный: в печатных документах он впервые встречается ещё в 1955 году. Более того, Алан Тьюринг в 1940-е годы использовал термин «машинный интеллект», который по смыслу в данном случае близок. Мечтам людей об автоматизации интеллектуальной деятельности вообще много тысяч лет: если обратиться к мифологии, мы найдём немало сюжетов о создании думающих машин или искусственных существ.

Александр: Что специалисты вообще понимают под искусственным интеллектом?

Сергей: Когда специалисты говорят об искусственном интеллекте, они имеют в виду область науки и технологий, которая занимается автоматизацией решения интеллектуальных задач. Если есть задача, которую человек решает «головой», и мы создаём инструмент, способный помочь её решить или при определённых условиях заменить человека в её решении, – это и есть искусственный интеллект. Границы возможного постоянно сдвигаются. В 1950-е годы все мечтали об искусственном гроссмейстере, который будет играть в шахматы на уровне лучших людей. Сегодня такой системой никого не удивишь.

Александр: Шахматная программа – это искусственный интеллект? Или это просто набор сценариев?

Сергей: Это распространённое заблуждение: будто система, основанная на правилах, не является ИИ. На самом деле является. С помощью систем на правилах было решено множество сложных интеллектуальных задач, в том числе шахматы на сверхчеловеческом уровне – по большому счёту без алгоритмов машинного обучения. Граница между системами на правилах и системами машинного обучения довольно условна. В основе машинного обучения тоже лежат правила и уравнения, по которым оптимизируются параметры системы. В некотором смысле искусственную нейросеть тоже можно представить как набор правил, только эти правила вырабатываются в процессе обучения.

Александр: Но ключевое слово всё-таки «интеллект». В моём понимании интеллект думает, а в шахматной программе будто заранее прописаны сценарии.

Сергей: Шахматные программы не работают по заранее забитым сценариям партии. У них могут быть дебютные библиотеки, но они заканчиваются, и дальше начинается анализ. Классические шахматные программы анализируют возможные альтернативы развития позиции на доске. В 1997 году Гарри Каспаров проиграл Deep Blue, но тогда для победы над чемпионом мира потребовался специальный суперкомпьютер, анализировавший примерно 200 миллионов позиций в секунду.

Александр: Тогда что такое интеллект? Есть правильное определение?

Сергей: Спор об определениях заведомо бессмысленный: определений интеллекта в науке сотни. Именно поэтому при определении искусственного интеллекта удобнее отталкиваться не от «интеллекта», а от «интеллектуальной задачи». Если человек может решить задачу только с применением мозга, это интеллектуальная задача. Они бывают разной сложности, и то, что сегодня кажется примитивным, раньше могло быть технологическим пределом. Есть эффект искусственного интеллекта, его также связывают с Памелой Маккордак: как только задачу удаётся решить технологически, люди перестают считать её интеллектуальной. В 1950-е электронный гроссмейстер считался бы настоящим ИИ. После победы Deep Blue многие стали говорить, что он «просто быстрый».

Александр: Кто закладывает варианты в шахматную программу?

Сергей: Никто не закладывает все варианты. Программа знает правила шахмат и сама генерирует цепочки ходов из анализируемой позиции. Но если бы она перебирала вообще все возможные цепочки, то думала бы над каждым ходом миллиарды лет. Поэтому реальные шахматные программы анализируют подмножество траекторий: одни варианты глубже, другие отбрасываются раньше. В классических системах этим управляли эвристики, в современных большую часть таких правил вырабатывают нейросети, обученные на большом количестве партий.

Александр: Человек – продукт среды?

Сергей: И да, и нет. Наша биология в значительной степени предопределена наследственностью, а затем наследственность взаимодействует со средой. Мы не пластилин, из которого среда может вылепить что угодно. В живой природе есть примеры узкой специализации: пчела с гораздо более простой нервной системой может лучше человека решать задачу маршрута. Долгое время так работали и системы ИИ: за счёт специализации они превосходили человека в отдельных задачах. Сегодня модели вроде Гигачата или ChatGPT уже менее узкие, но до общего искусственного интеллекта, способного решать неопределённо широкий спектр задач, ещё нужно серьёзно доработать.

ИИ – это не «магия мышления», а автоматизация интеллектуальных задач. 

Системы на правилах тоже относятся к ИИ; нейросети лишь меняют способ получения этих правил.

Гигачат, генеративные модели и российская гонка за мультимодальностью

Александр: Правда ли, что Гигачат чуть-чуть не успел выйти раньше ChatGPT?

Сергей: И да, и нет. Генеративные трансформерные модели были у многих: у OpenAI, Google, DeepMind, китайских исследовательских компаний, у команды Марка Цукерберга и других. Мы тоже не были исключением: генеративными трансформерами занимались примерно с 2018 года. Специалисты знали о GPT-2, GPT-3 и возможностях трансформеров, но чаще воспринимали их как продолжатели текста или «болталки». Важная смена парадигмы состояла в том, что диалог стал универсальным интерфейсом для интеллектуальных задач. Второй фактор – смелость публичного запуска: крупные корпорации боялись репутационных рисков, а OpenAI тогда рисковала меньше.

Александр: Могли ли вы выпустить раньше?

Сергей: Технически у нас была ruGPT-3.5, и мы вышли через несколько месяцев после старта ChatGPT. Нам потребовалось время, чтобы написать интерфейсы, доделать инструктивный датасет и провести эксперименты. Модель была меньше и проще, чем у OpenAI, но Гигачат сразу вышел с важной особенностью: он умел рисовать. Пользователь мог попросить: «Нарисуй картинку», а под капотом языковая модель формировала запрос к Kandinsky.

Александр: Kandinsky сильно вырос. Сейчас и пальцы уже рисует лучше.

Сергей: Недавно вышла очередная версия Kandinsky, мы активно занимаемся и видеогенерацией. В обработке изображений важный проект – Malvina, встроенная в Гигачат. Это модель, которая позволяет редактировать картинку с помощью инструкций: убрать объект с фотографии, заменить зиму на лето, изменить человека и так далее. Подобные технологии развивают несколько лабораторий в мире, и в ряде тестов нам есть чем гордиться. Но темпы прогресса такие, что через пару месяцев многое устаревает.

Александр: Вы видели Veo 3 от Google? Что скажете?

Сергей: Это серьёзный прогресс в генерации видео. Если вспомнить, что первая нейросеть, способная рисовать картинку по произвольному текстовому запросу, появилась всего несколько лет назад, нынешний уровень выглядит впечатляюще. В видео прогресс ещё быстрее: совсем недавно сгенерированный ролик, где Уилл Смит ест спагетти, выглядел абсурдно, а сегодня уже появляются очень реалистичные результаты.

Александр: Такие достижения вас подстёгивают?

Сергей: Надо сразу делать лучше. Если вы будете делать так же, вы уже отстаёте. Поэтому мы думаем не только о генерации картинок, а о том, что людям на самом деле нужно от генерации. Люди решают задачи создания контента. Им часто нужно не просто получить картинку по тексту, а улучшать результат, опираться на референсы, работать в корпоративном стиле, менять детали, как при взаимодействии с дизайнером. Мы вступаем в эру интерактивного искусственного интеллекта. Одиночной генерации недостаточно: нужен сценарий, в котором человек вместе с системой улучшает контент. Именно поэтому так активно развиваются агентные системы.

Александр: А чем вы сейчас занимаетесь?

Сергей: Многим. Мы совершенствуем уже существующие модели и системы, активно занимаемся мультимодальными моделями, которые работают с изображениями, видео, текстом, звуком. Из последних крупных опубликованных проектов – Malvina и SymFormer X, модель для генерации музыки и пения, аналог Suno и Udio. Ей можно задать текст и стиль – например, хард-рок или новоорлеанский джаз, – и получить музыкальную генерацию.

Александр: Как выглядит ваш рабочий день?

Сергей: По-разному, но обычно в день входит от пяти до десяти созвонов: с руководством, подчинёнными, смежными командами. Команда большая, а технологическая команда Сбера ещё больше. Мы обсуждаем эксперименты, статьи и результаты. Создание нейросетевой модели похоже на строительство дредноута: датасеты, краулеры, очистка данных, разметка, обучение на кластере, бенчмаркинг, статьи, найм и планирование ресурсов.

Александр: Вы давно работаете в Сбере? Какая была первая должность?

Сергей: В Сбере я с 2012 года. Первая должность называлась «главный специалист», но это мало что говорит. Почти с самого начала я работал руководителем небольших групп и всегда был играющим тренером: сам писал код, участвовал в олимпиадах ещё в школе.

Александр: Сейчас пишете код?

Сергей: Да, до сих пор пишу. Не очень много, но иногда нужно быстро показать прототип. Основной инструмент сейчас – Python, потому что он наиболее популярен в машинном обучении. В разные периоды я много писал на C, C++, JavaScript, Java, C#, ассемблере, Basic. Моя шахматная программа Smart Ink написана на C с ассемблерными вставками, это проект примерно на 140 тысяч строк кода.

Александр: GigaChat поможет с кодом?

Сергей: Да. Кроме Гигачата есть специализированная система GigaCode: она встраивается в IDE как плагин и помогает писать код – и в диалоговом режиме, и как умная автоподсказка. Модели дообучены специально на задачи, связанные с кодом.

Александр: Как вы росли внутри Сбера?

Сергей: Я двигался горизонтально и вертикально внутри большой команды. В 2019 году возглавил управление экспериментальных систем машинного обучения во вновь созданном департаменте SberDevices. Сейчас моя должность звучит как директор по развитию технологий искусственного интеллекта. Полная формулировка длиннее: там есть и управляющий директор, и руководство управлением экспериментальных систем машинного обучения.

Александр: Какая сложная или запомнившаяся задача с нейросетями была для вас особенно интересной?

Сергей: Если судить по радости, то первые диалоговые системы. В 2019 году, когда мы занимались диалоговыми системами для «Салюта», доминировал retrieval-подход: большая база заранее заготовленных фраз, из которых система выбирала подходящую. Это считалось более безопасным, потому что в базе нет крамольной фразы – значит, система её не скажет. Но это скучно, разнообразие ответов ограничено. Мы хотели уйти к генеративной модели. Первую экспериментальную сетку делали на основе ruGPT-3. Возникали практические вопросы: если раскатать её на миллион пользователей, где взять столько железа? Если сделать сетку меньше, не будет ли она глупой? Мы начинали с модели на 760 миллионов параметров – тогда это было много. Сейчас 13 миллиардов параметров уже называют мини-моделью. Проект развивался почти полуподпольно: мы сами размечали диалоговый датасет, дообучали модель и подбирали параметры. Она уверенно галлюцинировала – например, рассказывала о «рыбе пупс» в Тихом океане, – но такие ошибки помогали понять, как модель работает.

Александр: До Kandinsky были другие модели?

Сергей: Изначально модель называлась RuDALL-E, первая версия – Malevich. За первую неделю сервисом воспользовались около 12 миллионов человек, GPU не хватало, но сама возможность получить изображение по тексту была новой и вызывала фурор.

Александр: Почему у нейросетей долго была проблема с пальцами?

Сергей: Не только с пальцами, а с любыми счётными предметами. Глаза – их два, а пальцев больше. Чем больше однотипных объектов, тем труднее модели их корректно посчитать. Архитектуры нерекуррентные, количество слоёв фиксировано, сигнал распространяется от входа к выходу и не возвращается назад. У сети в какой-то момент наступает «ой, всё». Сейчас стало лучше: модели стали больше, датасеты чище, режимы обучения сложнее. Но попробуйте попросить любую современную модель нарисовать точное количество однотипных предметов или звезду с заданным числом концов – начиная с некоторого числа она снова начнёт ошибаться.

Главный сдвиг ChatGPT был не только в модели, а в понимании диалога как универсального интерфейса для задач.

Будущее генерации – не разовая картинка по промпту, а интерактивное редактирование, референсы, корпоративные стили и агентные сценарии.

Матрица, симуляция и границы проверяемых гипотез

Александр: В одном из подкастов вы говорили, что мы живём в симуляции. Можете раскрыть эту мысль?

Сергей: Это в значительной степени шутка. Проблема таких концепций в том, что их нельзя ни подтвердить, ни опровергнуть. Это похоже на гипотезу солипсизма: можно заявить, что всё существует только в моей голове, и никакой аргумент не сможет окончательно это опровергнуть. В науке такую гипотезу называют нефальсифицируемой. Аргумент Ника Бострома про множество вложенных виртуальных миров на первый взгляд красив, но в нём есть дыра: внутри вселенной нельзя симулировать вселенную, равномощную исходной. Виртуальная машина не бывает производительнее компьютера, на котором работает. Поэтому мы начинаем считать не однотипные объекты. Для фантастики тема отличная, для науки – слишком плохо проверяемая.

Александр: В фильме «Матрица» есть доля правды?

Сергей: Я не очень люблю «Матрицу», потому что она сильно вторична по отношению к Станиславу Лему – его фантоматике и «Футурологическому конгрессу». Концептуально фильм мало добавил к фантазиям о симуляции. Это боевик с пафосом, хотя посмотреть его, конечно, можно. Идея использования людей как батареек сомнительна. Человеческое тело действительно излучает тепло и генерирует физические поля, но атомный реактор как источник энергии всё-таки лучше.

Александр: У человека есть биополе? Он излучает энергию?

Сергей: Термин «биополе» из области мистики и плохо определён. Физические поля, конечно, есть: мозг генерирует электромагнитное поле, его можно регистрировать. Человек излучает тепловую энергию. Но если говорить о «биополе» как о мистическом понятии, это уже не научный язык.

Александр: А мысли откуда берутся?

Сергей: Из головы. Есть теории о том, что мысли «приходят откуда-то», но с научной точки зрения мы говорим о процессах в мозге.

Гипотеза симуляции интересна как философия и фантастика, но плохо работает как научная теория.

В разговоре об ИИ важно отделять проверяемые утверждения от мистики и красивых метафор.

Нейросети, Гигачат, DeepSeek и вопрос «сделать свой ChatGPT»

Александр: Чем искусственный интеллект отличается от нейросетей?

Сергей: Искусственный интеллект – большая область. Внутри неё есть машинное обучение. Внутри машинного обучения есть разные математические модели, и нейросети – один из классов таких моделей. Не любая система ИИ основана на машинном обучении, и не любое машинное обучение – нейросети. Упрощённо: нейросети – часть машинного обучения, машинное обучение – часть ИИ.

Александр: Где сегодня уже есть искусственный интеллект? Например, Яндекс.Карты – это ИИ?

Сергей: Конечно. ИИ есть в картах, поисковых системах, смартфонах, где нейросеть улучшает фотографию, в голосовых ассистентах, шахматных программах, системах рекомендаций. Часто пользователь даже не знает, какая конкретно модель работает под капотом.

Александр: Что такое Гигачат? Это аналог ChatGPT или что-то другое?

Сергей: Мы не знаем всех деталей устройства ChatGPT, потому что OpenAI, несмотря на название, не так уж open. Но с высокой уверенностью можно сказать: ChatGPT – это генеративная трансформерная модель, предобученная на большом количестве текстов, затем дообученная работать в диалоговом режиме. Гигачат – тоже большая генеративная трансформерная модель, обученная на большом количестве текстов и дообученная общаться с людьми. Различия – в архитектуре конкретной нейронной сети, наборах данных, алгоритмах обучения и миллионах инженерных деталей. Похожесть Гигачата на ChatGPT – примерно как похожесть двух автомобилей разных марок.

Александр: Вы используете ChatGPT?

Сергей: Иногда да, хотя сейчас чаще использую Гигачат. Также смотрю на другие модели: DeepSeek, LLaMA, Qwen, Mistral.

Александр: В чём феномен DeepSeek? Почему о нём говорили как об «убийце ChatGPT»?

Сергей: Достижение DeepSeek действительно большое, но вокруг него было много газетной истерики. Во-первых, это открытая модель с открытыми весами, одна из лучших среди open-source-моделей. Она обходит большинство открытых моделей в бенчмарках, хотя в целом уступает ChatGPT; в отдельных классах задач может быть сильнее. Главное – сократился разрыв между открытыми и проприетарными моделями. Команда DeepSeek проделала сильную инженерную работу и хорошо оптимизировала обучение и инференс. А разговоры о «7 миллионах долларов» – подмена понятий: финальный прогон обучения не равен полной стоимости разработки.

Александр: Чего не хватает Гигачату, чтобы конкурировать на том же уровне?

Сергей: Всего понемногу: вычислительных мощностей, людей, медийного эффекта. DeepSeek выстрелил в том числе из-за нарратива: «китайская технологическая гонка», «Китай догоняет США». Региональное соперничество сейчас сильно влияет на западную прессу. Если бы кто-нибудь в Кремниевой долине написал, что российский Гигачат научился редактировать картинки с попиксельной точностью и писать музыку, об этом, возможно, тоже заговорили бы шире. Маркетинг важен, но технологический gap тоже есть. У нас меньше вычислительных мощностей, чем у западных коллег. С кадрами ситуация тоже сложная: математическая школа сильная, разработчики сильные, но на Западе зарплаты выше, и утечка мозгов существует. Санкции тоже мешают: мы научились их частично преодолевать, но они создают задержки. Это не оправдание – мы ставим амбициозные цели и хотим выбиться в лидеры.

Александр: Для российского рынка Гигачат часто удобнее. Почему DeepSeek так любят, а свой продукт меньше?

Сергей: Есть эффект «нет пророка в отечестве своём». Китайцы тоже любят DeepSeek не так, как его любят у нас или в США. В Китае около двадцати проектов по созданию собственных языковых моделей с нуля. В России таких проектов один-два. Поэтому важно не подсаживаться полностью на чужие технологии: если завтра не выйдет новый Qwen, а своей команды, способной с нуля сделать топовую LLM, нет, это проблема.

Александр: Как сделать аналог Гигачата в компании, если вы не Сбербанк и у вас нет таких ресурсов?

Сергей: Всё зависит от требований к «аналогу». Можно ли сделать аналог iPhone? Можно. Но будет ли случайный Android-телефон аналогом iPhone – вопрос критериев. Чтобы сделать копию Гигачата один в один, нужен большой вычислительный кластер для обучения модели с нуля. В России таких кластеров немного. Кластер – это машинный зал со стойками, вычислительными модулями, GPU, быстрыми каналами связи, питанием и охлаждением. При обучении больших моделей сеть между узлами почти так же важна, как сами вычислители.

Александр: Нужно ли вообще делать свой Гигачат или лучше взять готовую модель?

Сергей: Для многих задач достаточно open-source-модели или готового сервиса. Нулевой шаг – придумать способ оценки: хорошо система решает задачу или плохо. Нужен бенчмарк, набор тестов. После этого попробуйте публичные решения. Если справляются – используйте их. Если нет, начинайте улучшать. Сначала стоит работать с промпт-инженерией, затем – с агентными пайплайнами: сгенерировать варианты, отобрать лучшие, раскритиковать, улучшить. Если и этого мало, можно переходить к дообучению модели.

Александр: А если речь о картинках – например, страховая компания загружает фото ДТП и хочет оценить стоимость ремонта?

Сергей: Я бы начал с прямого теста: хорошо ли готовая VLM справляется с задачей. Скорее всего, напрямую оценивать стоимость она будет плохо. Тогда можно разбить задачу: пусть VLM сначала перечислит видимые повреждения, а затем этот список сопоставляется с прайсом и правилами расчёта. То есть нужно поручить модели то, что она умеет делать хорошо, а вокруг написать программную логику. Если повреждения распознаются плохо, можно дообучать VLM на данных страховой компании: фотографиях, списках повреждений, результатах экспертизы и стоимости ремонта. Для сравнительно небольшой модели это можно делать не на гигантском кластере, а на «дорогом домашнем» железе.

Александр: А в медицине, если по изображению нужно определить диагноз?

Сергей: Нужна специализированная Vision Language Model. Главная проблема медицинского домена – мало открытых медицинских изображений. Они создаются в клиниках и хранятся в медицинских организациях. Чтобы качественно дообучить модель, нужен доступ к таким данным. Можно взять открытую VLM за основу, но без медицинских данных она будет ограничена.

Александр: Что такое машинное обучение?

Сергей: Машинное обучение – зонтичный термин для методов ИИ, где поведение системы не программируется в явном виде, а возникает в результате оптимизационного процесса. Алгоритмов много: для нейросетей одни методы, для опорных векторов другие, для решающих деревьев и случайных лесов третьи. Общее в том, что система на основе примеров или обратной связи от среды формирует полезное поведение.

Александр: Что нужно знать, чтобы работать в машинном обучении? Нужно ли высшее образование?

Сергей: Зависит от роли. В машинном обучении нужны разные люди: кто-то работает с данными, кто-то подбирает архитектуры, кто-то запускает обучение на суперкомпьютере. Математика и программирование важны, но набор навыков зависит от конкретной позиции. Высшее образование – это не только знания, но и сигнал, что человек умеет долго работать с разными задачами. Но диплом не гарантирует качества, а его отсутствие не означает слабый уровень.

Александр: В Сбер можно попасть специалистом по машинному обучению без высшего образования?

Сергей: Можно. В наши проекты приходили стажёры ещё школьниками. Мы внимательно относимся к ребятам из олимпиадной среды. В быстро развивающейся индустрии важны гибкость ума и обучаемость, а молодые люди часто имеют фору.

Александр: С чего начать 15-16-летнему человеку, которому интересно машинное обучение?

Сергей: Есть книги, курсы, каналы, форумы. Моя книга – «Охота на электроовец. Большая книга искусственного интеллекта» – популярная энциклопедия про ИИ без требования специальной подготовки. Но важнее всего делать что-то руками: хобби-проекты и собственные эксперименты учат быстрее, чем тонны чтения.

Александр: Есть ли вопрос на собеседовании, по которому сразу понятно, подходит человек или нет?

Сергей: Серебряной пули нет. Собеседования вообще неидеально отбирают людей. Бывают профессиональные проходильщики собеседований: на интервью звёзды, а в работе проявляются нюансы. Технические вопросы и LeetCode – это скорее санитарный минимум: понять, что человек умеет писать код и не пришёл совсем без подготовки.
Я стараюсь понять, интересно ли человеку. Но интерес нельзя подтвердить одной фразой «мне очень нравится». Он проявляется в том, что человек уже делал: какие проекты, что читал, с чем экспериментировал. Иногда лучше взять менее опытного, но живого и обучаемого человека, чем сильного формально специалиста, которому ничего не интересно. Но всё зависит от задачи.

Александр: Сколько может зарабатывать специалист по машинному обучению?

Сергей: Разброс очень большой: регион, компания, уровень, роль. Стажёрские зарплаты могут быть условно 50-80 тысяч рублей, для стажёра это неплохо. У квалифицированных специалистов доход значительно выше, но часто существенная часть приходит не только в виде зарплаты: бонусы, медицинская страховка, социальные льготы, иногда акции в рамках долгосрочных программ удержания. Конкретные цифры я бы не называл, но для ценного специалиста это солидный уровень дохода.

Свой «аналог ChatGPT» почти никогда не стоит начинать с обучения модели с нуля: сначала нужен бенчмарк и проверка готовых решений.

В ML ценится не только диплом, а интерес, способность учиться и реальные проекты руками.

Мультимодальность, бизнес и ассистенты: где ИИ уже приносит деньги

Александр: Что такое мультимодальность?

Сергей: Термин «модальность» пришёл в машинное обучение из психологии. Изначально речь шла о сенсорной системе: зрительный раздражитель – зрительная модальность, звуковой – аудиальная. В машинном обучении термин стал использоваться шире: текстовая модальность, визуальная, видео, аудио, кодовая. Сегодня под модальностью обычно понимают тип информации. Мультимодальная система умеет работать с несколькими типами информации: текстом, изображениями, звуком, видео. Если нейросеть получает текст и выдаёт картинку, это кросс-модальная система. Если она оперирует текстом, звуком, изображениями и видео одновременно – мультимодальная. Есть ещё термин «омнимодальность»: система может получить на вход любой набор модальностей и сгенерировать любой набор модальностей. Как друг в мессенджере: вы отправляете текст, картинку, видео, голосовое сообщение, а ответ может прийти в любом сочетании.

Александр: Какие нейросети вы используете в жизни?

Сергей: Всех я даже не знаю. Технология часто незаметна: голосовое управление, поиск, обработка фотографий на смартфоне – везде работают нейросети. Из осознанно используемых, конечно, все наши модели: Гигачат, Kandinsky, GigaCode и другие. Также смотрю на модели других команд: DeepSeek, ChatGPT, LLaMA, Qwen, Mistral.

Александр: Как ИИ может приносить пользу бизнесу?

Сергей: Есть два подхода. Первый – заменить человека в существующем процессе. Ограниченный успех возможен, но потенциал невелик. Гораздо интереснее создавать новые продукты, которые раньше были невозможны. Технологии программирования не оставили в мире «одного программиста вместо ста», а создали индустрию на миллионы людей. С ИИ будет так же: деньги чаще там, где появляется новый сервис, а не просто автоматизируется старый отдел.

Александр: Что бизнес обычно спрашивает у вас?

Сергей: Я не занимаюсь консалтингом как отдельной деятельностью. Ко мне иногда приходят люди из бизнесовых блоков Сбера и просят придумать, как применить большие языковые модели. Но моя команда исследовательская: мы скорее исследуем «электричество», чем продаём конкретную лампочку. Как в анекдоте про Фарадея: он не знал, зачем электричество, но был уверен, что когда-нибудь за него будут собирать налоги.

Александр: Что можно делать с нейросетями такого, о чём мало говорят?

Сергей: Можно изучать сами нейросети методами, похожими на нейрофизиологию. Это направление называют механистической интерпретацией. Мы пытаемся понять, как нейросеть решает задачи, какие внутренние механизмы в ней возникают. Такие инсайты позволяют улучшать модели, а иногда и использовать открытые моделью методы для человеческих задач.

Александр: Расскажите про ИИ-ассистентов. Вы с ними работали?

Сергей: Когда наше подразделение было в составе SberDevices, мы участвовали в создании семейства ассистентов «Салют»: первая модель распознавания речи, синтеза речи и другие компоненты делались при нашем участии. Сейчас мы говорим об иммерсивном ИИ – бесшовном взаимодействии, где человек тратит минимум усилий. Первый уровень – система превышает ожидания. Второй – с ней можно взаимодействовать как с человеком. Третий – она становится частью нас самих, как смартфон или одежда.

Александр: Можно подробнее?

Сергей: Смартфон уже стал продолжением тела, как когда-то обувь. Любой интерфейс требует затрат: произнести команду, нажать кнопку, сформулировать мысль. В идеале человек просто думал бы, что ему нужно.

Александр: Это уже считывание мыслей?

Сергей: Нейроинтерфейсы развиваются много лет. Для людей с ограниченными возможностями они уже применяются в клинической практике, хотя пока далеки от идеала. Считывается, например, электромагнитная активность мозга, в которой распознаются паттерны – мысленные команды. В идеале хотелось бы вообразить картинку и перенести её в компьютер, но для этого нужен хороший дизайн интерфейса: подтверждение, фильтры, защита от случайных мыслей. Человек передаёт информацию не только словами: взгляд, выражение лица, жесты, мимика – всё это дополнительный слой. Машине тоже нужно научиться понимать язык тела и контекст.

Александр: Но человек сложнее робота.

Сергей: Человек действительно уникален и многогранен, но не стоит противопоставлять себя собственным технологиям. Технологии искусственного интеллекта – такие же инструменты, как ножи, одежда или транспорт. У нас нет острых клыков и толстой шкуры, поэтому мы создаём инструменты, которые расширяют наши возможности. У биологического разума есть ограничения, а технический прогресс движется быстро. ИИ нужен, чтобы усиливать человеческий интеллект, решать задачи быстрее, качественнее и дешевле, анализировать процессы, которые не подвластны мозгу без инструментов.

Бизнес-эффект ИИ сильнее там, где создаётся новый продукт, а не просто заменяется человек.

Ассистенты будущего – это не «чатик в окне», а бесшовный слой взаимодействия с цифровой средой.

Прогресс, ограничения ИИ и профессии: исчезновение или трансформация

Александр: Технологический прогресс замедлился или ускоряется? Кажется, что в XX веке были самолёты, космос, телевидение, интернет, а сейчас – только картинки.

Сергей: На примере ИИ видно, что прогресс быстрый и скорее ускоряется: от первых слабых генераторов изображений до почти реалистичных систем прошло очень мало времени. Я не вижу застоя. Вопрос лишь в том, чем измерять прогресс: технологически движение очевидно, даже если кто-то ищет прогресс прежде всего в духовности.

Александр: Вы верующий человек?

Сергей: Нет, я атеист в третьем поколении. Поэтому в вопросах духовности я не авторитет.

Александр: Можете назвать современную научную цитату, а не только классиков прошлого?

Сергей: Могу: «Дайте мне побольше людей, ещё 400 GPU, и я вам такое сделаю, что закачаетесь». Это, конечно, шутливый пример, но он хорошо показывает настроение индустрии.

Александр: Есть ли нейросеть, которая вас впечатлила?

Сергей: Такие постоянно появляются. DeepSeek впечатлил. Veo 3 впечатлила. Наша Malvina тоже впечатлила: оказалось, мы можем.

Александр: Какие главные ограничения есть у искусственного интеллекта?

Сергей: Если говорить о непреодолимых барьерах именно для ИИ, я не думаю, что они есть, кроме фундаментальных физических ограничений. Нельзя бесконечно наращивать производительность вычислительных машин: информацию нельзя передавать быстрее скорости света, элемент машины нельзя сделать меньше планковского масштаба, есть энергетические и термодинамические лимиты. Теорема Марголуса – Левитина говорит, что в рамках заданного количества энергии нельзя произвести больше определённого числа вычислений. Есть и алгоритмические ограничения: некоторые задачи требуют перебора огромного дерева альтернатив. Но это не ограничение именно ИИ. Любая физическая система ограничена вычислительными ресурсами. Задач, которые принципиально может решить только человек, я не вижу.

Александр: Какие профессии могут исчезнуть из-за ИИ?

Сергей: Большинство профессий не исчезают, а трансформируются. Врач XIX века и современный врач – одно слово, но совершенно разная работа. То же с большинством профессий. Беспилотное такси может сократить потребность в водителях, но часть людей в нише останется. Профессия «человек-компьютер» исчезла, но люди, занимающиеся вычислениями, никуда не пропали: они работают с помощью компьютеров.

Александр: А программисты, дизайнеры, художники?

Сергей: Не исчезнут. Хороший пример – фотография. Портретисты боялись фотоаппарата, но художников в мире стало больше: выросла производительность, появились новые виды искусства. С программистами будет похожая история.

Александр: Значит, нужно изучать нейросети в своей профессии?

Сергей: Да. Темпы изменения жизни уже такие, что почти никто не может позволить себе один раз выучиться и всю жизнь применять только это. Врач, который не актуализирует знания, быстро «превращается в тыкву». Это относится почти ко всем профессиям.

Александр: Есть ли угроза, что ИИ выйдет из-под контроля, как в «Терминаторе»?

Сергей: Технологические риски есть, в том числе у ИИ. Но не обязательно в форме «система осознала себя и решила уничтожить людей». В конце XX века аппарат лучевой терапии Therac-25 из-за дефектов в программном коде выдал нескольким людям смертельную дозу излучения. Это технология, вышедшая из-под контроля. Если система управляет опасным процессом, нужны резервные контуры, предохранители, тестирование, ограничения. Нельзя взять случайную VLM и поставить её управлять автомобилем. Она куда-нибудь въедет. Я часто говорю: апокалипсис дешевеет. Технологии становятся доступнее, включая ядерные, биотехнологические и другие потенциально опасные направления. Мощность гранаты в руках обезьяны растёт, а интеллект обезьяны – не очень. Поэтому ИИ может быть нашим спасением: он усиливает коллективный интеллект, помогает анализировать риски, разрабатывать лекарства, вакцины и средства защиты. Сценарий «развиваем всё, но запрещаем ИИ» для меня опаснее, чем плохо оттестированная система у красной кнопки.

Александр: Насколько мы близки к сильному искусственному интеллекту?

Сергей: Вопрос сложный, потому что сам термин плохо определён. Я не люблю выражение «сильный ИИ»; предпочитаю «общий искусственный интеллект». Термин AGI был предложен в 1997 году Марком Губрудом, и изначально это был теоретический концепт. Обычно говорят: AGI – система, способная решать любые интеллектуальные задачи, доступные человеку. Но тут сразу вопросы: какому человеку? Среднему или самому сильному специалисту? Что значит «решить» творческую задачу? В рамках какого времени и вычислительного бюджета? Из-за расплывчатости определения каждая лаборатория придумывает свои критерии. Думаю, в ближайшие пять лет кто-нибудь обязательно объявит о создании общего искусственного интеллекта, но нюансов будет много: бенчмарки, ограничения, вычислительный бюджет и сама постановка задачи.

Профессии чаще не исчезают, а меняют содержание: выигрывают те, кто умеет обновлять инструменты.

Главный риск не в «Терминаторе», а в росте мощности технологий при прежней человеческой безответственности.

Если убрать ИИ: поэзия, игры и мечта о мире без болезней

Александр: Если бы не искусственный интеллект и не Сбер, чем бы вы занимались?

Сергей: Кто знает. У меня широкий профиль интересов. Я люблю поэзию Серебряного века – может быть, читал бы стихи со сцены.

Александр: У вас есть хобби?

Сергей: Да, и не одно. Люблю поэзию, люблю декламировать. Иногда играю в шахматы, в компьютерные игры.

Александр: Во что играете?

Сергей: В основном в Heroes III, особенно Horn of the Abyss. Иногда в StarCraft. Когда-то я был чемпионом по первому StarCraft в Орле, своём небольшом городе. Во втором StarCraft доходил до Золотой лиги, но APM уже «дедовский». Ещё могу поиграть в Mahjong, разложить пасьянс, запустить Alpha Centauri, первую Civilization или DOS-игру через DOSBox. Всё старпёрское, guilty pleasure.

Александр: У вас есть мечта?

Сергей: И не одна.

Александр: Поделитесь.

Сергей: Мировой коммунизм, конечно. Если серьёзнее, мечт много: хочется победить болезни, сделать людей счастливыми, добиться бессмертия, чтобы никто не ушёл обиженным. А как без этого жить?

За исследователем ИИ остаётся человек с поэзией, шахматами, старыми играми и очень человеческими мечтами.

Финальная цель технологий в этом разговоре – не заменить человека, а расширить его возможности и сделать жизнь безопаснее.


Глоссарий

AGI / общий искусственный интеллект – система, которая теоретически должна решать широкий круг интеллектуальных задач на уровне человека или выше. Точного общепринятого критерия пока нет.

Бенчмарк – набор тестов, по которому проверяют качество модели: стала ли она лучше, хуже или просто изменилась в одной узкой области.

Большая языковая модель – нейросеть, обученная на огромном количестве текстов и способная продолжать текст, отвечать на вопросы, вести диалог, писать код и решать другие задачи с языком.

VLM / Vision Language Model – модель, которая работает одновременно с изображениями и текстом: например, может описывать картинку, отвечать на вопросы по фото или искать дефекты.

Галлюцинации модели – уверенные, но неверные ответы нейросети. Например, когда модель придумывает несуществующий факт и подаёт его как настоящий.

Генеративная модель – модель, которая создаёт новый контент: текст, изображение, музыку, видео, код или их комбинации.

Датасет – набор данных для обучения или проверки модели: тексты, изображения, звук, видео, разметка, ответы экспертов.

Дообучение – дополнительное обучение уже готовой модели под конкретную задачу, домен или стиль работы.

Иммерсивный искусственный интеллект – ИИ, с которым человек взаимодействует почти незаметно и естественно, как с частью привычной среды.

Инференс – запуск обученной модели для получения ответа: например, когда пользователь задаёт вопрос, а модель генерирует результат.

Кластер – группа связанных серверов с вычислительными устройствами, которые вместе обучают или запускают большие модели.

Машинное обучение – методы ИИ, в которых поведение системы не прописывают вручную, а получают через обучение на примерах или обратной связи.

Механистическая интерпретация – направление, которое пытается понять внутренние механизмы нейросетей: как именно они решают задачи.

Модальность – тип информации, с которым работает система: текст, изображение, звук, видео, код.

Мультимодальная модель – модель, способная работать сразу с несколькими типами информации, например с текстом, изображениями и звуком.

Нейроинтерфейс – технология, которая считывает активность мозга и превращает её в команды для устройства или программы.

Нейросеть – математическая модель, вдохновлённая идеей взаимосвязанных «нейронов». В машинном обучении это один из основных классов моделей.

Омнимодальность – идея системы, которая может принимать любой набор типов данных и выдавать ответ тоже в любом наборе форматов.

Open-source-модель – модель с открытыми весами или кодом, которую можно скачать, изучать, запускать и иногда дообучать у себя.

Пайплайн – последовательность шагов обработки: собрать данные, очистить, разметить, обучить модель, проверить качество, развернуть.

Промпт – запрос к модели. От формулировки промпта часто зависит качество ответа.

Промпт-инженерия – подбор и улучшение запросов к модели, чтобы получать более точные и полезные результаты без изменения самой модели.

Трансформер – архитектура нейросетей, на которой построено большинство современных больших языковых моделей.

Эвристика – практическое правило, которое помогает быстрее искать решение, не перебирая все возможные варианты.

 

Комментарии (0)