Сегодня мы открываем доступ к четвёртому поколению наших больших языковых моделей: более мощная YandexGPT 4 Pro и облегчённая YandexGPT 4 Lite уже доступны через API в Yandex Cloud. Постепенно пользователям платформы станут доступны все их возможности. А первым сервисом Яндекса, где появится YandexGPT 4, станет Алиса с опцией «Про».
Новое семейство моделей умеет обрабатывать более сложные запросы, работать с расширенным контекстом, поддерживает скрытые рассуждения и вызов функций для работы с внешними инструментами. Нашей команде удалось значительно улучшить качество ответов: YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии, а YandexGPT 4 Lite в среднем отвечает не хуже, чем самая мощная модель предыдущего поколения.
Вместе с Андреем Бутом @andbout, руководителем команды YandexGPT Alignment, кратко расскажем, что мы сделали для улучшения ответов и решения более сложных запросов, покажем результаты замеров качества и сравнения с другими моделями.
Что показали внутренние замеры
Есть два основных способа замера качества языковых моделей.
Бенчмарки — по сути, это тесты, которые дают выбрать ответ из закрытого списка или определяют правильность ответа по заранее определённому алгоритму, например, по регулярному выражению или проверке соответствия формата. Тестировать удобно, но часто это совсем не близко к реальным сценариям, где может быть важен стиль ответа или нет однозначных критериев выполнения задания.
Side by Side — попарные сравнения, где модели отвечают на одни и те же вопросы, а эксперты вслепую выбирают лучший. Ближе к реальным сценариям, но оценка может быть субъективной, так как эксперты тоже люди.
Поэтому на внутренних тестах моделей мы стараемся учесть оба способа и следим за сложностью и разнообразием запросов в наборе промтов.
В том числе в датасете для Side‑by‑Side‑замеров были такие категории запросов:
«Базовая умность» — универсальный набор, где по чуть‑чуть есть все возможные запросы, от рекомендаций фильма до подбора рифм.
Продуктовые задачи — прикладные сценарии применения модели, которые встречаются у пользователей облачной платформы: скажем, суммаризация разговоров в колл‑центре или подбор заголовков.
Разметки и классификации — задачи на работу с текстом с большой, сложной и подробной инструкцией: например, для подготовки датасетов.
RAG — запросы, на которые модель должна отвечать с использованием документов, поданных в неё. Например, ответы пользователям на первой линии техподдержки по базе знаний.
Такое разнообразие помогло улучшить качество ответов по сравнению с предыдущим поколением, а по нескольким типам задач — вплотную приблизиться к GPT-4o.
По прикладным сценариям мы также добились паритета с моделями Llama, которые являются наиболее ходовыми в продуктах.
Что показали результаты бенчмарков
На бенчмарках также видно сильный прирост по отношению к GPT-4o.
Что уже можно попробовать в облаке
Длинный контекст. Наша команда в четыре раза увеличила количество токенов, которое YandexGPT 4 Pro может обрабатывать в промте, — с 8 до 32 тысяч. Теперь модель лучше работает с длинными сложными запросами и анализирует большие объёмы данных — порядка 60 страниц текста.
Новые возможности помогают лучше решать задачи классификации, в том числе для речевой аналитики. Например, ответы на вопросы, как оператор решил задачи клиентов, могут требовать более длинного контекста.
Асинхронные запросы поддерживают 32 тысячи токенов по умолчанию. Для вызова длинного контекста в синхронной выдаче нужно указать в коде вызова специальный URI: gpt://<идентификатор_каталога>/yandexgpt-32k/rc
.
Более подробно о том, как обратиться к большим языковым моделям через API, — в документации.
Работа с внешними источниками. В RAG‑сценариях удалось значительно снизить долю галлюцинаций и повысить подтверждённость ответов — модель YandexGPT 4 Pro в 67% случаев выигрывает у модели предыдущего поколения на RAG‑задачах.
Как обучаем новое поколение моделей и что планируем дальше
Повышаем эффективность обучения. Тренировки YandexGPT 4 проходили с использованием опенсорс‑библиотеки Яндекса YaFSDP. Инструмент позволяет чаще проводить эксперименты с обучением, ускорять и улучшать все этапы машинного обучения.
За счёт комплекса инструментов этап alignment получилось ускорить и проводить его за несколько часов вместо нескольких дней.
На этапе pretraining в датасет добавили новые качественные данные.
В основном обучающем датасете увеличили долю длинных документов, чтобы научить нейросеть работать с большим контекстом, добавили свежие данные, полезные для определённых навыков.
Датасет для стадии supervised fine‑tuning поменялся: мы увеличили число написаний в два раза и придумали новые способы выбора среди них самых полезных и качественных.
Не обошлось без изменений и в RLHF — о них расскажем подробнее позже.
Используем скрытые рассуждения. В тренировке моделей применялись данные с подробными пошаговыми рассуждениями — Chain‑of‑thoughts. Благодаря этому в новом поколении улучшилась способность моделей анализировать проблему, выделять основные этапы решения и рассуждать, как реализовать эти этапы. На определённых видах задач это привело к повышению качества ответов в тех случаях, когда ответ не очевиден и требует дополнительного анализа. Например, для решения математических задач или в работе над научными исследованиями.
В будущем мы добавим возможность включать через API Yandex Cloud скрытые рассуждения и видеть всю цепочку рассуждений модели.
Тестируем режим вызова функций (function calling). В ближайшее время мы также добавим в модель возможность вызова функций. Они необходимы для создания умных ассистентов, которые позволяют применять внешние инструменты и API. Разработчики смогут указать список функций и параметры вызова. А уже клиент вызовет сгенерированную функцию. Полностью возможности вызова функций откроются позднее, по результатам тестирования.
Вы можете интегрировать YandexGPT 4 в свои продукты через API в сервисе Foundation Models. Попробовать новые модели можно уже сейчас: в консоли или c использованием URI модели: gpt://<идентификатор_каталога>/yandexgpt/rc.
В ближайший месяц модели доступны для тестирования в режиме Release Candidate, чтобы пользователи третьего поколения YandexGPT могли запланировать переход на новую версию. В дальнейшем модели YandexGPT 4 станут основными и будут доступны уже в режиме Latest.
Комментарии (36)
Herz_main
24.10.2024 08:15@dolotov а почему бы вам не сравнить ЯГПТ 4 по общим дисциплинам, программирование, мат.дисциплины?
wolframko
24.10.2024 08:15Тут все тесты яндексовские, к тому же. Нельзя перепроверить ни один из результатов тестирования. Нет даже методики тестирования. В своих тестах Яндекс даёт 65 в преведённом MMLU. Это меньше чем у Llama 3.1 8B (72%).
Herz_main
24.10.2024 08:15Не могу понять что вы пишите, точки с запятыми расставлены хаотично. Что касаемо методик тестирования у мировых компаний они есть, а Яндекс опять свою песню завел. ПС:Вся экосистема Яндекс GPT это полный и не связанный между собой бред. Управление умными устройствами это шаблоны, шаг влево или в право и устройство не понимает тебя.
andbout
24.10.2024 08:15Наши бенчмарки на русском, так как нам важно тестировать именно русский язык, а большинство публичных бенчмарков — на английском языке.
Кроме того, публичные бенчмарки часто могут быть подвержены перекосу в оценке, потому что в модели во время обучения могут случайно протекать датасеты из этих бенчмарков — нейросеть обучается хорошо отвечать на них. Мы контролируем, чтобы наша модель не страдала этим на всех замерах, а наши собственные бенчмарки закрыты даже от нас, поэтому их данные точно не попадут в модель, а значит им можно доверять.
avalonsec
24.10.2024 08:15У яндекса их модель выдает ответы на уровне 3.5. Не понимаю почему огромная компания с их bigdata не могут сделать мультиагентную систему которая будет давать ответы в зависимости от области. Файтюненая модель llama с доступом к интернет поиску и то даёт ответы лучше и это с учётом того что это всё тренеровалось тупо на не большой выборке данных на обычной пользовательской видеокарте, не говоря уже о A100.
wolframko
24.10.2024 08:15У Яндекса, вероятно, гораздо меньше даты и гораздо меньше ресурсов на обучение моделей, чем у меты. Но да, файнтюненая Llama 3.1 8B будет не хуже YaGPT-4 по качеству ответов, но в 100-200 раз дешевле (буквально, если сравнивать стоимость по апи).
mithdradates
24.10.2024 08:15У Яндекса, вероятно, гораздо меньше даты и гораздо меньше ресурсов на обучение моделей, чем у меты.
Ну вот китайские компании выпускают модели, которые на общих англоязычных бенчмарках и арене толкаются в топе или около него - Qwen 2.5 (open weight, кстати), Deepseek 2.5, Yi-Lightning, GLM-4 Plus и так далее. Причем на них тоже висят санкции на покупку передовых GPU и не думаю что у них сильно больше возможностей по сбору англоязычных данных чем у Яндекса. Так что дело не только в этом, но и в кадрах.
d-sh
24.10.2024 08:15Нет ни одной хоть сколько-нибудь приличной китайской модели. Они даже до гпт3.5 не достают.
cinme
24.10.2024 08:15Яндекс, когда все ваши продукты станут одной эко-системой?
Когда я смогу Яндекс колонке которая стоит на кухне, сказать чтобы она на компьютере сделала звук потише или включила компьютер через WakeOnLAN?
Когда я смогу продолжить слушать музыку из настольного приложения на телефоне?
Когда Алиса сможет голосом уведомлять о важных письмах в Яндекс Почте или заканчивающимся месте на Яндекс Диске?
Почему у вас каждый сервис - это оторванная, от всего остального, сущность?
Когда ваши старания будут приносить пользу не только вашим топ-менеджерам, но и тем кто пользуется вашими продуктами и оплачивает их развитие?alexxxdevelop
24.10.2024 08:15Они до сих пор не могут сделать темную тему в браузере для планшетов. Не надо им ставить более сложные задачи, а то перетрудятся
Andryushok
24.10.2024 08:15Очень круто, что YandexGPT 4 Pro не только догнал, но и по ряду задач сравнялся с лучшими моделями на рынке. Особенно впечатляют улучшения в работе с длинными контекстами и снижение доли галлюцинаций в RAG-сценариях. Видно, что ребята проделали колоссальную работу над увеличением производительности и качеством обучения. Интересно было бы узнать больше про возможные практические кейсы function calling, особенно в контексте умных ассистентов.
alexxxdevelop
24.10.2024 08:15Очень приятно удивило правильное решение задачи: Напиши на C# программу. Дано время в часах и минутах. Найти угол от часовой к минутной стрелке на обычных часах.
С этим не могут справится ни американский chatgpt, ни китайский deepseek, ни российский gigachat. Все они дают неверно работающий код, причем еще и одинаковый. Модель от яндекса предложила собственный код, выдающий верный результат.
Раньше модель не справлялась даже с простыми запросами и откровенно тупила. Сейчас на многие вопросы отвечает хорошо. Но некоторые проблемы, к сожалению, остались. Хотел накидать неудачных примеров, но сервис оказался очень жадным - стал требовать добавление платежной карты, и я не нашел информацию о ценах. Бесплатный доступ хотя бы к lite-модели бы оставили что ли, совсем совести нет. Вот один пример, который я успел зафиксировать в скудном бесплатном режиме:
loffo
24.10.2024 08:15alexxxdevelop
24.10.2024 08:15Локальный OpenChat на моем ноутбуке легко решает эту задачу. Честно говоря, обидно за наших разработчиков. Яндекс имеет огромные ресурсы, но непонятно чем там занимаются программисты
MoksFalder
24.10.2024 08:15А вот как отвечает GPT 4o: Число 9,9 больше числа 9,11, так как 9,9 = 9 + 0,9, а 9,11 = 9 + 0,11. И 0,9 больше 0,11, следовательно, 9,9 больше 9,11.
Doomet
24.10.2024 08:15С этим не могут справится ни американский chatgpt, ни китайский deepseek, ни российский gigachat
А какие именно модели вы тестировали в ChatGPT и DeepSeek? Там их много разных. Например, в ChatGPT по умолчанию бесплатно дают 4o mini, как я помню, 4o бесплатно там очень мало. в DeepSeek тоже и старые и новые модели.
Ну, и вообще совет - на текущий момент самая лучшая коммерчески доступная LLM для кода это Claude 3.5 Sonnet (особенно с новым недавним обновлением), без вариантов.
alexxxdevelop
24.10.2024 08:15у первого один сайт и у второго один сайт, всем известные, просто загуглить
alexdesyatnik
24.10.2024 08:15С вашей задачей про угол между стрелками новая версия YaGPT у меня не справилась. Более того, ChatGPT 4o не только справилась самостоятельно, но и нашла ошибку в решении YaGPT (целочисленное деление вместо плавающей точки).
swood
24.10.2024 08:15Обычная подделка из рф, пытающаяся догнать остальной мир. Модель не отвечает на вопросы, отправляя меня в поисковик. Ну и зачем?
Strangelylookingperson
24.10.2024 08:15Во-первых, слова "подделка" и "поделка" имеют разное значение. Я так понимаю, что вы имеете ввиду всё-таки второе.
Во-вторых, у Яндекса цель - не отстать от "остального мира", а на самом деле США, которые заблокировали своим конкурентам, Китаю и России, доступ к видеокартам Nvidia. Хороший способ конкуренции, цивилизованный, что сказать - связать конкуренту ноги соты дать его болельщикам, типа вас, повод позлорадствовать.
А у настоящего остального мира, помимо США, России и Китая, таких компаний и продуктов по большей части нет.
mithdradates
24.10.2024 08:15Во-вторых, у Яндекса цель - не отстать от "остального мира", а на самом деле США
Добавьте ещё китайцев и французов.
А у настоящего остального мира, помимо США, России и Китая, таких компаний и продуктов по большей части нет.
У французского Мистраля крутые модели, причем тестируют их не на закрытых французских бенчах разработанных самим же Мистралем, а на общих. Топовые модели у них немного отстают от самых свежих моделей большой тройки (OpenAI, Anthropic, Google - и то насчет последнего вопрос), но вполне себе конкурируют с топ open weight решениями типа Qwen 2.5 от Алибабы и LLaMA 3.2 от Меты.
nanoslavic
24.10.2024 08:15Попробовал YandexGPT 4 Pro RC в бесплатном режиме. С числами не особо хорошо работает (правильный ответ: 4 раза). Также код на питоне, который он мне выдал, не запустился.
nanoslavic
24.10.2024 08:15Но на странные вопросы отвечает неплохо:)
exwill
24.10.2024 08:15Есть режим сказочника, а есть режим математика. По умолчанию включен режим сказочника, поэтому и отвечает хорошо на странные вопросы и плохо на вопросы логические и математические
FedorovAntonIgorevich
24.10.2024 08:15На последнем скрине у победителя в рассуждении присутствует "производительность детали" а не "производительность машины". Т.е. ответ в данном случае дан правильно, но нет гарантии, что ИИ оперировал данными правильно с точки зрения логики.
MrCrooK
24.10.2024 08:15И вызов функций для работы с внешними инструментами
А это как пощупать? В доке не нашел
hripunov-gc
24.10.2024 08:15Новость отличная, но до сих пор нет корректной обработки неудобных запросов. Используем (пытаемся) YaGPT для обработки откликов и порой не можем обработать такие простые отклики, как: "жил в Донецке, переехал в Воронеж", "переехал из Щебекино", "бывший военный, служил в армии...". Это печально.
exwill
Почему вы не указываете размеры ваших моделей?
wolframko
Потому, что они закрытые. Размеры не указывают ни OpenAI, ни Google, ни Anthropic.
d-sh
У гугла одна из моделей называет flash-8b и похоже что она размером 8б. При этом она почему то не только хорошо говорит по-русски но еще и на картинки отвечает и голосовые распознает.
exwill
Там понятно почему. Но Яндексу кого бояться? Сбера?
AlexRihter9690
Боится, что модели окажутся файнтюн ламами))
avalonsec
Скрывают что б не опозориться.