Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения / forpes.ru

Главная
Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения +32

24.10.2024 08:00

dolotov 36 6300 Источник

Сегодня мы открываем доступ к четвёртому поколению наших больших языковых моделей: более мощная YandexGPT 4 Pro и облегчённая YandexGPT 4 Lite уже доступны через API в Yandex Cloud. Постепенно пользователям платформы станут доступны все их возможности. А первым сервисом Яндекса, где появится YandexGPT 4, станет Алиса с опцией «Про».

Новое семейство моделей умеет обрабатывать более сложные запросы, работать с расширенным контекстом, поддерживает скрытые рассуждения и вызов функций для работы с внешними инструментами. Нашей команде удалось значительно улучшить качество ответов: YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии, а YandexGPT 4 Lite в среднем отвечает не хуже, чем самая мощная модель предыдущего поколения.

Вместе с Андреем Бутом @andbout, руководителем команды YandexGPT Alignment, кратко расскажем, что мы сделали для улучшения ответов и решения более сложных запросов, покажем результаты замеров качества и сравнения с другими моделями.

Что показали внутренние замеры

Есть два основных способа замера качества языковых моделей.

Бенчмарки — по сути, это тесты, которые дают выбрать ответ из закрытого списка или определяют правильность ответа по заранее определённому алгоритму, например, по регулярному выражению или проверке соответствия формата. Тестировать удобно, но часто это совсем не близко к реальным сценариям, где может быть важен стиль ответа или нет однозначных критериев выполнения задания.
Side by Side — попарные сравнения, где модели отвечают на одни и те же вопросы, а эксперты вслепую выбирают лучший. Ближе к реальным сценариям, но оценка может быть субъективной, так как эксперты тоже люди.

Поэтому на внутренних тестах моделей мы стараемся учесть оба способа и следим за сложностью и разнообразием запросов в наборе промтов.

В том числе в датасете для Side‑by‑Side‑замеров были такие категории запросов:

«Базовая умность» — универсальный набор, где по чуть‑чуть есть все возможные запросы, от рекомендаций фильма до подбора рифм.
Продуктовые задачи — прикладные сценарии применения модели, которые встречаются у пользователей облачной платформы: скажем, суммаризация разговоров в колл‑центре или подбор заголовков.
Разметки и классификации — задачи на работу с текстом с большой, сложной и подробной инструкцией: например, для подготовки датасетов.
RAG — запросы, на которые модель должна отвечать с использованием документов, поданных в неё. Например, ответы пользователям на первой линии техподдержки по базе знаний.

Такое разнообразие помогло улучшить качество ответов по сравнению с предыдущим поколением, а по нескольким типам задач — вплотную приблизиться к GPT-4o.

По прикладным сценариям мы также добились паритета с моделями Llama, которые являются наиболее ходовыми в продуктах.

Что показали результаты бенчмарков

На бенчмарках также видно сильный прирост по отношению к GPT-4o.

Что уже можно попробовать в облаке

Длинный контекст. Наша команда в четыре раза увеличила количество токенов, которое YandexGPT 4 Pro может обрабатывать в промте, — с 8 до 32 тысяч. Теперь модель лучше работает с длинными сложными запросами и анализирует большие объёмы данных — порядка 60 страниц текста.

Новые возможности помогают лучше решать задачи классификации, в том числе для речевой аналитики. Например, ответы на вопросы, как оператор решил задачи клиентов, могут требовать более длинного контекста.

Асинхронные запросы поддерживают 32 тысячи токенов по умолчанию. Для вызова длинного контекста в синхронной выдаче нужно указать в коде вызова специальный URI: gpt://<идентификатор_каталога>/yandexgpt-32k/rc.

Более подробно о том, как обратиться к большим языковым моделям через API, — в документации.

Работа с внешними источниками. В RAG‑сценариях удалось значительно снизить долю галлюцинаций и повысить подтверждённость ответов — модель YandexGPT 4 Pro в 67% случаев выигрывает у модели предыдущего поколения на RAG‑задачах.

Как обучаем новое поколение моделей и что планируем дальше

Повышаем эффективность обучения. Тренировки YandexGPT 4 проходили с использованием опенсорс‑библиотеки Яндекса YaFSDP. Инструмент позволяет чаще проводить эксперименты с обучением, ускорять и улучшать все этапы машинного обучения.

За счёт комплекса инструментов этап alignment получилось ускорить и проводить его за несколько часов вместо нескольких дней.
На этапе pretraining в датасет добавили новые качественные данные.
В основном обучающем датасете увеличили долю длинных документов, чтобы научить нейросеть работать с большим контекстом, добавили свежие данные, полезные для определённых навыков.
Датасет для стадии supervised fine‑tuning поменялся: мы увеличили число написаний в два раза и придумали новые способы выбора среди них самых полезных и качественных.
Не обошлось без изменений и в RLHF — о них расскажем подробнее позже.

Используем скрытые рассуждения. В тренировке моделей применялись данные с подробными пошаговыми рассуждениями — Chain‑of‑thoughts. Благодаря этому в новом поколении улучшилась способность моделей анализировать проблему, выделять основные этапы решения и рассуждать, как реализовать эти этапы. На определённых видах задач это привело к повышению качества ответов в тех случаях, когда ответ не очевиден и требует дополнительного анализа. Например, для решения математических задач или в работе над научными исследованиями.

В будущем мы добавим возможность включать через API Yandex Cloud скрытые рассуждения и видеть всю цепочку рассуждений модели.

Тестируем режим вызова функций (function calling). В ближайшее время мы также добавим в модель возможность вызова функций. Они необходимы для создания умных ассистентов, которые позволяют применять внешние инструменты и API. Разработчики смогут указать список функций и параметры вызова. А уже клиент вызовет сгенерированную функцию. Полностью возможности вызова функций откроются позднее, по результатам тестирования.

Вы можете интегрировать YandexGPT 4 в свои продукты через API в сервисе Foundation Models. Попробовать новые модели можно уже сейчас: в консоли или c использованием URI модели: gpt://<идентификатор_каталога>/yandexgpt/rc.

В ближайший месяц модели доступны для тестирования в режиме Release Candidate, чтобы пользователи третьего поколения YandexGPT могли запланировать переход на новую версию. В дальнейшем модели YandexGPT 4 станут основными и будут доступны уже в режиме Latest.

Комментарии (36)

exwill
24.10.2024 08:15
#27460424
Почему вы не указываете размеры ваших моделей?
1. wolframko
  24.10.2024 08:15
  #27460596
  Потому, что они закрытые. Размеры не указывают ни OpenAI, ни Google, ни Anthropic.
  1. d-sh
    24.10.2024 08:15
    #27462048
    У гугла одна из моделей называет flash-8b и похоже что она размером 8б. При этом она почему то не только хорошо говорит по-русски но еще и на картинки отвечает и голосовые распознает.
  1. exwill
    24.10.2024 08:15
    #27463504
    Там понятно почему. Но Яндексу кого бояться? Сбера?
    
    AlexRihter9690
    24.10.2024 08:15
    #27464352
    Боится, что модели окажутся файнтюн ламами))
1. avalonsec
  24.10.2024 08:15
  #27465724
  Скрывают что б не опозориться.

Herz_main
24.10.2024 08:15
#27460644
@dolotov а почему бы вам не сравнить ЯГПТ 4 по общим дисциплинам, программирование, мат.дисциплины?
1. wolframko
  24.10.2024 08:15
  #27460806
  Тут все тесты яндексовские, к тому же. Нельзя перепроверить ни один из результатов тестирования. Нет даже методики тестирования. В своих тестах Яндекс даёт 65 в преведённом MMLU. Это меньше чем у Llama 3.1 8B (72%).
  1. Herz_main
    24.10.2024 08:15
    #27461004
    Не могу понять что вы пишите, точки с запятыми расставлены хаотично. Что касаемо методик тестирования у мировых компаний они есть, а Яндекс опять свою песню завел. ПС:Вся экосистема Яндекс GPT это полный и не связанный между собой бред. Управление умными устройствами это шаблоны, шаг влево или в право и устройство не понимает тебя.
    
    andbout
    24.10.2024 08:15
    #27461760
    Наши бенчмарки на русском, так как нам важно тестировать именно русский язык, а большинство публичных бенчмарков — на английском языке.
    
    Кроме того, публичные бенчмарки часто могут быть подвержены перекосу в оценке, потому что в модели во время обучения могут случайно протекать датасеты из этих бенчмарков — нейросеть обучается хорошо отвечать на них. Мы контролируем, чтобы наша модель не страдала этим на всех замерах, а наши собственные бенчмарки закрыты даже от нас, поэтому их данные точно не попадут в модель, а значит им можно доверять.
1. avalonsec
  24.10.2024 08:15
  #27465734
  У яндекса их модель выдает ответы на уровне 3.5. Не понимаю почему огромная компания с их bigdata не могут сделать мультиагентную систему которая будет давать ответы в зависимости от области. Файтюненая модель llama с доступом к интернет поиску и то даёт ответы лучше и это с учётом того что это всё тренеровалось тупо на не большой выборке данных на обычной пользовательской видеокарте, не говоря уже о A100.
  1. wolframko
    24.10.2024 08:15
    #27466672
    У Яндекса, вероятно, гораздо меньше даты и гораздо меньше ресурсов на обучение моделей, чем у меты. Но да, файнтюненая Llama 3.1 8B будет не хуже YaGPT-4 по качеству ответов, но в 100-200 раз дешевле (буквально, если сравнивать стоимость по апи).
    
    mithdradates
    24.10.2024 08:15
    #27471742
    У Яндекса, вероятно, гораздо меньше даты и гораздо меньше ресурсов на обучение моделей, чем у меты.
    
    Ну вот китайские компании выпускают модели, которые на общих англоязычных бенчмарках и арене толкаются в топе или около него - Qwen 2.5 (open weight, кстати), Deepseek 2.5, Yi-Lightning, GLM-4 Plus и так далее. Причем на них тоже висят санкции на покупку передовых GPU и не думаю что у них сильно больше возможностей по сбору англоязычных данных чем у Яндекса. Так что дело не только в этом, но и в кадрах.
    
    d-sh
    24.10.2024 08:15
    #27472168
    Нет ни одной хоть сколько-нибудь приличной китайской модели. Они даже до гпт3.5 не достают.

cinme
24.10.2024 08:15
#27460686
Яндекс, когда все ваши продукты станут одной эко-системой?
Когда я смогу Яндекс колонке которая стоит на кухне, сказать чтобы она на компьютере сделала звук потише или включила компьютер через WakeOnLAN?
Когда я смогу продолжить слушать музыку из настольного приложения на телефоне?
Когда Алиса сможет голосом уведомлять о важных письмах в Яндекс Почте или заканчивающимся месте на Яндекс Диске?
Почему у вас каждый сервис - это оторванная, от всего остального, сущность?
Когда ваши старания будут приносить пользу не только вашим топ-менеджерам, но и тем кто пользуется вашими продуктами и оплачивает их развитие?
1. alexxxdevelop
  24.10.2024 08:15
  #27460910
  Они до сих пор не могут сделать темную тему в браузере для планшетов. Не надо им ставить более сложные задачи, а то перетрудятся

Andryushok
24.10.2024 08:15
#27460972
Очень круто, что YandexGPT 4 Pro не только догнал, но и по ряду задач сравнялся с лучшими моделями на рынке. Особенно впечатляют улучшения в работе с длинными контекстами и снижение доли галлюцинаций в RAG-сценариях. Видно, что ребята проделали колоссальную работу над увеличением производительности и качеством обучения. Интересно было бы узнать больше про возможные практические кейсы function calling, особенно в контексте умных ассистентов.

alexxxdevelop
24.10.2024 08:15
#27461472
Очень приятно удивило правильное решение задачи: Напиши на C# программу. Дано время в часах и минутах. Найти угол от часовой к минутной стрелке на обычных часах.

С этим не могут справится ни американский chatgpt, ни китайский deepseek, ни российский gigachat. Все они дают неверно работающий код, причем еще и одинаковый. Модель от яндекса предложила собственный код, выдающий верный результат.

Раньше модель не справлялась даже с простыми запросами и откровенно тупила. Сейчас на многие вопросы отвечает хорошо. Но некоторые проблемы, к сожалению, остались. Хотел накидать неудачных примеров, но сервис оказался очень жадным - стал требовать добавление платежной карты, и я не нашел информацию о ценах. Бесплатный доступ хотя бы к lite-модели бы оставили что ли, совсем совести нет. Вот один пример, который я успел зафиксировать в скудном бесплатном режиме:
1. loffo
  24.10.2024 08:15
  #27461686
  WTF?
  1. alexxxdevelop
    24.10.2024 08:15
    #27461844
    Локальный OpenChat на моем ноутбуке легко решает эту задачу. Честно говоря, обидно за наших разработчиков. Яндекс имеет огромные ресурсы, но непонятно чем там занимаются программисты
    
    Rpoz
    24.10.2024 08:15
    #27463242
    А вот 3 про отвечает вено
  1. MoksFalder
    24.10.2024 08:15
    #27465648
    А вот как отвечает GPT 4o: Число 9,9 больше числа 9,11, так как 9,9 = 9 + 0,9, а 9,11 = 9 + 0,11. И 0,9 больше 0,11, следовательно, 9,9 больше 9,11.
1. Doomet
  24.10.2024 08:15
  #27463172
  С этим не могут справится ни американский chatgpt, ни китайский deepseek, ни российский gigachat
  
  А какие именно модели вы тестировали в ChatGPT и DeepSeek? Там их много разных. Например, в ChatGPT по умолчанию бесплатно дают 4o mini, как я помню, 4o бесплатно там очень мало. в DeepSeek тоже и старые и новые модели.
  
  Ну, и вообще совет - на текущий момент самая лучшая коммерчески доступная LLM для кода это Claude 3.5 Sonnet (особенно с новым недавним обновлением), без вариантов.
  1. alexxxdevelop
    24.10.2024 08:15
    #27465064
    у первого один сайт и у второго один сайт, всем известные, просто загуглить
1. alexdesyatnik
  24.10.2024 08:15
  #27470634
  С вашей задачей про угол между стрелками новая версия YaGPT у меня не справилась. Более того, ChatGPT 4o не только справилась самостоятельно, но и нашла ошибку в решении YaGPT (целочисленное деление вместо плавающей точки).

alexxxdevelop
24.10.2024 08:15
#27461836
А че удалить нельзя комментарий?

swood
24.10.2024 08:15
#27464142
Обычная подделка из рф, пытающаяся догнать остальной мир. Модель не отвечает на вопросы, отправляя меня в поисковик. Ну и зачем?
1. Strangelylookingperson
  24.10.2024 08:15
  #27471004
  Во-первых, слова "подделка" и "поделка" имеют разное значение. Я так понимаю, что вы имеете ввиду всё-таки второе.
  
  Во-вторых, у Яндекса цель - не отстать от "остального мира", а на самом деле США, которые заблокировали своим конкурентам, Китаю и России, доступ к видеокартам Nvidia. Хороший способ конкуренции, цивилизованный, что сказать - связать конкуренту ноги соты дать его болельщикам, типа вас, повод позлорадствовать.
  
  А у настоящего остального мира, помимо США, России и Китая, таких компаний и продуктов по большей части нет.
  1. mithdradates
    24.10.2024 08:15
    #27471780
    Во-вторых, у Яндекса цель - не отстать от "остального мира", а на самом деле США
    
    Добавьте ещё китайцев и французов.
    
    А у настоящего остального мира, помимо США, России и Китая, таких компаний и продуктов по большей части нет.
    
    У французского Мистраля крутые модели, причем тестируют их не на закрытых французских бенчах разработанных самим же Мистралем, а на общих. Топовые модели у них немного отстают от самых свежих моделей большой тройки (OpenAI, Anthropic, Google - и то насчет последнего вопрос), но вполне себе конкурируют с топ open weight решениями типа Qwen 2.5 от Алибабы и LLaMA 3.2 от Меты.

nanoslavic
24.10.2024 08:15
#27464826
Попробовал YandexGPT 4 Pro RC в бесплатном режиме. С числами не особо хорошо работает (правильный ответ: 4 раза). Также код на питоне, который он мне выдал, не запустился.
1. nanoslavic
  24.10.2024 08:15
  #27464836
  Но на странные вопросы отвечает неплохо:)
  1. exwill
    24.10.2024 08:15
    #27465224
    Есть режим сказочника, а есть режим математика. По умолчанию включен режим сказочника, поэтому и отвечает хорошо на странные вопросы и плохо на вопросы логические и математические

d-sh
24.10.2024 08:15
#27465710
Можно было даже не проверять :(

Тупо жгут деньги инвесторов.

FedorovAntonIgorevich
24.10.2024 08:15
#27468940
На последнем скрине у победителя в рассуждении присутствует "производительность детали" а не "производительность машины". Т.е. ответ в данном случае дан правильно, но нет гарантии, что ИИ оперировал данными правильно с точки зрения логики.

MrCrooK
24.10.2024 08:15
#27469044
И вызов функций для работы с внешними инструментами

А это как пощупать? В доке не нашел

hripunov-gc
24.10.2024 08:15
#27471006
Новость отличная, но до сих пор нет корректной обработки неудобных запросов. Используем (пытаемся) YaGPT для обработки откликов и порой не можем обработать такие простые отклики, как: "жил в Донецке, переехал в Воронеж", "переехал из Щебекино", "бывший военный, служил в армии...". Это печально.