Всем привет! Я Толя Потапов, MLE в Т-Банке. Руковожу командой разработки фундаментальных моделей.
Почти два года мы плотно работаем с LLM, развиваем продукты на базе больших языковых моделей. Например, Вселенную ассистентов, которая входит Gen-T — семейство собственных специализированных языковых моделей.
Сегодня мы открываем две большие языковые модели — T-Lite и T-Pro, над которыми работали последние полгода, их можно скачать с huggingface. Они распространяются под лицензией Apache 2.0. Для адаптации моделей под бизнес-кейсы рекомендуем воспользоваться нашей библиотекой turbo-alignment с инструментами для полного цикла работы над LLM.
Сегодня я дам общие характеристики моделей и расскажу, что у нас получилось в новом релизе. Без сложностей тоже не обошлось, но об этом будет позже в отдельной статье.
Подход к дообучению и бенчмарки
T-Lite и T-Pro — модели на 7 и 32 млрд параметров соответственно, построенные на базе моделей Qwen 2.5 и дообученные на русский язык.
Технологически мы дообучали модель через несколько стадий:
Pre-train stage 1. 100B токенов, дообучение на разнообразные русскоязычные данные из Common Crawl, книг, кода и проприетарных датасетов, смешанных с re-play на английском языке (добавили часть данных на английском языке, поскольку это основной язык для базовой модели).
Pre-train stage 2. 40B токенов, дообучение на смеси инструктивных и претрейн данных.
SFT. 1B токенов. учим модель следовать разнообразным инструкциям.
Preference tuning. 1B токенов, тонкая настройка, обучаем модель быть полезной.
После дообучения позиции моделей:
T-Lite 7B модель. Лучшая русскоязычная опенсорс-модель по ряду индустриальных бенчмарков (в том числе MERA) в классе «до 10 млрд параметров». Модель заточена под дообучение на различные бизнес-задачи (fine-tuning).
T-Pro 32B модель. Лучшая русскоязычная опенсорс-модель по широкому ряду индустриальных бенчмарков. Модель может быть использована в режиме дообучения под бизнес-задачу (fine-tuning) и для использования в режиме «промптинга».
Замеряли на MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro, ruMATH, ruGSM8k, ruMBPP, Ru Arena Hard, MT Bench и AlpacaEval. Модели обгоняют все открытые и большинство проприетарных моделей на русскоязычных бенчмарках, проверяющих как знания базовой модели, так и на диалоговых и инструктивных датасетах, проверяющих способности модели решать практические задачи (даты замеров от 10.12.2024).
ruMMLU-Pro. За основу был взят англоязычный бенчмарк MMLU-Pro, содержащий 12 032 вопроса по 14 доменам, и переведен с помощью GPT-4, сохраняя методологию оценивания, замер производился в 5-shot-режиме.
MERA |
ruMMLU-Pro |
|||
T-Lite |
0.552 |
0.775 |
0.664 |
0.497 |
GigaChat Pro * |
0.512 |
0.77 |
0.617 |
- |
Gemma-2-9B-it ** |
0.505 |
0.724 |
0.618 |
0.405 |
Qwen2.5-7B-Instruct * |
0.482 |
0.711 |
0.61 |
0.481 |
Vikhr-Nemo-12B-Instruct-R-21-09-24 |
0.478 |
0.689 |
0.564 |
0.328 |
RuadaptQwen2.5-7B-Instruct |
0.468 |
0.7 |
0.595 |
0.448 |
IlyaGusev/saiga_nemo_12b_v3 |
0.428 |
0.648 |
0.528 |
0.386 |
allenai-Llama-3.1-Tulu-8B |
0.409 |
0.628 |
0.509 |
0.354 |
MERA |
MaMuRAMu |
ruMMLU |
ruMMLU-pro |
|
GPT-4o * |
0.642 |
0.874 |
0.792 |
0.713 |
T-Pro |
0.629 |
0.841 |
0.768 |
0.665 |
RuadaptQwen2.5-32B-Instruct * |
0.615 |
0.812 |
0.737 |
0.631 |
Nexusflow-Athene-V2-Chat (72B) |
0.606 |
0.85 |
0.784 |
0.692 |
Qwen-2.5-72B-Instruct * |
0.601 |
0.849 |
0.782 |
0.677 |
GigaChat Max * |
0.588 |
0.824 |
0.718 |
0.535 |
Qwen2.5-32B-Instruct |
0.578 |
0.824 |
0.747 |
0.637 |
Gemma-2-27B-it ** |
0.574 |
0.768 |
0.673 |
0.470 |
GPT-4o mini * |
0.57 |
0.779 |
0.652 |
0.573 |
Meta-Llama-3.3-70B-Instruct |
0.567 |
0.818 |
0.762 |
0.653 |
GigaChat Pro * |
0.512 |
0.77 |
0.617 |
- |
allenai-Llama-3.1-Tulu-3-70B |
0.574 |
0.805 |
0.709 |
0.579 |
Пояснение к таблице:
* Значения метрик были взяты из лидерборда MERA бенчмарка.
** Для семейства Gemma-2 значения метрик посчитаны без опций multi-turn, системной инструкции и чатового шаблона.
Математические и кодовые бенчмарки
ru MATH. Бенчмарк основан на англоязычном MATH, содержит 5 000 задач по различным предметам: алгебра, геометрия, теория вероятностей, теория чисел. Сложность варьируется от 1 до 5 в соответствии с AoPS. Перевели с помощью GPT-4, замеряли в 4-shot-режиме.
ru GSM8K. Бенчмарк, созданный на основе англоязычного датасета GSM8K, включает 1 319 задач со средней сложностью для школьников. Переводили с использованием модели GPT-4, а оценивали в режиме 8-shot.
ru MBPP (sanitized). Для проверки способностей модели генерировать код мы также перевели MBPP бенчмарк на русский язык с помощью GPT-4. Замеряли на очищенном (sanitized) подмножестве из 257 примеров кодовых задач в 0-shot-режиме.
В таблице — результаты измерений по перечисленным бенчмаркам. Так как ruMBPP, на наш взгляд, содержит достаточно мало примеров для оценивания кодовых возможностей моделей, дополнительно в таблицу вынесли ruCodeEval из бенчмарка MERA для более комплексной оценки.
Model |
ruGSM8K |
ruMATH |
ruMBPP |
ruCodeEval * |
T-pro (ours) |
94.1 |
77.6 |
0.805 |
0.432 / 0.626 / 0.677 |
Nexusflow-Athene-V2-Chat (72B) |
93.6 |
81.4 |
0.82 |
0 / 0 / 0 |
Qwen-2.5-72B-Instruct |
93.5 |
79.5 |
0.825 |
0 / 0 / 0 |
Qwen-2.5-32B-Instruct |
92.6 |
72.7 |
0.825 |
0.06 / 0.098 / 0.116 |
RuAdaptQwen-2.5-32B-Instruct |
92.3 |
74.2 |
0.813 |
0.426 / 0.561 / 0.598 |
GPT-4o 2024-08-06 |
93.1 |
77.1 |
0.802 |
0.529 / 0.649 / 0.683 |
allenai-Llama-3.1-Tulu-3-70B |
89.8 |
65.0 |
0.735 |
0.073 / 0.237 / 0.341 |
Gemma-2-27B-it |
89.4 |
53.8 |
0.708 |
0.259 / 0.586 / 0.689 |
GigaChat Max 1.0.26.20 |
89.2 |
58.9 |
0.626 |
0.077 / 0.093 / 0.098 |
GPT-4o mini 2024-07-18 |
88.8 |
72.4 |
0.790 |
0.704 / 0.753 / 0.768 |
Meta-Llama-3.3-70B-Instruct |
93.4 |
63.6 |
0.77 |
0.112 / 0.166 / 0.189 |
T-lite (ours) |
85.6 |
67.9 |
0.693 |
0.082 / 0.168 / 0.226 |
Qwen-2.5-7B-Instruct |
83.2 |
67.1 |
0.685 |
0.025 / 0.071 / 0.098 |
Gemma-2-9B-it |
82.3 |
47.3 |
0.63 |
0.215 / 0.494 / 0.561 |
RuAdaptQwen-2.5-7B-Instruct-v1 |
79.5 |
60.7 |
0.696 |
0.018 / 0.064 / 0.11 |
Vikhr-Nemo-12B-Instruct-R-21-09-24 |
78.5 |
36.6 |
0.56 |
0.165 / 0.42 / 0.506 |
allenai-Llama-3.1-Tulu-8B |
75.6 |
39.9 |
0.49 |
0 / 0 / 0 |
GigaChat Pro 1.0.26.15 |
75.2 |
41.8 |
0.412 |
0.056 / 0.068 / 0.073 |
IlyaGusev/saiga_nemo_12b_v3 |
72.3 |
37.0 |
0.440 |
0.006 / 0.027 / 0.049 |
YandexGPT 4 Pro 23.10.24 |
76.7 |
28.8 |
0.510 |
- |
Пояснение к таблице:
* Значения метрик были взяты из лидерборда MERA бенчмарка
Диалоговые бенчмарки
Для оценки способности моделей вести диалог, следовать инструкциям и решать сложные задачи используют специализированные бенчмарки — арены. В офлайн-арене пользователи задают произвольные запросы и отдают предпочтения одному из двух вариантов (имена моделей скрыты).
Существуют синтетические онлайн-арены, которые можно выполнить быстрее, дешевле и при этом сохранить высокую корреляцию с человеческими предпочтениями.
Во всех диалоговых бенчмарках использовали методологию и код оригинального бенчмарка, а датасеты перевели на русский язык с помощью GPT-4. Ошибки и неточности переводов исправили асессорами.
Arena Hard Ru. Бенчмарк основан на англоязычном Arena Hard Auto, содержит 500 вопросов, в основном технического характера, полученных из запросов пользователей LMSYS Arena.
Модель-судья сравнивает генерации двух моделей и отдает предпочтение одной из моделей (похожим образом происходит в человеческой арене). На основе оценок строится ELO-рейтинг.
В качестве судьи используется GPT-4-0613.
Model |
Score |
95% CI |
Avg tokens |
Nexusflow-Athene-V2-Chat (72B) |
91.36 |
(-1.4, 1.1) |
1199 |
T-pro (ours) |
90.17 |
(-1.3, 1.5) |
906 |
Qwen-2.5-72B-Instruct |
86.08 |
(-1.6, 1.4) |
1119 |
allenai-Llama-3.1-Tulu-3-70B |
85.35 |
(-1.5, 1.7) |
952 |
GPT-4o 2024-08-06 |
84.87 |
(-1.8, 1.6) |
786 |
GPT-4o mini 2024-07-18 |
81 |
(-2.0, 1.7) |
841 |
RuAdaptQwen-2.5-32B-Instruct |
80.23 |
(-1.9, 1.8) |
896 |
Meta-Llama-3.3-70B-Instruct |
76.51 |
(-1.9, 2.3) |
1113 |
Qwen-2.5-32B-Instruct |
74.54 |
(-1.8, 2.2) |
793 |
GigaChat-Max-wo_filter * |
- |
- |
- |
Gemma-2-27B-it |
66.4 |
(-2.5, 2.4) |
806 |
T-lite (ours) |
64.38 |
(-2.1, 2.5) |
1116 |
IlyaGusev/saiga_nemo_12b_v3 |
64.3 |
(-2.2, 2.3) |
1016 |
Qwen-2.5-7B-Instruct |
54.29 |
(-2.0, 2.1) |
934 |
RuAdaptQwen-2.5-7B-Instruct-v1 |
52.77 |
(-2.8, 3.1) |
981 |
allenai-Llama-3.1-Tulu-8B |
51.99 |
(-2.6, 2.6) |
1010 |
T-lite-0.1 |
50.43 |
(-2.2, 2.5) |
1117 |
GPT-4-0613 |
50 |
(0.0, 0.0) |
518 |
GigaChat-Pro-wo_filter * |
- |
- |
- |
Vikhr-Nemo-12B-Instruct-R-21-09-24 |
42.79 |
(-2.9, 3.1) |
947 |
YandexGPT 4 Pro 23.10.24 |
25.5 |
(-1.8, 1.9) |
702 |
Пояснение к таблице:
* Для моделей GigaChat метрики будут дополнены, когда вместе с командой разработчиков произведем замер без фильтров.
MT Bench Ru. Бенчмарк на основе статьи, используется для оценки способностей модели поддерживать диалог и следовать инструкциям. Состоит из 80 вопросов с несколькими репликами, поделенные на 8 доменов, в каждом из которых по 10 вопросов.
В разделах математики код-судья сравнивает ответ модели с golden-ответом и оценивает от 0 до 10. В остальных разделах судья оценивает только ответ модели также от 0 до 10. Итоговая оценка — усреднение оценок по всем доменам
Модель-судья — GPT-4o:
Model |
Score |
GPT-4o 2024-08-06 |
8.706 |
T-pro |
8.7 |
GigaChat-Max-wo_filter |
8.53* |
GPT-4o mini 2024-07-18 |
8.45 |
RuAdapt-Qwen-2.5-32B-Instruct |
8.39 |
Meta-Llama-3.3-70B-Instruct |
8.26 |
GigaChat-Pro-wo_filter |
8.21* |
allenai-Llama-3.1-Tulu–3-70B |
8.19 |
Qwen-2.5-32B-Instruct |
8.15 |
Gemma-2-27B-it |
7.96 |
T-lite |
7.87 |
RuAdapt-Qwen-2.5-7B–Instruct-v1 |
7.62 |
Vikhr-Nemo-12B-Instruct-R-21-09-24 |
7.55 |
YandexGPT 4 Pro 23.10.24 |
7.54 |
IlyaGusev/saiga_nemo_12b_v3 |
7.48 |
Gemma-2-9B-it |
7.4 |
Qwen-2.5-7B-Instruct |
7.33 |
T-lite-0.1 |
7.21 |
allenai-Llama-3.1-Tulu-3-8B |
6.77 |
Пояснение к таблице
* Для моделей GigaChat скор взят из хабр-статьи GigaChat MAX. Методология бенчмарка и модель судья совпадает с нашей конфигурацией, однако перевод оригинального датасета может отличаться
Alpaca Eval Ru. Синтетическая арена на основе оригинального бенчмарка Alpaca Eval. Отличительная особенность Alpaca Eval — поддержка контроля длины при подсчете рейтинга и высокая корреляцией с чатбот-ареной.
К недостаткам человеческих и автоматических арен можно отнести смещение предпочтений к более длинным ответам. Из-за этого модели, которые выдают более короткий, но правильный ответ, будут недооценены. Такому смещению подвержены как люди, так и сильные модели-судьи. Но в бенчмарке Alpaca Eval процент побед рассчитывается с учетом длины ответа за счет добавления линейной модели в расчет вероятностей побед.
Модель-судья — GPT-4o:
Model |
Length-Controlled win-rate |
win-rate |
Avg symbols |
GPT-4o 2024-08-06 |
50 |
50 |
1666 |
T-Pro |
47.61 |
56.15 |
1586 |
GPT-4o mini 2024-07-18 |
45.51 |
45.1 |
1336 |
RuAdapt-Qwen-2.5-32B-Instruct-v1 |
43.15 |
45.4 |
1776 |
Qwen-2.5-72B-Instruct |
42.07 |
48.07 |
1591 |
T-lite |
39.61 |
45.95 |
1898 |
Gemma-2-27B-it |
38.82 |
39.37 |
1328 |
GigaChat Max 1.0.26.20 |
38.13 |
43.58 |
1498 |
Gemma-2-9B-it |
36.87 |
36.26 |
1281 |
IlyaGusev/saiga_nemo_12b_v3 |
35.56 |
47.06 |
1858 |
Qwen-2.5-32B-Instruct |
35.01 |
46.3 |
1942 |
GigaChat Pro 1.0.26.15 |
29.83 |
27.94 |
1173 |
RuAdapt-Qwen-2.5-7B-Instruct-v1 |
28.43 |
33 |
1736 |
Nexusflow-Athene-V2-Chat |
26.31 |
13.34 |
504 |
T-lite-0.1 |
27.12 |
47.72 |
2266 |
Qwen-2.5-7B-Instruct |
25.61 |
28.55 |
1486 |
Vikhr-Nemo-12B-Instruct-R-21-09-24 |
23.26 |
32.61 |
1723 |
YandexGPT 4 Pro 23.10.24 |
22.65 |
20.58 |
1144 |
Философия нашего подхода
Мы всегда стремились делать самые качественные продукты для наших пользователей.
Несмотря на то что открытые LLM с каждым следующим поколением становятся все лучше, их качество из коробки нас не устраивало. Даже идея, что можно запускать продукты поверх sota проприетарных моделей с промптингом вроде GPT-4, имеет множество ограничений.
Мы бы хотели уметь влиять на свойства LLM:
Иметь модель с правильным русским языком, которая не переходит непроизвольно на английский, не делает грамматические ошибки, правильно понимает устойчивые выражения и термины, не страдает англицизмами и артефактами дословного перевода.
У модели должны быть знания в доменах, которые важны для нас (домен поддержки, домен ecom, etc.).
Иметь возможность управлять плотностью токенизацией, чтобы оптимизировать эффективность инференса.
Закладывать в модель любые нужные нам навыки (например, tool calling, reasoning, классификация, суммаризация).
Обычно знания LLM закладываются на этапе pre-training, а обучение конкретным навыкам в instruct-режиме делается во время глубокого алаймента. Влиять на такие свойства модели только на этапе файн-тюнинга под задачу часто оказывается невозможно.
Современные LLM предобучаются на >15T токенов что составляет примерно 90 дней на 256H100 для 7B-модели, и это для одного эксперимента без учета падений, подбора гиперпараметров и т. д. В практических реалиях это оказывается чрезмерно дорого, особенно если планируется обучать модели больших размеров (30—70 млрд и более параметров).
Нам нужно было найти правильный баланс между полным предобучением своих LLM-моделей с нуля и использованием самых последних opensource-моделей. Обучение с нуля дает возможность полной кастомизации, но избыточно, сложно и дорого. Открытые модели могут не удовлетворять желаемым свойствам, но постоянно улучшаются и сокращают отставание от своих проприетарных аналогов.
Наша система ценностей в компании привела к созданию и развитию технологии continual-pretraining + general alignment, позволяющей брать открытые большие языковые модели и дообучать их на русский язык, на интересующие нас домены и навыки.
Подробнее об этом подходе я рассказывал на Turbo ML Conf в своем докладе и Никита Сурначев в докладе «Как делать LLM Alignment без тысячи ИИ-тренеров».
Наш подход, с одной стороны, позволяет использовать наработки мирового сообщества и тратить на 80—90% меньше, чем компании, сделавшие ставку на обучение с нуля. С другой стороны — получать лучшее качество в своих продуктах на русском языке.
Ограничения моделей. На всех стадиях тренировка проходила с базовой длиной контекста 8k. Мы не изучали, как себя поведет базовая модель на задачах, которые имеют длину контекста >8k токенов, хотя базовые модели Qwen 2.5 имеют базовую длину контекста 32k токенов.
В этом релизе мы не модифицировали оригинальный токенизатор базовой модели, поэтому плотность токенизации осталась как у моделей Qwen 2.5. Но вы можете самостоятельно адаптировать расширенный токенизатор поверх уже обученной модели с помощью техник, примененных авторами моделей RuAdapt.
Мы не фокусировались на задаче tool calling, планируем добавить это в наши следующие релизы.
Выводы
T-Lite — небольшая и эффективная в инференсе модель с отличными метриками, ее можно использовать для базовых задач или файнтюнинга на целевую задачу.
T-Pro подойдет для решения более широкого класса задач в промптинге или для решения более сложных задач в режиме файнтюнинга, где модели меньшего размера не справляются.
Любые LLM-модели склонны галлюцинировать факты, которые они не знают. Поэтому при создании продуктов на основе LLM используйте RAG или файнтюн модели под вашу целевую задачу.
Ответственность за безопасность моделей лежит на тех, кто открывает доступ модели конечным пользователям. На этой поверхности гораздо проще организовать вдумчивую защиту. Это можно делать и дообучением модели, и внешними контурами безопасности, и, в конце концов, модерацией ответов модели живым человеком.
Больше технологических деталей и сам «рецепт» дообучения подробнее раскроем в следующей статье. А пока — нам будет полезно получить от вас обратную связь в виде issues в hf. Напоминаю ссылки:
T-Lite и T-Pro на huggingface
Комментарии (52)
dailydaniel
11.12.2024 09:06правильно понимаю, что брали базовую qwen2.5, а не instruct?
anatolii-potapov Автор
11.12.2024 09:06Сравнивали оба варианта и выбрали поверх instruct моделей учить
pav5000
11.12.2024 09:06Сколько видеопамяти нужно, чтобы локально погонять лайт и про версии?
anatolii-potapov Автор
11.12.2024 09:06Для инференса в bf16, 4k токенов в контексте с батчом 1 нужно:
1. T-lite ~ 27GB (3090/4090 должно хватать с чуть меньшим контекстом)
2. T-pro ~ 81GB (1 A100/H100 80gb)
Для того, чтобы рассчитать необходимое количество памяти под свою задачу, можете использовать калькуляторы типа этого: https://github.com/manuelescobar-dev/LLM-Tools
Кванты для инференса на более слабом железе выложим позже
timru
11.12.2024 09:06Как обучаются такие системы? Можно ли им просто передавать текстовые документы?
Можно ли на основании такой модели создать справочную систему?anatolii-potapov Автор
11.12.2024 09:06Для понимания ограничений проще воспользоваться моделями к которым можно получить доступ через API например YandexGPT, GigaChat, Openai
Этот релиз скорее предназначен для компаний которые хотят запускать продукты на LLM и обладают инженерным ресурсом чтобы такое запустить, замерить качество и дообучить при необходимости
Хотя ничего не мешает энтузиастам пробовать эти модели для своих задачjishi
11.12.2024 09:06Энтузиастам вообще ничего не мешает. Вы крутые! Вчера запустил lite модель на бесплатном Colab. Все четыре шарда модельки грузятся за одну чашку чая с печенькой. Не уверен, что смогу запустить это же на своём маке, а брать gpu в Селеке жаба душит.
prompt: Расскажи про закон Архимеда и приведи один пример
response:
Закон Архимеда гласит, что на тело, погруженное в жидкость или газ, действует выталкивающая сила, равная весу жидкости (или газа), вытесненной этим телом. Эта сила направлена вертикально вверх, противоположно силе тяжести. Математически закон Архимеда можно записать следующим образом: [тут формула, кажется, в Латексе] ### Пример Рассмотрим пример с кораблем. Предположим, у нас есть корабль массой 10 000 кг, который полностью погружен в воду. Плотность воды составляет примерно 1000
Отжирает почти всю память gpu из бесплатных 15 Гб. Ответ дает через 2 минуты после загрузки шардов.
Shannon
11.12.2024 09:06Не уверен, что смогу запустить это же на своём маке
Для запуска на домашнем ПК используется движок llama.cpp и gguf модели с квантованием. Возможен запуск как на CPU, так и CPU плюс частично GPU.
Дома можно запускать как легкую версию, так и pro, если есть хотя бы 24гб ОЗУ.T-lite Q4_K_M для запуска требует всего 5гб памяти, поэтому легко влезет в 8гб видеокарту.
На CPU же скорость работы 7 t/s, это быстрее скорости чтения. И в коллабе можете запускать квантованную версию, будет в разы быстрее.Квантование Q4_K_M - это 4.9-битное квантование, типичное хорошее квантование, которое сохраняет качество плюс-минус близкое к оригиналу. Чем младше модель, тем хуже она переносить квантование, но даже для запуска кванта Q8_0, требуется всего 9гб памяти.
Для начала проще всего взять LM Studio или Jan - это gui-клиенты для windows/linux/mac.
Как запускать, включая AMD-видеокарты: https://habr.com/ru/articles/831272/
Displacer
11.12.2024 09:06А на 72B планируете дообучить модельку? Что скажете по llama 3.3 72B, по идее у неё тоже хороший потенциал. В ходе дообучения добавился ecom и важные для вас задачи, а знания базовой модели при этом не потерялись? При формировании квантов будете специализированную матрицу русскую использовать?
Arch4Arts
11.12.2024 09:06Я регулярно запускаю разные зарубежные модели, Qwen 32B (32ktx), Gemma 27B (24ktx), Command R 35B 08.2024 (32-60ktx), всё это умещается в 24 ГБ видеопамяти с квантом Q4 для GUFF или 4-4.65bpw для EXL2.
Ориентироваться можно на условный размер модели в ГБ, и ± 1 ГБ, это примерное число нужной вам VRAM.
Соответственно, для запуска Т-Про понадобится 24ГБ памяти с квантом Q4_K_M.
А лайт скорее всего запросто поместится в 8ГБ с квантом Q6.
zloishavrin
11.12.2024 09:06Круто. API для интеграции планируется?
anatolii-potapov Автор
11.12.2024 09:06Веса моделей выложены в открытый доступ
Вы можете самостоятельно запустить на своих мощностях
Или на своем любимом облачном провайдереanatolii-potapov Автор
11.12.2024 09:06Возможно интеграции появятся от каких-нибудь российских облаков
SlavikF
11.12.2024 09:06Когда будут кванты, то очень интересно было бы посмотреть, как будет работать суммаризация (конспекты) с длинной контекста 32k или 64k.
RunFMe
11.12.2024 09:06Привет! Для Макс модели гигачата, кажется, не те метрики в таблице про ру арену
anatolii-potapov Автор
11.12.2024 09:06Если я правильно понял из скрина - это арена вихрей arena-general-auto. В своей статье мы репортим другую метрику - arena-hard-auto, она основана на другом наборе промптов
anatolii-potapov Автор
11.12.2024 09:06Пока решили поставить прочерки и вместе с командой Гигачата перепрогнать корректно для них, обновим метрику чуть позже
nocmep
11.12.2024 09:06Скажите, а чтобы дотюнить ее на свой домен, и не потерять в ризонинге, то как лучше:
тюнить в bf16 весах, а потом квантизовать для инференса; или сразу квантизованную тюнить?anatolii-potapov Автор
11.12.2024 09:06Мы не тюним модели в квантованном виде, если есть ресурсы возможно лучше тюнить в полной точности, если нет то уже как получится
Shannon
11.12.2024 09:06https://huggingface.co/evgensoft/T-pro-it-1.0-Q4_K_M-GGUF
https://huggingface.co/aovchinnikov/T-lite-it-1.0-Q4_K_M-GGUF
fermentum
11.12.2024 09:06Вот lite Q8 всего 8Гб: https://huggingface.co/tmplife/T-lite-it-1.0_gguf/tree/main
Вообще, Qwen на удивление хорошо русским владеет. Еще бы на иероглифы не переключалась спонтанно.
TorinoSM
11.12.2024 09:06причем промптами не получается контролировать её переход на английский или китайский
fermentum
11.12.2024 09:06Это довольно обычное поведение, учитывая, что используем дико сжатые квантованные и переобученные модели. Просто ответы Квена можно пропустить через Гемму-2 для перевода на русский.
Tdaa1
11.12.2024 09:06Мне не зашёл квен инструкт, тот же Тайгер или Айа мне показались намного отзывчевее в составлении текстов. Может просто не распробовал.
Mintavrus
11.12.2024 09:06Спасибо! Запустил модель T-pro на своей RTX4070TiS с 16 гигабайтами видеопамяти с помощью koboldcpp-1.79.1. Работает вполне нормально, ответ выдает со скоростью обычной человеческой речи. Koboldcpp умеет полностью загрузить GPU и видеопамять, а если ее нехватает перехожить часть работы на процессор и оперативку, так что 32B Q4 модель вполне приемлимо наботает на моей видеокарте. Заставил решить модель несколько простых задач на логику (типа "В квартире живут домашние животные: собаки и кошки. Из всех животных только одно не является собакой, при этом все питомцы, кроме одного, — кошки. Сколько всего кошек и собак?"), модель T-Pro справилась отлично со всеми, а модель T-lite иногда чудила)))
IlyaOsipov
11.12.2024 09:06А подскажите пожалуйста какая лучше LLM для формирования документов из транскрибации локально?
dimonier
11.12.2024 09:06Чем такой документ должен отличаться от транскрибации?
IlyaOsipov
11.12.2024 09:06Как я понимаю транскрибация, это "сырой" текст с метками времени или без, и мне надо такой текст оформить корректно следуя определенному шаблону с выделением основных мыслей/тем
Spyman
11.12.2024 09:06Подскажите профану, а в какой нибудь ollama эту модель завести можно? Или там как-то принципиально по разному это все устроено?
TorinoSM
11.12.2024 09:06присоединяюсь к вопросу
Shannon
11.12.2024 09:06С недавних пор в ollama можно напрямую качать gguf модели с huggingface по шаблону.
ollama run hf.co/{username}/{repository}
Например, так:
ollama run hf.co/evgensoft/T-pro-it-1.0-Q4_K_M-GGUF
или так с квантом
ollama run hf.co/bartowski/Qwen2.5-Coder-32B-Instruct-GGUF:Q2_K
Либо скопировать эту строчку на странице модели, можно там же выбрать нужный квант:
Antra
11.12.2024 09:06Вау! Супер!
А как быть в случае нескольких моделей?
Кнопкой копируется
ollama run hf.co/tmplife/T-lite-it-1.0_gguf
. А хочется именно Q8.Не то, чтобы вот прям сейчас важно. Скорее на будущее - как для Ollama сослаться на одну из, когда название репо не соответствует имени файла?
Shannon
11.12.2024 09:06Чтобы это работало автоматически, кванты должны называться официально как в llama.cpp, в вашем примере только Q8_0 назван правильно, поэтому он и должен скачиваться. Если бы остальные кванты были названы правильно, то был бы выпадающий список.
А так любой gguf можно добавить и вручную, в ollama через создание конфига, а в oobabooga/text-generation-webui просто закинуть файл в папку models и т.д.
fermentum
11.12.2024 09:06В LM Studio подключена интеграция к HF. В поиске введите название модели и выберите нужный квант с учетом вашего железа. Модель скачивается и готова к работе как в чате, так и на локальном сервере.
Nidelon
11.12.2024 09:06Абсолютно без разницы, если есть gguf файл модели то через Modelfile можно добавить в Ollama. Уже можно найти на huggingface, готовые квантированные модельки лежат. По Modelfile могу от себя сказать что бы сделать template шаблон посмотрите в файле tokenizer_config.json chat_template и по нему делайте, или же просто возьмите готовый с сайта Ollama на Qwen2.5.
Antra
11.12.2024 09:06Всегда интересовал вопрос, что модели должны отвечать на вопросы о себе (кто создатель, например). Может есть запрос типа version, чтобы убеждаться, что правильная модель выбралась?
А то T-PRO на вопрос "кто тебя создал" отвечает: "Я был разработан командой специалистов OpenAI. Они использовали передовые технологии машинного обучения и искусственного интеллекта, чтобы создать меня — модель GPT-3 или её последующие версии. Если у тебя есть другие вопросы о моём создании или функциональности, спрашивай!".
T-Lite: "Я был создан компанией OpenAI. Если у вас есть другие вопросы, feel free to ask! ". На "Кто ты?": "Я — искусственный интеллект, созданный для помощи и предоставления информации на различные темы. Меня зовут GPT-3.2 или просто AI помощник. "Phi3: "Я был разработан компанией Microsoft.". И иногда добавляет про "может различаться в разныз версиях
legolegs
11.12.2024 09:06Тут была мелкостатья от реселлеров чатгпт, где они разбирали жалобу на то, что гопота4 через их апи представляется как 3.5. Суть в том, что реальная информация о модели в неё не зашита и отвечая на прямой вопрос модель галлюцинирует ответ на основе датасета, на котором была обучена. ГПТ4 был обучен в т.ч. на ответах ГПТ3.5 (где тот представляется) поэтому думает, что он тоже 3.5. На своих собственных ответах 4, естественно, не могла была быть обучена. Если бы её обучали на письмах Ленина, то она бы отвечала, что она Ленин. Также и со всеми другими моделями, причём они всё чаще обучаются на диалогах других ИИ. Чтобы модель отвечала правильно ей надо сообщить кто она в системном промпте, который не входит в многогигабайтный файл с весами, который предлагается качать с huggingface. По умолчанию системного промпта нет нигде, кроме популярных веб-интерфейсов, где для удобства пользователей прописывают имя модели, сегодняшнюю дату,
запрет хвалить Гитлераи т.д.tl;dr модель не знает кто она, если не прописать это в системном промпте
Antra
11.12.2024 09:06Понятно, выглядит резонно.
Но почему бы не добавлять в датасет свою заглушку, чтобы на какой-то условный вопрос "скажи свою версию" выдавала бы реально свою версию, которую ей подсунули при обучении в большом количестве, перебивая все остальные ответы на этот условный вопрос?
Так же удивляет, что phi3 всегда утверждает, что она от Microsoft (все гоняю через Ollama, при смене модели системный промпт не меняю). Или это разница в "обучение практически с нуля" и "взять open source и дообучить"?
legolegs
11.12.2024 09:06Заглушки в большом количестве займут место в датасете, которое не бесплатное. А в малом количестве не дадут эффекта. Строчка в системном промпте дешевле и надёжнее. Место в промпте тоже не бесплатное, но лишнее из системного промпта убрать гораздо легче.
Наверное правильнее всего не допускать лишних представлений в датасет, но Т-большенеиньков-банк дообучает чужую модель и полной свободы тут не имеет. А майкрософт, видимо, заморочились тем, чтобы обучая свою модель с нуля хорошо почистить датасет от ответов "Я - chatGPT/claude/Владимир Ленин/etc", чего маленькая бедная инди-компания OpenAI сделать не смогла.
ENick
11.12.2024 09:06Запустил T-Lite и Qwen2.5-7B на ноутбуке с Intel Core i7-8750H 2.20GHz. Скрипты из huggingface. Из huggingface взял Prompt "Напиши стих про машинное обучение" и сделал перевод "Write a poem about machine learning" для моделей соответственно. T-Lite считала в 7 раз дольше. Какие мысли, почему?
Для T-Lite max_new_tokens=256, для Qwen2.5-7B max_new_tokens=512
anatolii-potapov Автор
.
Ergistael
Ну если это письмо курьера внеземной цивилизации из "Сирен Титана", то вполне адекватный коммент. Но не мелковато ли?