Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.
Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.
Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.
Этап 1: Сбор — из логов к 78 524 уникальным промптам
Всё началось с 450 000 сырых пользовательских запросов за второе полугодие 2024 года. Это живые данные с платформы LLM Arena — промпты, которые реальные пользователи отправляли языковым моделям.

На первом этапе мы удалили дубликаты и почти идентичные формулировки — осталось около 150 000 уникальных запросов. Далее мы провели дополнительную очистку: удалили неполные, технические или контекстно-пустые фрагменты. После этого получили финальный набор из 78 524 промптов — выверенных, пригодных для классификации и последующего анализа.
Этот корпус стал основой для всей системы: от статистики и категорий до валидации и визуализации. Именно на нём мы строим все дальнейшие выводы и инструменты.
Этап 2: Как навести порядок в хаосе данных
Восемьдесят тысяч запросов —вопрос: как всё это структурировать так, чтобы стало полезным? Мы начали с идеи взять за основу категоризацию из зарубежных решений, но в процессе ушли гораздо дальше.
Мы переработали иерархию, адаптировали формулировки под русскоязычный контекст, объединили и уточнили пересекающиеся темы. В результате сформировали 186 узких категорий, которые действительно отражают суть пользовательских задач. В лидерах — программирование, математика, генерация текста: именно здесь модели работают наиболее активно и востребовано.

Ключевой технический элемент здесь — использование векторного представления. Мы считаем скалярное произведение между эмбеддингом промпта (с учётом инструкции) и эмбеддингом категории, выбираем максимум — и промпт попадает в наиболее подходящую тему. Такой подход позволяет сохранять точность даже в случаях, когда формулировка нестандартная, но суть запроса понятна.
Этот подход оказался особенно полезным при работе с сложными и абстрактными промптами, где прямых ключей мало, но суть выражена чётко. В процессе категоризации также добавили описание к каждой категории, включив это в пайплайн разметки — это существенно повысило точность сопоставления и дало системе больше контекста.
Этап 3: Валидация — фильтр, через который проходит не всё
Далее появилась необходимость еще одного отбора, но уже для последующей визуализации данных и даже если запрос попал в нужную категорию — это ещё не значит, что его можно показывать. Следующий этап — проверка. Строгая и многоступенчатая.

Каждый промпт, прежде чем попасть в открытую часть системы, проходит три фильтра:
Смысловая релевантность — насколько он действительно соответствует заданной категории.
Этическая и юридическая безопасность — отсутствие токсичного, опасного или противоправного содержания.
Конфиденциальность — отсутствие персональных данных, в том числе в совокупности (например, имя + адрес).
Для этой задачи мы задействуем отдельную модель, которая работает как внешний валидатор. Она получает на вход пачку промптов с их предполагаемыми категориями и оценивает, всё ли в порядке. Если хотя бы один из критериев нарушен — промпт отбраковывается. И да, даже если он идеально подходит под тему, но содержит, скажем, имя и номер телефона — он не пройдёт.
Мы выстроили понятный и воспроизводимый процесс, где каждая метка обоснована, а не ставится вслепую. Это делает датасет не просто большим, а по-настоящему чистым и пригодным для использования — в исследованиях, разработке и демонстрациях. По итогу сейчас:
В 166 категориях (88,8%) есть как минимум пять надёжных, проверенных промптов,
Осталось 6 категорий, где пока ни один пример не прошёл фильтр — работа продолжается.
Что оказалось самым сложным?
Наиболее ресурсоёмкой частью стала локальная разметка. Мы сознательно не стали использовать облачные решения, чтобы сохранять контроль над данными, обеспечить стабильность и исключить зависимость от внешних API.
Это потребовало грамотной настройки вычислений, оптимизации производительности, адаптации к собственным ресурсам. Но этот подход дал нам гибкость, точность и воспроизводимость результатов — что в долгосрочной перспективе оказалось гораздо важнее.
Этап 4: Интерфейс и визуализация — чтобы было удобно и понятно
Далее мы собрали таблицу: внешняя и внутренняя категории, покрытие, примеры запросов. Это стало основой для визуального интерфейса, который уже сейчас позволяет исследовать датасет, смотреть распределение запросов, выбирать категории и, в перспективе, строить лидерборды по типам задач.

Зачем мы это делаем?
Проект LLM Arena изначально задумывался как инструмент, формирующий в русскоязычной среде собственный ориентир в мире языковых моделей — с учётом языковых особенностей, культурного контекста и локальных решений.
Russian Arena Explorer стал ещё одним шагом в эту сторону: теперь у индустрии, исследователей и энтузиастов есть доступ к структурированному, проверенному датасету на русском языке, который можно изучать, использовать в разработке, тестировании или исследованиях.
Доступ открыт для всех https://llmarena.ru/?explorer
avshkol
Интересно, сразу пошёл интересоваться в энергетику:
Это всё один промпт или серия промптов, объединённых одним диалогом?