Если нужно сгенерировать синтетические данные — подборка открытых решений / forpes.ru

Главная
Если нужно сгенерировать синтетические данные — подборка открытых решений

Если нужно сгенерировать синтетические данные — подборка открытых решений +9

30.07.2025 13:22

randall 0 1200 Источник

Про снижение расходов на работу с данными расскажем 13 августа на вебинаре. А сегодня мы поговорим об открытых инструментах, которые открывают новые возможности для экспериментов и работы с ML. Далее в подборке четыре решения по теме — разбираем их возможности и примеры использования.

Датасеты без рутины

Bespoke Curator — это Python-библиотека под лицензией Apache 2.0, упрощающая построение масштабируемых пайплайнов для генерации синтетических данных (включая последующее обучение на этих данных). Проект был запущен в январе 2025 года стартапом Bespoke Labs, разрабатывающим ИИ-инструменты для работы с LLM. Помимо генерации данных библиотека помогает автоматизировать процессы их очистки и форматирования — с оптимизацией под асинхронные операции.

Bespoke Curator умеет работать с API таких провайдеров как OpenAI и Anthropic через LiteLLM и vLLM. При этом одним из ключевых преимуществ системы является автоматическое кэширование сгенерированных ответов. Механизм защищает от сбоев при обработке больших объемов данных — можно возобновить генерацию с той точки, где она была прервана (а не начинать сначала). В то же время кэширование позволяет выстраивать многоступенчатые пайплайны, повторно используя данные предыдущих этапов: разработчики продемонстрировали эту функцию на классическом примере с Hello World. При повторном запуске кода ниже ответ берется из кэша, а не запрашивается у LLM.

from bespokelabs import curator
llm = curator.LLM(model_name="gpt-4o-mini")
poem = llm("Write a poem about the importance of data in AI.")
print(poem.dataset.to_pandas())

Кроме того, Curator включает CodeExecutor — встроенный инструмент от Bespoke Labs. Он подходит для генерации синтетических датасетов с кодом или разработки автотестов.

Благодаря Bespoke Curator появились датасеты Bespoke-Stratos-17k, OpenThoughts-114k и s1K-1.1, которые подходят для обучения reasoning-систем и содержат математические задачи, сниппеты программного кода и даже пазлы. Также с помощью инструмента был сгенерирован OpenThoughts2-1M, использованный для обучения модели OpenThinker2-32B.

Документация включает руководства по настройке, а также справочные материалы с примерами кода для генерации датасетов. Там описаны параметры, классы и методы для работы с API языковых моделей, настройки бэкендов и мультимодальные сценарии.

Масштабируемые пайплайны

Distilabel — фреймворк для генерации структурированных синтетических датасетов с лицензией Apache 2.0. Его разработала компания Argilla [специализируется на ИИ-инструментах] в 2023 году. Есть интеграция с LLM от OpenAI, Anthropic и других провайдеров через единый API.

Если говорить о необходимых зависимостях, то Distilabel опирается на библиотеки Outlines и Instructor. Он также использует фреймворк Ray для масштабирования нагрузки и реализации распределенных вычислений и библиотеку Faiss, предназначенную для поиска похожих векторов (ближайших соседей), которая оптимизирована для работы с большими наборами данных.

С помощью Distilabel был собран датасет OpenHermesPreference с миллионом предпочтений систем ИИ [«предпочтение» — это выбор, который делает нейросеть, отвечая на вопросы в промптах]. Также фреймворк использовали для создания набора данных Intel Orca DPO и датасета haiku DPO для генерации японских хайку — традиционной поэтической формы из трех строк.

Если вы хотите поближе познакомиться с этим инструментом или опробовать в деле — официальная документация может стать хорошей отправной точкой. Она содержит инструкции по установке и настройке, а также большое количество how-to-гайдов по генерации синтетических данных и не только.

Безопасная синтетика

mostlyai — это Python-библиотека под лицензией Apache 2.0 для генерации обезличенных синтетических данных. Она была разработана в 2023 году одноименной компанией MOSTLY AI, которая специализируется на датасетах для машинного обучения и тестирования ПО.

В первую очередь проект ориентирован на организации, занимающиеся разработкой систем ИИ. В частности, с его помощью можно построить синтетический датасет на основе таблицы с данными клиентов (например, возраст, регион, история транзакций). Он выглядит правдоподобно, но будет очищен от каких-либо реальных персональных данных.

В основе табличных моделей лежит высокопроизводительный фреймворк TabularARGN для обработки смешанных сводов данных, также предложенный инженерами из MOTSLY AI. Как пишут авторы, он позволяет сгенерировать миллионы синтетических записей за несколько минут (даже в вычислительных средах на CPU). В качестве языковой модели по умолчанию используется LSTM без предварительного обучения (LSTMFromScratch-3m).

Документация у проекта довольно исчерпывающая и описывает работу с таблицами, временными рядами, текстом, а также настройку окружения: с использованием Docker и изолированных сред без доступа к интернету. Все это с примерами кода и пошаговыми руководствами для быстрого старта.

Автопилот для LLM

DataDreamer — еще одна открытая Python-библиотека, которая появилась в 2024 году. Это академический проект — её разработали исследователи из Университетов Пенсильвании и Торонто. Их целью было упростить генерацию синтетических датасетов и улучшить воспроизводимость исследований с LLM.

Библиотека позволяет запускать многошаговые пайплайны, используя открытые модели или коммерческие LLM, доступные через API. DataDreamer интегрируется с Hugging Face Hub для загрузки датасетов и публикации результатов, автоматически генерируя карточки данных и моделей с метаданными. Инструмент распространяется под лицензией MIT. В документации можно найти инструкции по установке, примеры кода и сценарии для генерации синтетических датасетов.

В проекте можно отметить удобный API, интеграцию с Hugging Face и автоматическое кэширование, упрощающее ML-исследования.

Больше о работе с данными расскажем 13 августа — подключайтесь.

Если нужно сгенерировать синтетические данные — подборка открытых решений +9

Датасеты без рутины

Масштабируемые пайплайны

Безопасная синтетика

Автопилот для LLM

Комментарии (0)