На прошлой неделе в OpenAI посреди ночи случился переполох. Был выпущен GPT-5.2, и трон мирового ИИ снова сменил владельца.

Крупное обновление всего через четыре месяца - это необычно. Триггером стало давление конкурентов. Reuters сообщает, что Альтман объявил «красный код» еще в начале декабря, чтобы ускорить разработку, и подоплекой этого стал ответ на Gemini 3 от Google.

Сама OpenAI позиционирует это не как набор новых фич, а так: «Мы улучшили производительность в таких областях, как интеллект, обработка кода и понимание длинных текстов, и особенно усилили возможности создания таблиц, презентаций и выполнения других сложных многоэтапных задач».

Другими словами, GPT-5.2 - это не «мажорное обновление», а скорее отточенная версия, которая повышает надежность, работу с длинным контекстом, использование инструментов и генерацию для практических приложений. Можно с уверенностью сказать, что это не новая игрушка, а рабочий инструмент, который стал проще в использовании.

И раз уж мы заговорили о том, что ИИ становится серьезным рабочим инструментом, а не просто развлечением, критически важно иметь к нему правильный доступ.

Именно для этого вы можете использовать платформу BotHub.

Здесь вы можете экспериментировать с разными моделями и сравнивать их стили. Всё это - без VPN и с удобной оплатой российскими картами.

По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе прямо сейчас!

В последние годы «агентный ИИ» выполняет сложные серии действий: LLM вызывает инструменты, делает выводы и, наконец, выдает окончательный ответ. Для оптимизации этих действий стандартным подходом было использование обучения с подкреплением (RL), чтобы «учить хорошие действия через награды». Но проблема в том, что:

  • RL дает только простую скалярную награду - «правильный ответ или нет», что делает обучение крайне неэффективным.

  • Кроме того, дообучение (fine-tuning) модели требует масштабного развертывания и вычислительных затрат.

В прошлом году я делала видео о DSPy, и с тех пор он добился значительного прогресса. По своей сути, DSPy рассматривает языковые модели как уникальные «устройства», похожие на CPU и GPU в глубоком обучении.

В DSPy вам нужно только объявить требуемые «Естественно-языковые сигнатуры» (Natural Language Signatures), не беспокоясь о конкретных деталях реализации промпта (на самом деле, после года практики мы обнаружили, что беспокойство об этих деталях по большей части бессмысленно и не меняет того факта, что выходы LLM нестабильны).

DSPy можно понимать так: на основе этих сигнатур он может автоматически генерировать, оптимизировать и донастраивать промпт, в конечном итоге выдавая результаты, соответствующие ожиданиям.

Идея GEPA: Поощрение LLM «рефлексировать над собственными неудачами»

Вместо использования обучения с подкреплением, GEPA (Genetic-Pareto Prompt Optimizer - Генетико-Парето оптимизатор промптов) использует подход, при котором LLM сами анализируют свое поведение на естественном языке и предлагают, как улучшиться в следующий раз. Другими словами, вместо подкручивания параметров модели, мы рефлексируем и развиваем сам «промпт».

Позвольте мне провести быструю демонстрацию живого чат-бота, чтобы показать, что я имею в виду.

Я подготовлю SPACE_KNOWLEDGE (знания о космосе). Эта техника - альтернативный способ обучения модели, который превосходит обучение с подкреплением. Я задаю вопрос о космосе: «Какой космический телескоп самый мощный?». Если вы посмотрите, как чат-бот генерирует ответ, вы увидите следующее:

Агент использует TF-IDF (Term Frequency Inverse Document Frequency), чтобы рассчитать частоту терминов (как часто слово появляется в документе и насколько оно редкое во всех документах), затем использует косинусное сходство, чтобы найти фрагменты, которые действительно похожи на ваш вопрос, а не просто имеют случайные совпадения слов. Как только три наиболее релевантных фрагмента найдены...

Затем Агент использует RAG на основе уверенности (confidence-based RAG), применяя цепочку рассуждений (chain-of-thought) для генерации ответа плюс уровня уверенности. Так он может честно сказать вам: «У меня недостаточно информации», вместо того чтобы галлюцинировать.

В то же время, многоступенчатый RAG (multi-hop RAG) идет дальше: сначала извлекает факты в виде маркированного списка из контекста, затем синтезирует эти факты в исчерпывающий ответ. Этот двухэтапный процесс критически важен для сложных вопросов, требующих объединения информации из нескольких источников, потому что он не дает ИИ-агенту запутаться или упустить связи.

И вот здесь GEPA вступает в игру и меняет правила: вместо ручной настройки промптов или использования старых оптимизаторов вроде MIPROv2, GEPA использует генетические алгоритмы. Он комбинирует хорошие промпты, чтобы создавать лучшие.

Он использует оптимизацию по Парето, чтобы поддерживать несколько эффективных промптов, а не один. Он также использует рефлексию, обучаясь на ошибках путем чтения текстовой обратной связи и внесения исправлений.

Со временем это помогает GEPA автоматически генерировать всё более качественные промпты.

Он строит дерево эволюции промптов. Каждое новое улучшение растет как ветка на дереве. Каждая ветка сохраняет то, что работало раньше, и добавляет несколько улучшений. Шаг за шагом промпты становятся ближе к идеальным инструкциям для задачи RAG. И он делает это в 35 раз эффективнее, чем MIPROv2, генерируя промпты, которые в 9 раз короче, но работают на 10% лучше.

Что выделяет GPT-5.2?

Давайте начнем с самых шокирующих данных. Один из тестов, используемых для измерения производительности ИИ, называется «ARC-AGI-2».

Это тест, требующий решения абстрактных головоломок с первого взгляда (через озарение), и он не полагается на «поиск ответов в прошлых данных» (жульничество). Другими словами, это тест, измеряющий «врожденный интеллект». И посмотрите на этот счет:

  • GPT-5.1: 17.6%

  • Gemini 3 Pro: 31.1%

  • GPT-5.2: 52.9% (+35.3 пункта!)

Этот рост сумасшедший. Это более чем в три раза выше результата предыдущей версии 5.1. Это почти вдвое больше результата Gemini.

Если предыдущие ИИ были как «гении, вызубрившие учебники слово в слово», то GPT-5.2 эволюционировал в «гениев, которые могут решать сложные проблемы, которых они никогда раньше не видели, с помощью смекалки». Расхожая фраза ИИ «Я не могу это сделать, потому что меня этому не учили» уходит в прошлое.

Следующая метрика, заслуживающая внимания - «GDPval». Этот тест измеряет, насколько хорошо можно выполнять «реальные задачи», такие как исследования, планирование и принятие решений.

  • GPT-5.1: 38.8%

  • Gemini 3 Pro: 53.5%

  • GPT-5.2: 70.9% (+32.1 пункта!)

Опять же, результаты ошеломляющие. В версии 5.1 ИИ был «стажером-новичком, ожидающим инструкций», но в 5.2 его повысили до класса «менеджера, который строит планы и управляет проектами».

Те, кто жаловался, что «ИИ умный, но сложный для использования в работе», будут поражены «профессиональными навыками» версии 5.2.

В чем уникальность GEPA?

Основная концепция GEPA берет начало в сути человеческого обучения - рефлексии.

Речь не просто о добавлении новых инструкций. Скорее, как опытный наставник, он изучает прошлые попытки, анализирует успехи и недостатки, а затем предлагает лучшие решения.

GEPA строит дерево эволюции промптов, позволяя каждой оптимизации расти подобно ветви, накапливая улучшения и постепенно приближаясь к оптимальному промпту.

В отличие от традиционного обучения с подкреплением (RL), GEPA использует рефлексивные способности языковых моделей в сочетании с текстовой обратной связью, специфичной для предметной области, а не полагается исключительно на одну скалярную метрику.

Это сродни тому, как дать модели «рентгеновское зрение», позволяя ей замечать мелкие детали в задаче и выдавать сильные результаты всего за несколько шагов.

Давайте начнем

Давайте теперь шаг за шагом разберем процесс и найдем ответ на вопрос, как использовать DSPy 3, оптимизатор GEPA и Агентный RAG. Мы установим библиотеки, поддерживающие модель.

pip install requirements

Хочу сообщить, что код, которым я делюсь здесь - это лишь часть моей работы. Если вам нужна полная папка, вы можете найти её на моем Patreon. Этот код отнял у меня значительное количество времени.

Term Frequency Inverse Document Frequency (TF-IDF)

Итак, я создаю ретривер (поисковик) на основе TF-IDF, чтобы находить документы, которые лучше всего соответствуют вопросу пользователя.

Сначала он сохраняет все документы и разбивает каждый на простые слова в нижнем регистре, удаляя пунктуацию, чтобы текст был чистым и легким для сравнения.

Затем он просматривает все документы вместе и вычисляет, насколько важно каждое слово во всей коллекции: слова, которые появляются во многих документах, становятся менее важными, а слова, появляющиеся только в нескольких - более важными.

Когда поступает запрос, он очищается и разбивается на слова таким же образом, и каждому слову присваивается оценка на основе того, как часто оно появляется и насколько оно редкое в целом.

Затем ретривер сравнивает запрос с каждым документом, измеряя, насколько похожи их оценки слов, используя математический метод (косинусное сходство), который проверяет, насколько близко они «смотрят» в одном направлении.

Каждый документ получает оценку сходства, документы сортируются от лучшего совпадения к худшему, и, наконец, несколько наиболее релевантных документов возвращаются пользователю.

class TFIDFRetriever:
    """
    TF-IDF ретривер. Это умнее, чем простое сопоставление ключевых слов.
    TF: Слова, часто встречающиеся в документе, важны для этого документа.
    IDF: Слова, встречающиеся во многих документах, менее важны в целом.
    Пример: "the" встречается везде (низкий IDF), а "космонавт" - специфично (высокий IDF).
    """
    # ... (код инициализации и токенизации) ...
    
    def _compute_idf(self) -> dict[str, float]:
        """Вычисляет IDF для всех терминов в корпусе."""
        # ... (логика вычисления) ...
        return idf
    
    def _compute_tfidf(self, tokens: list[str]) -> dict[str, float]:
         """Вычисляет вектор TF-IDF для списка токенов."""
         # ...
         
    def _cosine_similarity(self, vec1: dict, vec2: dict) -> float:
        """Вычисляет косинусное сходство между двумя разреженными векторами."""
        # ...
        return dot_product / (norm1 * norm2)

    def __call__(self, query: str) -> list[str]:
        """Извлекает top-k документов, наиболее похожих на запрос."""
        # ...
        return [doc for score, idx, doc in scores[:self.k]]

Retrieve Argumentation Generation (Генерация с аргументацией поиска)

После этого я создала два метода для ответа на вопросы с использованием генерации, дополненной поиском (RAG).

В первом случае Агент берет вопрос, ищет наиболее релевантные документы, объединяет их в один контекст, а затем генерирует ответ, одновременно сообщая, насколько он в нем уверен. Он сохраняет использованные документы, чтобы вы могли позже посмотреть, откуда взялся ответ.

Вторая система создана для более сложных вопросов, требующих большего размышления.

Она сначала извлекает документы тем же способом, затем вытаскивает только важные факты, относящиеся к вопросу, и, наконец, комбинирует эти факты для создания четкого ответа. Она также сохраняет и извлеченные документы, и выделенные факты, чтобы вы могли проверить каждый шаг и понять, как был построен финальный ответ.

class RAGWithConfidence(dspy.Module):
    """RAG, который сообщает о своей уверенности в ответе."""
    # ... (код модуля) ...

class MultiHopRAG(dspy.Module):
    """
    Multi-hop RAG: Сначала извлекает факты, затем синтезирует ответ.
    Это помогает со сложными вопросами, требующими объединения информации
    из нескольких источников.
    """
    # ... (код модуля) ...
    
    def forward(self, question: str):
        # Шаг 1: Поиск
        docs = self.retriever(question)
        context = "\n\n".join(docs)
        
        # Шаг 2: Извлечение релевантных фактов
        extraction = self.extract(context=context, question=question)
        
        # Шаг 3: Синтез ответа из фактов
        result = self.synthesize(facts=extraction.facts, question=question)
        
        # Прикрепление промежуточных результатов для проверки
        # ...
        return result

Эволюция рефлексивного промпта:

Затем я использую GEPA, который учится и улучшает ответы шаг за шагом. Сначала метрика проверяет ответ модели по сравнению с ожидаемым ответом. Если ответ совпадает точно, она дает полный балл.

Если ответ верен лишь частично, она дает более низкий балл и объясняет, чего не хватает. Если ответ неверен, она дает низкий балл и четкую обратную связь об ошибке.

Эта обратная связь важна, потому что GEPA читает её и учится тому, как улучшить будущие промпты. Простой модуль RAG затем работает, принимая вопрос, извлекая связанные документы, объединяя их в контекст и генерируя ответ из этого контекста.

GEPA использует оценки и обратную связь от метрики, чтобы со временем автоматически развивать лучшие промпты для этой системы RAG.

def gepa_metric(gold, pred, trace=None, ...):
    """
    Функция метрики GEPA с обратной связью.
    GEPA особенная, так как может использовать текстовый фидбек для направления эволюции.
    Эта функция возвращает и балл, И фидбек о том, что пошло не так.
    """
    # ... (логика сравнения expected и actual) ...
    
    if overlap > 0.5:
        score = 0.7
        feedback = f"Частично верно. Ожидалось '{gold.expected_answer}', но получен смежный контент."
    elif overlap > 0:
        score = 0.3
        # ...
        
    # Возврат оценки с фидбеком для рефлексии GEPA
    return ScoreWithFeedback(score=score, feedback=feedback)

Мои мысли:

GPT-5.2, возможно, и не та модель, которая делает волшебные вещи, но это модель, которая может превратить «задачи, которые вы раньше не решались доверить ИИ» в «задачи, которые вы можете доверить с уверенностью».

Хотя будущие вызовы остаются — такие как мультимодальная поддержка, оптимизация в реальном времени и обеспечение безопасности — они также представляют собой значительные возможности для развития.

Ожидается, что после 2025 года GEPA приведет к инновационным приложениям, таким как самокорректирующиеся системы ИИ, нейро-символическая интеграция и мета-промпт инжиниринг. GEPA, несомненно, продолжит играть центральную роль в будущем технологий промптинга.

Комментарии (12)


  1. Lambrusco
    23.12.2025 08:09

    поделюсь своим обывательским опытом использования нейросетки гугла (которая на странице поиска доступна).

    1 ) Хочу узнать подробно, как мне на моей машине делать понизить передачу методом двойного выжима с перегазовкой. В начале диалога пишу - "вызываю тренера по автоспорту и автомеханика". Далее пишу что у меня за машина, модель, год выпуска, двигатель и выдаю вышеуказанную просьбу объяснить. В результате получаю четкие инструкции, с учетом конкретно моего авто. При этом, нейросетка даже учитывает, что у моего авто педаль газа и педаль тормоза имеют значительную разницу по высоте.

    2) Запрос на фанфик кроссовер. Также в начале пишу - "вызываю специалиста-фаната лора вархаммер и специалиста-фаната лора средиземья". вторым запросом - "с фанатично строгим соблюдением лора и полностью без юмора сделай кроссовер по запросу, который я напишу тебе далее". И всё. никакого вранья, додумывания или неточностей. Идеальные описания и никаких косяков


    1. acsent1
      23.12.2025 08:09

      А сравнения проводил? С доп промптом и без него?


      1. ITurchenko
        23.12.2025 08:09

        Можно добиваться того же результата, но для каждого ответа тогда нужно уточнять с какой точки зрения этот ответ нужен.

        Когда интересовался у самой модели, она отвечала что по-умолчанию выдает усредненный ответ на все случаи жизни. А при ответе в роли "персон" смотрит на проблему с заданных точек зрения (например с точки зрения инструктора по вождению или механика который будет потом обслуживать машину для примера комментатора выше).

        Еще можно просить чтобы персоны отвечали не по очереди, а через диалог друг с другом. Тогда нейросеть может иногда сама себя раскрутить на доп.рассуждения без пользовательского подталкивания последующими запросами.


      1. Lambrusco
        23.12.2025 08:09

        проводил. без фразы "фанатично строгим соблюдением лора" (слово "фанатичным" - не обязательно, но мне нравится) нейросетка допускает отступления, которые по сути являются галлюцинациями.

        Отключение юмора также дает большую достоверность, с точки зрения лора


  1. ToniDoni
    23.12.2025 08:09

    Хотелось бы увидеть пример построенного дерева эволюции промптов.


  1. Anti2024
    23.12.2025 08:09

    Очередной трешак нагенеренный ии для продвижения очередей баблососки - прокладки к ии для умственно отсталых, которые не могут завести карточку иностранного банка.


    1. anyagixx
      23.12.2025 08:09

      Да пипец, аж тошнит


    1. thethee
      23.12.2025 08:09

      Я такие статьи пролистываю до сути. Про метод GEPA не знал, звучит интересно, но по статье в нем разбираться не буду. По сути нужен датасет с метрикой (точность ответов, или количество фолзов, или F1 например) и можно подобрать промпты или программный код, который будет давать результаты.

      Если для параметризированных алгоритмов давно придумали всякие поиски по сетке, байесовские методы (я большой фанат Optuna), то для алгоритмов с неизвестными и плохо формализуемыми параметрами (найти оптимальный системный промпт для конкретной задачи LLM) этот GEPA выглядит как минимум приемлемо.


      1. thethee
        23.12.2025 08:09

        И внезапно мне как раз нужен был такой вот эволюционный метод для того чтобы по стилю и точности максимально подогнать ответы одной нейронки (более мелкой) к другой. И тут Гугл даёт рекомендацию этой статьи. Совпадение?


  1. phenik
    23.12.2025 08:09

    Затем я использую GEPA, который учится и улучшает ответы шаг за шагом. Сначала метрика проверяет ответ модели по сравнению с ожидаемым ответом. Если ответ совпадает точно, она дает полный балл.

    Если ответ верен лишь частично, она дает более низкий балл и объясняет, чего не хватает. Если ответ неверен, она дает низкий балл и четкую обратную связь об ошибке.

    Похоже на еще большую зубрежку под присмотром. Как человек решает нестандартные задачи, особенно научно-технические? Есть много приемов, свои у разных исследователей. Примеры двух из них, наиболее распространенных.

    Первый, концептуальный перенос, концептуальная метафора, в просторечии решение по аналогии. Решение задачи может прийти совершенно из другой области и начаться буквально с игры слов (из исследований этого приема и истории - 1, 2). Классический пример использования метафоры в физике планетарная модель атома. Резерфорд вдохновился идеей из астрономии для решения проблемы устройства атома, которое удовлетворяло бы имеющимся на то время эмпирическим данным. Однако метафорические приемы мышления не сводятся только к фигурам речи, как можно подумать, они связано с образными формами мышления, воображением, интуицией. Эйнштейн придавал большое значение им говоря, что "воображение важнее знаний", достаточно вспомнить его результативную практику мысленного экспериментирования. Эти когнитивные формы пока фактически никак не реализованы в ЯМ, а реализована, в основном, ассоциативная форма мышления (в вероятностной форме связей между токенами), см. типологию мышления - подробнее. Пока они только намечается в мультимодальных моделях, но проблема их реализации упирается в ограничения трансформерной архитектуры. Требуется, как минимум, введение рекуррентности, состояний, т.е. перехода от статики к динамике, в их внутренней структуре, или реализовать это в виде отдельного структурного блока системы.

    Если первый прием связан с образными формами мышления, то второй, концептуальное конструирование, и как результат конструкты (тут определение точнее), больше с абстрактно-логическим мышлением. Новые концепты буквально конструируются из уже имеющихся в соответствии с решаемой задачей и имеющимися данными, наполняя их новым содержанием. Классические примеры конструктов - корпускулярно-волновой дуализм в КМ и пространственно-временной континуум со своими спецификами в СТО и ОТО, как соединения понятий классической физики. Очевидно, такие решения возникали не по аналогии, их просто не существовало тогда, а путем теоретического конструирования из уже имеющихся идей. Конструктивистский дух науки имеет корни в эпистемологическом конструктивизме, одним из основоположников которого был И. Кант с его знаменитой теорией познания утверждающей активную роль субъекта в процессе познания (обзоры 1, 2). Хотя его элементы в философии и математике прослеживаются еще с античных времен, и естественно, присутствуют в самом языке.

    Может возникнуть возражение, что эти приемы мышления востребованы на переднем крае науки, и не требуются для задач решаемых ЯМ на практике. Однако нет, в упрощенных вариантах они широко распространены, как на профессиональном, так и бытовом уровне. Научившись в школе решать задачи на переливание воды в бассейнах в дальнейшем на практике по аналогии их решение может переноситься на любые задачи с потоками, трафиком людей, товаров, транспорта, и тд. А конструктивизм языка на бытовом уровне в разных формах постоянно присутствует в литературе, культуре, социальных медиа, и тд. Достаточно вспомнить такой продукт социального конструктивизма, как мифические сущности вроде кентавров, русалок и драконов, совмещающих черты различных животных, и не только, например, изрыгающих пламя, как дракон. ЯМ в той или иной степени также используют эти приемы, т.к. обучены на таких примерах. Другое дело использовать их в полной мере, как метод, особенно в перспективном ИИ, который сможет решать актуальные задачи познания, особенно в области фундаментальной физики явно испытывающей дефицит свежих, работающих метафор и конструктов. Надежда на конструкт струны в ТС, как многомерной конечной волны, пока не оправдывает возлагавшихся на него надежд. А времени с его появление прошло уже лет сорок с лишним. На смену приходит метафора реальности, как квантового компьютера, но как и в случае с метафорой мозга, как компьютера, она хоть и полезна, но не дала пока удовлетворительного решения проблем физики. Однако для полноценной поддержки этих приемов ИИ должен обладать способностью моделировать не только к ассоциативные мышление, но и другие формы - образное, критическое, полноценное абстрактно-логическое, т.е. обладать способностью абстрагировать понятия и манипулировать символами в соответствии с правилами, с их полноценной интеграцией в единый механизм вывода, как это организовано в мозге. Естественно, устранив избыточность и ограничения биологической реализации.

    Давайте начнем с самых шокирующих данных. Один из тестов, используемых для измерения производительности ИИ, называется «ARC-AGI-2».

    Другими словами, это тест, измеряющий «врожденный интеллект». И посмотрите на этот счет:

    • GPT-5.1: 17.6%

    • Gemini 3 Pro: 31.1%

    • GPT-5.2: 52.9% (+35.3 пункта!)

    Этот рост сумасшедший. Это более чем в три раза выше результата предыдущей версии 5.1. Это почти вдвое больше результата Gemini.

    Если предыдущие ИИ были как «гении, вызубрившие учебники слово в слово», то GPT-5.2 эволюционировал в «гениев, которые могут решать сложные проблемы, которых они никогда раньше не видели, с помощью смекалки». Расхожая фраза ИИ «Я не могу это сделать, потому что меня этому не учили» уходит в прошлое.

    Хорошо бы, но верится с трудом, хотя какой-то прогресс может быть. Тест уже известный, и если исходно была поставлена задача натаскать модель на решение задач именно такого класса, чтобы добиться рекордных процентов в конкурентной борьбе, то это можно достичь специальными методами обучения, включая упомянутым выше. Возможно в ущерб результатам других тестов. Такое уже не раз было с их продуктами судя по отзывам пользователей.

    Пока ЯМ проявили себя, в сравнении с человеком, в решении задач с уже известной логикой решения, но имеющих высокоразмерные пространства решений, недоступные для решения не только для человека, но и за приемлемое время специализированным программам, например, как фолдинг биомолекул. Вот тестовая задача, найти признанное научным сообществом, работающее решение проблем в той же физике, используя концептуальный перенос (метафоры) или конструктивистский подход. Выйти за рамки ассоциаций, пусть и продвинутых, недоступных ограниченным когнитивным возможностям человека (по быстродействию, пропускной способности, объемам памяти, ресурсу внимания, и тд). Пока то что печатается на эту тему с явным соавторством ЯМ, включая на Хабре, типа 1, 2, 3, 4, теории Всего) являются больше обычной подгонкой под известные результаты, фактически то чем страдает ТС разработанная самими физиками, не давая никаких проверяемых предсказаний. Метафоры в этих самодельных теориях носят поверхностный характер, вроде физическая реальность это поле чего-то там, например, информационное, или граф связей чего-то. Это связано с тем, что нет новых эмпирических данных, которые указали бы на выбор работающей метафоры, как в случае с выбором Резерфордом планетарной модели атома, или факта постоянства скорости установленного в опытах Майкельсона-Морли указавшего Эйнштейну на концептуальную связь пространства и времени в СТО в виде единого континуума. Тем не менее, такое совместное с ЯМ творчество полезено, т.к. совершенно случайно из-за их большого числа может привести к угадыванию полезной метафоры или работающих конструктов)


    1. thethee
      23.12.2025 08:09

      Ответ тянет на отдельную статью с обзором методов обучения и сравнения с методами для LLM. Планируете что то подобное писать в будущем?

      По поводу решения по аналогии, судя по документации, GEPA подсматривает в задачи обучающей выборке и LLM-судья (тот который рефлексией занимается) прописывает характеристики, в том числе может написать в промпт примеры решений типовых задач, которые чаще всего встречаются. И дальше на валидационной/тестовой выборке это также приносит плоды, если модель не воспринимает примеры буквально. Но если воспринимает буквально, по методикам LLM-судья должен это определить и поменять формулировки. В этом однозначный плюс эволюционного подхода.

      Тут ещё правильно тестировать надо. Если речь про RAG, то в тестовую выборку я бы добавлял документацию по продукту которого вообще не было в обучающей выборке, которую писали другие люди и о которой модель вообще ничего не знает. Тогда можно говорить о генерализации подхода. Тут все зависит от уровня модели-судьи. Если та же мелкая модель пытается научить саму себя, подозреваю что результаты будут посредственные даже с высоким уровнем бюджета.

      Понятное дело, что все это попытки закрыть дыры в LLM подходах, но как говорится чем богаты и это все надо рассматривать как обертку над инструментом, а не попытку сделать "интеллект"


      1. phenik
        23.12.2025 08:09

        Возможно, однако на Хабре в основном скептически относятся к таким сравнениям возможностей технологий ИИ и человека, тем боле заимствованию идей из когнитивных исследований для его развития. Преобладает вера в некий особый путь развития ИИ отличный от интеллекта человека. Даже коменты на эти темы иногда минусуют, как в этой относительно недавней ветке обсуждения числовой компетенции ЯМ. За пояснения спасибо.