Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.
Галлюцинации останутся главным недостатком языковых моделей
Причины кроются в самой архитектуре моделей: LLM обучаются на огромных массивах данных, но не способны самостоятельно проверять достоверность информации. Ответы языковых моделей невозможно предугадать, поэтому и саму проблему галлюцинаций устранить сложно. Даже с доступом к актуальной информации LLM иногда выдают ответы, основанные на неправильных данных. ChatGPT часто вырывает данные из контекста или предлагает устаревшую статистику, из-за чего приходится самостоятельно проверять ответы.
В 2025 году компании-разработчики, такие как OpenAI, Google и Anthropic, сосредоточатся на интеграции моделей с базами проверенных данных и усилении фильтров для критической информации. Большинство компаний уже используют RAG-подход для устранения галлюцинаций. Плюс RAG дополнительно усиливает надежность моделей: он позволяет сначала выполнить поиск релевантных данных в подключенных базах, а затем генерировать ответы на их основе. То есть модель еще будет предоставлять ссылки на источники. Сейчас так делают GPT-4, Gemini и Perplexity.
Однако не стоит ожидать, что проблему с галлюцинациями тут же решат в 2025 году. Чтобы разучить модели «обманывать», нужны значительные ресурсы. Прежде всего, электричество, потребление которого, по прогнозам, вырастет на 160% к 2030 году из-за разработки LLM.
Перед тем как интегрировать LLM в работу, рекомендую провести им тесты на галлюцинации и задать вопросы из нужной вам сферы. Сделать это бесплатно и без VPN можно на платформе LLMArena. Сервис позволяет сравнить две языковые модели и выбрать ту, которая лучше справляется с вашими задачами.
Подход Fine-tuning потеряет актуальность
Fine-tuning никогда не был универсальным решением. На практике его эффективно применяют лишь в одном случае из двадцати. Добиться качественного результата, который сохраняет калибровку HLRF (High-Level Reasoning Framework) и не вызывает галлюцинаций, удается еще реже. Большинство задач уже решают базовые модели. Современные LLM, такие как GPT, обучены на огромных объемах данных и успешно справляются с широким спектром задач при грамотной формулировке запроса.
Fine-tuning имеет смысл только для задач, требующих специфических знаний или узкого контекста, которых нет у базовой модели. Главный минус подхода — требует вычислительных ресурсов и времени. Для качественного результата нужен большой объем точной и релевантной информации. А если модель перегрузить, то снизится ее универсальность. К примеру, она будет выдавать однотипные ответы.
В 2025 году fine-tuning, вероятно, станет еще менее востребованным, так как современные базовые модели способны решать большинство задач без дообучения. Вместо этого акцент сместится на prompt engineering — умение правильно формулировать запросы для получения нужных результатов без дополнительной настройки.
Вектор на защиту данных и безопасность
Большие языковые модели работают с огромными объемами информации, в том числе конфиденциальной. Проблема в том, что они могут «запомнить» куски этих данных. Например, если модель обучается на открытых источниках или подключается к системам через API, всегда есть риск, что информация случайно или намеренно утечет.
Облачные сервисы добавляют еще больше рисков. Данные отправляются на удаленные серверы для обработки, и в этот момент злоумышленники могут попытаться перехватить их или найти уязвимости. Бывали случаи, когда слабые места в языковых моделях использовались для вытягивания чужих секретов.
В 2025 году защита данных станет приоритетом. Компании начнут больше вкладываться в безопасные решения. Например, многие будут использовать локальные модели, которые обрабатывают данные на месте, без отправки в облако. Также усилится контроль над тем, что именно модели могут «запоминать», чтобы минимизировать риск утечек.
Прорыв в ИИ-агентах откладывается
Хотя многие говорят, что в новом году нас ждет прорыв в сфере автономных систем, это вызывает сомнения. Проблема не в том, что такие агенты технически невозможно создать — при желании и серьезных вложениях можно добиться впечатляющих результатов. Но на практике это очень сложный продукт.
Агенты требуют учета огромного количества переменных, больше, чем классические чат-боты. Каждая из них добавляет сложности на этапах проектирования, тестирования и поддержки. Такие решения могут позволить себе только крупные компании, например, Amazon. Их агент Amazon Connect Contact Lens анализирует поведение клиентов по звонкам в реальном времени и работу сотрудников колл-центра. Такой агент действительно может взять на себя роль отдела контроля качества.
Хотя спрос на ИИ-агентов растет, но ждать революции не стоит. А вот количество фреймворков для разработки агентов точно увеличится. Все хотят повторить успех LangChain и занять свое место на рынке. Даже Pydantic подключился с новым подобным проектом. Так что через пару лет можно ожидать мощные и доступные инструменты, которые сделают разработку агентов проще.
Режимы работы, подобные o1-preview, станут популярнее
Они позволяют увеличить когнитивные способности моделей без сбора огромных объемов данных и создания сложных инфраструктур.
Да, системы в этом режиме работают медленнее и обходятся дороже, но это оправдано, когда требуется высокая когнитивная нагрузка. Такие режимы особенно полезны в задачах аналитики, сложных логических выводов и принятия решений в реальном времени.
Например, при работе с финансовой аналитикой модель в режиме o1-preview может обрабатывать данные из отчетов в реальном времени, делать прогнозы с учетом большего числа факторов и анализировать длинные временные контексты. Вместо нескольких месяцев она сможет оценивать годовые тренды, что значительно увеличивает точность и полезность выводов.
Уникальные функции в API
Провайдеры будут активно добавлять новые удобные функции, чтобы выделяться на рынке.
Structured Outputs (ограниченная декодировка) позволяет задать модели жесткие ограничения на формат ответа. Например, модель должна вернуть JSON-объект с заданным количеством полей и четкими типами данных. OpenAI впервые представила режим Structured Outputs в 2024 году вместе с gpt-4-turbo и gpt-3-turbo. С тех пор поддержка JSON стала стандартом для всех новых моделей компании.
Функция пригодится в сложных задачах, таких как custom chain-of-thought (пользовательские цепочки рассуждений), где модель должна выдавать ответы с последовательным выполнением шагов.
Работа с PDF на уровне Text + Vision. Современные модели умеют анализировать PDF-файлы, включая текст и изображения. Правда многие из них проводят анализ отдельно, часто LLM просто пропускают картинки, таблицы, графики и обращают внимание только на текст. PDF-документы обычно содержат не только текст, но и визуальные данные, которые важны для понимания контекста.
Интеграция анализа текста и изображений в API открывает новые возможности для работы с договорами, отчетами и научными статьями. Например, Anthropic разбивает PDF-файл на отдельные элементы: текстовые и графические, чтобы сделать анализ проще и точнее.
Системы RAG (Retrieval-Augmented Generation) + Execution Sandbox. Это возможность подключить к модели пользовательские базы данных и протестировать ее работу в контролируемой безопасной среде. «Песочница» изолирована от основной системы, поэтому даже если в сгенерированном коде есть ошибки или вредоносные элементы, они не повлияют на основную среду.
Самый известный пример — OpenAI Assistants API. Перед интеграцией вы собираете API-ассистента: прописываете для него инструкции, загружаете базы знаний. Затем тут же в Playground его можно протестировать, чтобы вовремя устранить неполадки и только затем внедрять в свои продукты.
AGI в 2025 году точно не появится
Создание AGI — задача сложнее, чем разработка агентов. Она требует моделирования человеческого разума: эмоций, логики, креативности. Современные модели, такие как GPT, хоть и впечатляют, остаются узкоспециализированными. Они анализируют текст, а не понимают его по-настоящему. Пока AGI остается мечтами в фильмах о будущем.
Вместо AGI все больше компаний будут пытаться догнать и обогнать OpenAI. Это уже заметно по бенчмаркам, где конкуренты стремятся показать лучшие результаты. Вы тоже можете принять участие в формировании рейтинга и задать тренды LLM на 2025 год. На платформе LLMArena в режиме анонимного сравнения система автоматически подберет две модели, которые вы сможете бесплатно протестировать. В честной борьбе выберите ту, которая оказалась сильнее остальных.
А каковы ваши прогнозы на 2025 год? Пишите в комментариях.
Комментарии (13)
Moog_Prodigy
26.12.2024 13:04Все эти проблемы безусловно, имеются, и галлюцинации - самая главная. Но забывают почему-то упомянуть о нулевой проблеме
судного дня LLM : LLM вам не принадлежат, данные тоже, монополизация компаний может дать очень нехорошие тенденции. Понятно, что существуют self-hosted LLM типа llama и другие, но они на порядок в "потребительских качествах" уступают продуктам OpenAi. Хотя если допиливать системный промт, как то обрабатывать эти промты перед выдачей, зацикливать их - дает результаты сильно лучше, чем голые модельки.Плохо: OpenAi может управлять миром (это не шутка, почти). Nvidia вообще флагман, но с таким подходом как бы первая не купила вторую, в долгосроке.
Хорошо: Они доказали что это (ИИ, вот это вот что сейчас) возможен, и на этом принципе клепать ИИ начали другие компании а то и энтузиасты.
sdramare
26.12.2024 13:04Электростанция вам тоже не пренадлежит, но в силу привычки вас это не беспокоит.
Moog_Prodigy
26.12.2024 13:04Ну, если в такую аналогию, то маленькие электростанции под названием "дизель-генератор" или "бензин-генератор" имеют многие люди, и я в том числе. Всякое ж бывает. Если еще уменьшить масштаб, то есть различные электрогенераторы на мускульной тяге, где нужно просто вращать рукоятку. Солнечные панели, ветряки - тоже оно. То есть если вот просто край надо добыть э\э и не зависеть ни от кого - решение имеется)
Электростанцию интересуют только мои деньги. На них они купят уголь, выплатят ЗП персоналу, еще и сети всякие по пути Х10 от тарифа докинут. Им неважно, куда я трачу э\э - майню биток, работаю на станке, держу сервер или просто грею улицу. Их устраивает, меня устраивает - ноль проблемс.
В LLM все немножечко не так: вы можете обломаться с первым же запросом, потому что "я не хочу отвечать на этот и подобные вопросы, давайте поболтаем о чем нибудь другом?". Утечки из этих самых запросов - кто может гарантированно доказать, что их нет? Так называемый alignment может не просто запрещать ответы LLM, нет, но она будет отвечать ровно так, как этот самый alignment ей установили создатели. Пикабу видели? Развлекательный сайт, и неплохой вроде был но после покупки определенным лицом там все стало немножко не туда и не таким. Вот это самое и есть тот пресловутый базис, которым можно уже реально влиять на мнения людей через ответы.
sdramare
26.12.2024 13:04маленькие электростанции под названием "дизель-генератор"
"маленькую LLM" и вы себе можете позволить.
Электростанцию интересуют только мои деньги
Это тоже не так - электричество, если вы в РФ, вам поставляет государственная организация и есть огромный список чего вам можно делать, а чего нельзя. Попробуйте нарушить правила(законы) и отключение от сети это еще самое меньше что может случиться с вашим предприятием. Что касается alignment - у той же open ai, коммерческие контракты, в рамках которых вам дается и выделенные доступ и другие правила ограничения, отличные от публичной ChatGPT. Только платите и для вас сделают вашу собственную модель поверх базовой, например, без фильтра на описание химических реакций если это нужно для вашей работы.
Ard33
26.12.2024 13:04Причем здесь о1 preview если уже вышла о1 и даже уже представлена о3. Потому если и будут равняется то уже на о3 которая вийдет в январе. Поэтому прогноз намного больше оптимизма. Ну и смотря что называть AGI, почему то кажется и вторая версия теста на AGI которая появится в первой половине года не продержится долго.
BrNikita
26.12.2024 13:04Почему-то написали, что fine-tuning отменяется, хотя набирает популярность у исследователей test time training (TTT) подход и вероятно в o3 его уже начали использовать. В том же ARC Prize работа про TTT подход заняла второе место.
Ставлю на то, что в 2025 году такие подходы позволят вывести рассуждения моделей на новый уровень и можно будет говорить о достижении AGI.
Hardcoin
26.12.2024 13:04Слишком дорого. Это десятки долларов на каждый вопрос. Допустимо для сложных ответственных вопросов, но для большинства задач не подходит.
undersunich
Прогноз на 2025 год: В связи с развитием AI и LLM работы для квалифицированных программистов станет.... меньше !И соответственно вырастит безработица
Ladaga
Эта этическая проблема появилась с изобретением трактора. Теперь один трактор собой может заменить 100000 человек с лопатами. Но в итоге безработные земледельцы, меньше стали жаловаться на голод.
sdramare
Еще напомню, что от появления первой модели трактора до массового внедрения в сельское хозяйство прошло 40 лет.
Favorite101
Не забывайте о т.н. "Кривой освоения" (Adoption curve). Для механической техники (например, трактор) - это десятилетия, для цифровой - годы и даже месяцы.
Да и область внедрения нужно учитывать: трактор - тягловый агрегат, главным образом, для транспорта, или силовой (мобильный движок для приведения в движение разных механизмов). Г. Форд насчитал 95 функций (применений) трактора.
А для цифровой (компьютерной) техники трудно найти даже 5 областей, где компьютеры не применяются. А примеряются - от детских игрушек до космоса... Так что дело найдется всем, специалистов даже не будет хватать.
Hardcoin
Всё так, на нехватку программ тоже жаловаться не будут. Но кому-то придётся переехать из офиса с печеньками в "город", "на завод".