Как мы подключили LLM к поддержке, а получили идеального лжеца / forpes.ru

Главная
Как мы подключили LLM к поддержке, а получили идеального лжеца

Как мы подключили LLM к поддержке, а получили идеального лжеца

22.05.2026 17:14

xuxur 22 14000 Источник

Где‑то в начале года мы решили: давайте автоматизируем часть поддержки через LLM. Ну, знаете, идея тогда казалась почти очевидной.

У нас SaaS‑продукт, вопросы в основном типовые: «где там настройки поменять?», «данные не обновляются — почему?», «хочу сменить тариф», «webhook не приходит», «логи посмотреть». В общем, большая часть тикетов выглядела так, будто их можно закрывать роботом. Особенно когда очередной отчёт показал, что поддержка тратит кучу времени на одни и те же ответы. Симптомами были текучка выше среднего и достаточно быстрое выгорание. Вокруг все только и говорили про ИИ‑ассистентов и вот, кажется, идеальный момент чтобы их попробовать. Наконец‑то задача, у которой есть очевидная ценность для бизнеса и влияние которой будет достаточно легко измерить. Кроме этого нам казалось, что мы немного опаздываем на поезд ИИ что тоже, безусловно, давило на нас.

Мы ни в коем случае не думали о том, чтобы заменять живых операторов. План внедрения был аккуратным: ИИ отвечает на простые вопросы, сложные уходят людям, у модели есть доступ к базе знаний, и если модель не уверена — ответ не отправляется. Ну, по крайней мере, такой был план и так это выглядело на слайдах. В дальнейшем мы хотели полностью освободить саппорт от рутины, снизить выгорание и текучку. На практике система оказалась намного хаотичнее.

Как всё работало

Если совсем упростить: пользователь пишет в чат поддержки, система определяет тип тикета, простые попадают к ИИ‑ассистенту, модель генерирует ответ, и ответ сразу отправляется пользователю. Всё рабоатло без участия оператора. Все вопросы в духе: «как обновить токен», «где API key найти», «как Telegram подключить», «как изменить e‑mail», «какие тарифы бывают» обрабатывались нейросетью и даже не попадали на экран к оператору.

В первые недели всё было просто идеально: метрики были хорошими, ИИ отвечал практически мгновенно, закрывал кучу тикетов, а нагрузка на саппорт упала. Среднее время первого ответа упало в разы, некоторые тикеты стали закрываться вообще без людей. Внутри команды было такое ощущение: «О, кажется, реально работает». И какое‑то время всё действительно работало.

А потом ИИ начал выдумывать ответы

Сначала это выглядело как случайности — один пользователь спросил: «Какой лимит запросов у API на базовом тарифе?» ИИ ответил уверенно: «1000 запросов в минуту». Проблема в том, что у нас вообще нет лимитов по минутам. Никогда не было. Но ответ — загляденье: вежливо, спокойно, с форматированием и даже советом перейти на другой тариф при росте нагрузки. Пользователь поверил. Никто этого не заметил, ну, пока пользователь не вернулся уже к человеку. Мы сначала подумали: ну, единичный сбой. Спойлер: нет.

Потом таких тикетов стало появляться всё больше. Не массово, скорее как странные мелкие эпизоды, которые сначала даже не складывались в систему. Где‑то ИИ ссылался на старую документацию, где‑то обещал настройку, которой уже давно нет, где‑то уверенно объяснял поведение системы, которого вообще не существовало. И самое неприятное — пользователи часто этому верили. Потому что ответы выглядели слишком нормальными. В какой‑то момент мы начали специально просматривать логи таких диалогов и довольно быстро поняли, что проблема намного глубже, чем казалось сначала.

Самое неприятное — ИИ почти никогда не говорил «не знаю»

Вот это меня лично удивило больше всего. Если модели не хватало информации, она почти никогда не отвечала: «Я не могу найти ответ» или «Уточните вопрос». Вместо этого ИИ достраивал контекст, предполагал, придумывал, смешивал старую документацию с новой, уверенно интерпретировал непонятные запросы. И всё это звучало очень правдоподобно. В какой‑то момент модель начала ссылаться на настройки, которых в интерфейсе уже несколько месяцев не было. И это не был бред. Это было похоже на ответ уставшего сотрудника, который что‑то помнит, что‑то перепутал — но говорит уверенно.

Мы слишком поздно поняли главную проблему: она не в самих ошибках, а в том, что пользователи (а вместе с ними и мы) очень быстро начинают доверять тону и уверенности ИИ‑ассистента. Если ответ быстрый, вежливый, структурированный, профессионально звучит то мозг автоматически решает — «Это компетентно». Даже если внутри ерунда. Современные LLM делают это пугающе хорошо. Старые ошибались очевидно, а новые ошибаются убедительно.

Самый странный кейс случился как‑то ночью. По ночам никого кроме ИИ не было, а ответы на сложные вопросы составлялись с утра. Клиент написал в поддержку: перестала работать интеграция после обновления. ИИ отвечает, что проблема во «временной деградации webhook worker в EU‑регионе». При этом у нас нет EU‑региона, нет webhook worker, и вообще архитектура устроена иначе. Но сообщение было настолько уверенным, что клиент просто ответил: «Окей, спасибо, подожду фикса». Когда мы это увидели утром, у нас был один вопрос: откуда модель это взяла? Вот тут стало реально не по себе. ИИ не просто ошибался — он генерировал очень убедительные объяснения несуществующих проблем.

После этого мы начали смотреть логи внимательнее и вдруг оказалось, что таких случаев намного больше, чем мы думали. Просто большинство пользователей не замечали, не проверяли — или верили. Иногда ИИ придумывал ограничения, обещал несуществующие фичи, ссылался на старые настройки, объяснял баги выдуманными причинами. И почти никогда не говорил: «Мне не хватает информации». Как будто для модели продолжать диалог естественнее, чем признать «я не знаю».

В итоге мы откатили почти всю автоматизацию. Сейчас LLM у нас ещё используются, но совсем по‑другому. Не как самостоятельный саппорт. Скорее как помощник для операторов, поиск по документации, черновик ответа или суммаризатор длинных тикетов.

И знаете, главный вывод оказался довольно неожиданным. Проблема современных ИИ — не только в галлюцинациях. А в том, что они очень плохо умеют честно признавать: «Я не знаю». И чем умнее модели, тем это опаснее. Потому что со временем всё труднее отличить уверенный правильный ответ от уверенного вымысла.

Комментарии (22)

LLlAMuJIb
22.05.2026 17:31
#30007320
А насыпьте, пожалуйста, побольше подробностей: какой стек, какая модель, какие инструкции.
Если взять ванильную бесплатную версию от любого крупного провайдера, чтобы она чисто грепала документацию, без четких инструкций - то это вполне себе ожидаемое поведение.

Это большая языковая модель - её задача предугадывать и выдумывать. Наше счастье, что мы научились из этого извлекать то, что многие извлекают.

chrooter
22.05.2026 17:31
#30007332
История о том как мы хотели чтоб клиенты не беспокоили проблемами, а только оплачивали, но тут что-то пошло не так. Непонятно что у вас за сервис, но если есть поддержка, то на входит в ожидания клиента и подразумевает поддержку а не сухоеотваливание на бота. Как же это противно выглядит, клиентов совсем не уважать.

Kamil_GR
22.05.2026 17:31
#30007428
Странное описание, LLM так не работает. С учётом промптов и rag так плохо быть не должно.

Впрочем, в статье абсолютно нет конкретики. Никаких показателей по ошибочным ответам, никакого пайплайна...

Такое ощущение, что взяли из интернета реальную проблему LLM и натянули её на необходимость написать проходную статью на Хабр.
1. nomick
  22.05.2026 17:31
  #30010156
  Он именно так и работает. Только вчера наткнулся на подобное - запрашиваю наш ИИ сделать мне запрос к базе данных, описываю его словами в надежде получить то же, что уже давно используется. Он выдает что-то забубенное... Я ему даю свой работающий вариант - а так можно? Он мне - нет! Это ошибка! И типа показывает, будто он вот запускает мой вариант и получает от базы сообщение об ошибке! И пишет объяснение о том, почему этот запрос не может работать. Офигеть... Я ему пишу - это работающий запрос, нет там ошибки. Он мне - да, верно, это же работающий запрос! И начинает мне объяснять, почему он работает...
  1. KonstantinTokar
    22.05.2026 17:31
    #30011078
    Я сейчас в подобных диалогах по пол дня провожу. ИИ даёт совет, я пишу аргументацию что совет неправильный, и получаю ответ в стиле "да, ты сделал ошибку, сделай теперь вот так"... Через пару итераций возвращаемся к ошибке. Deepseek, ChatGPT, Grok, Google - все так делают.

Dhwtj
22.05.2026 17:31
#30007438
проблема во «временной деградации webhook worker в EU‑регионе».

Универсальный способ послать. Возьму за заметку.

А то старый способ уже не работает

Fox_exe
22.05.2026 17:31
#30007588
Ну очень похоже на поведение Google.com/ai - тот тоже категорически отказывается признавать поражение и до упора будет пытаться ответить на вопрос или сгенерировать код "выдувая" различные факты, зачастую, вообще не относящиеся к текущему вопросу.

sergey_prokofiev
22.05.2026 17:31
#30007736
bullshit in -> bullshit out. С ИИ это работает пугающе показательно.

А так да, И Ина конфигурить, дообучать, промты писать правильно, тестирование делать постоянно и все такое. Тогда вероятность подобных косяков снизится.

Я бы предлоджил простой фикс: заставлять ИИ всегда искать пруфлинки, перепроверять себя перед ответом и отдавать клиент чтобы он мог самперейти и почитать, что написано.
1. botyzanzylyvseNIKI
  22.05.2026 17:31
  #30008444
  Rag изобрели же как раз для такого) да даже тот же notebook lm от Гугла выдает ответ только из источников… но нет будем интегрировать ИИ говно на хайпе и удивлятся
  1. KonstantinTokar
    22.05.2026 17:31
    #30011090
    Я наткнулся на этот раг. Я передал документ, попросил сделать анализ и ответить на вопрос. Ответ был неправильный. Оказалось, ии прооптимизировал и взял ответ не из моего документа, а из похожего какого то.
    
    И это хорошо, а то от этих ии совсем тоскливо становится. Всё таки он пока меня заменить не может.
    
    botyzanzylyvseNIKI
    22.05.2026 17:31
    #30011208
    это НЕ RAG тогда:) если ИИ может брать откудото (предполагаю интернет?) то это не то :)
    или ты про ноутбук ЛМ?
    
    KonstantinTokar
    22.05.2026 17:31
    #30011896
    Это совсем не раг, но выглядит как раг. И если не рпзбираться в теме - то как отловить враньё, если дал документацию, получил ответ вроде по документации.

Chudoyudin
22.05.2026 17:31
#30008182
Проблема современных ИИ — не в галлюцинациях.

Проблема современных ИИ в том, что неумение их настроить выдают за галлюцинации ИИ.
1. Dhwtj
  22.05.2026 17:31
  #30008272
  У вас skill issue/ ad hominem отклеился.

Ra2007
22.05.2026 17:31
#30008464
Реально узнаваемая история. У нас похожее было с Code-агентом, который уверенно "вспоминал" архитектурные решения которых никогда не было. Вылечилось двумя вещами: явная инструкция "если не нашёл в контексте, напиши что не знаешь, не выдумывай" и принудительная верификация ответа на наличие конкретного факта из базы знаний перед отправкой. Второе важнее первого, потому что инструкцию про "не выдумывай" модель выполняет непоследовательно, а верификация факта это уже детерминированная проверка.

Uint32
22.05.2026 17:31
#30008488
Мы слишком поздно поняли главную проблему: она не в самих ошибках, а в том, что пользователи (а вместе с ними и мы) очень быстро начинают доверять тону и уверенности ИИ‑ассистента

Не в самих ошибках? То есть, пользователь, обратившийся в поддержку должен не доверять её ответам? Серьёзно?

wmgeek
22.05.2026 17:31
#30011142
К сожалению, лепить отмазки эта штука умеет еще лучше чем просто выдумывать ответы. С установкой быть «поддерживающим» к пользователю, предыдущий ответ как якорь тянет в пучину.

denisemenov
22.05.2026 17:31
#30011972
Самое неприятное — ИИ почти никогда не говорил «не знаю»

Вот это меня лично удивило больше всего.

Но ведь этой проблеме примерно столько же лет, сколько всем этим LLM?
1. Dhwtj
  22.05.2026 17:31
  #30012304
  Это не решаемо принципиально пока у них единственный учитель догма.
  
  Они сами должны учиться, сравнивая разные источники, включая критическое мышление.
  
  Можно ещё лет 5 подождать, не успеют решить до лопнувшего пузыря (сразу после IPO)

Nickroc
22.05.2026 17:31
#30012352
Это не ии, это штука которая угадывает, следующий токен на базе той информации, которой ей скормили. Когда это поймёшь, то сразу все становится на свои места и начинаешь видеть где эта штука нужна, и границы того, что ей можно доверить. Спроси у ллм, что такое помидор, она ответит - красный фрукт (овощ), но на самом деле она не знает, что такое красный и что такое фрукт. Просто эти токены постоянно крутятся вокруг токена помидор в обучающих данных. Конечно, все это очень упрощённо и есть сотни приблуд вокруг и сверху, но суть именно в этом

stepigal
22.05.2026 17:31
#30013816
Посетите aiprompting.ru/ppef и у вас будет больше понимания почему это происходит и как это лечить

ZODIACwv
22.05.2026 17:31
#30014190
температуру пониже, в инструкции дописать чет типа "за ответ "не знаю" в ситуациях, где ответ отсутствует в документации, ты получаешь чуть больше баллов, чем за найденный ответ". хотя юзать большин модели для таких задач - оверзед, проше свое склепать и об3чить чисто на своей доке