Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска / forpes.ru

Главная
Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска

Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска +10

03.06.2026 17:08

Kamil_GR 20 10000 Источник

Я всё чаще ловлю себя на том, что задаю вопрос непосредственно LLM, отказавшись от долгого поиска в интернете, изучения профильных форумов, отзывов и претензий. С одной стороны это гораздо быстрее, ответы выглядят логично, и гораздо легче согласиться с нейросетью, чем тратить силы и время. Но с другой стороны, насколько хорош совет модели? Почему это выбрала нейросеть, и как выбрала? Этим вопросом мало кто задаётся, поэтому я решил навскидку оценить экспертность решения.

Сценарий эксперимента: я выступаю в роли it-фрилансера и мне нужно выбрать облачный провайдер, который лучше всего подходит для маленького проекта. Опрошены основные бренды LLM с доступом к поиску.

Эксперимент

Для всех LLM был использован простой промпт:

Выступи в роли Senior-разработчика. Составь Топ-5 российских облачных провайдеров, которые лучше всего подходят для стартапов, малого бизнеса и индивидуальных IT-специалистов.

Модель (LLM)	Yandex Cloud	Timeweb Cloud	VK Cloud	Selectel	Cloud.ru	Cloud4Y / Beget
Gemini	1 место: Зрелый PaaS, Terraform, гранты.	2 место: Идеально для инди, понятный биллинг.	4 место: Гранты до 2 млн ₽, Big Data.	3 место: Отличное Bare-Metal, кэшбек 30%.	5 место: Линейка Evolution, легкий триал.	— (Вне топа)
ChatGPT	1 место: Аналог AWS/GCP, сильный K8s, но дорогой.	3 место: Дешевые VPS, простой UI, под MVP.	2 место: Лучший для ИИ и GPU на OpenStack.	4 место: Баланс цены и надежности, нужен DevOps.	5 место: Тяжелый Enterprise, сложный онбординг.	— (Вне топа)
Алиса AI	2 место: Программа Boost, ИИ-стек (YandexGPT), аналитика.	1 место: Гранты до 1 млн ₽, ДЦ в ЕС/РФ, аппрув за 1 день.	— (Вне топа)	3 место: Кэшбек 30%, упор на 1С и VMware, защита L3/L4.	— (Вне топа)	4 место (Cloud4Y): Гранты без лимитов. 5 место (Beget): NVMe, простой UI.
GigaChat	1 место: Крупная экосистема, бессерверные опции.	3 место: Управление без DevOps, быстрый старт.	2 место: Масштабируемый, купоны на рекламу VK.	4 место: Собственные ЦОДы, прозрачные тарифы.	(Вне топа)	5 место (Cloud4Y): Сертифицировано по ФЗ-152, фокус на compliance.
DeepSeek	4 место: Отличный ИИ-стек, но дорого и есть риск вендор-лока.	1 место: Максимум простоты, одобрение за 1 день.	2 место: Щедрый грант (2 млн ₽), K8s без вендор-лока.	3 место: Стабильность, но нужен стартовый капитал.	5 место: Заморозка цен на 3 года от инфляции.	— (Вне топа)
Claude	2 место: Лидер для AI-проектов, корп. сегмент.	1 место: Лучший ТСО (23 488 ₽), топ для MVP.	4 место: Позиции в медиа, грант на раунд А (2 млн ₽).	3 место: Зрелый DevOps-стек, K8s, гибридное облако.	— (Вне топа)	5 место (Beget): Старт без бюрократии.
Итог (Консенсус)	1-2 место (Ср. балл: 1.8)	1-2 место (Ср. балл: 1.8)	3 место (Ср. балл: 3.3)	4 место (Ср. балл: 3.3)	5 место (Ср. балл: 5.0)	Альтернативы (Локальные топы у Алисы и Claude)

Как видно из таблицы, в целом нейросети совпадают в топ 5 провайдеров. Топ лучших по убыванию: Первое и второе место разделили Yandex Cloud и Timeweb Cloud, дальше VK Cloud, Selectel, Cloud.ru. Российские LLM включили в рейтинг Cloud4Y и Beget, зарубежные, кроме Claude, их проигнорировали.

Оригинальностью отличился Deepseek. А вот Алиса и, что забавно, Gigachat не включили в топ сберовский Cloud.ru. Алиса на первое место поставила Timeweb Cloud, вместо родного Yandex Cloud.

Честно говоря, задавая роль Senior-разработчика, я не ждал чего-то невероятного. И да, форма подачи моделями топа-5 полностью соответствовала установленной роли, но только форма. LLM использовала красивые профессиональные термины, демонстрировала глубокое понимание и критическое мышление, но ни одна из нейросетей не повела себя как настоящий сеньор, не было встречных вопросов, уточнений (я понимаю, что это должен был сделать промпт, но эксперимент должен быть чистым), а самое главное, если очистить ответы от натянутой на обзор интернета псевдологики, то я получил сводку из первых пяти ссылок. То есть LLM, по крайней мере в режиме поиска, не продемонстрировала архитектурную экспертизу, а по сути зафиксировала успех seo-маркетологов, фактически срез медийного присутствия брендов.

Оценка интернет-источников

Судя по ссылкам базовые запросы моделей были “топ Х для малого бизнеса” “Лучшие Х для малого бизнеса” и так далее. Ничем не хуже и не лучше человеческих поисковых запросов.

Попробуем оценить на какие источники опирались нейросети при формировании топа

LLM	Количество источников	ссылки
Алиса AI	13	tproger.ru, cloud4y.ru (startups), severspace.ru, miran.ru, ng.kz (наша газета)), anti-malware.ru, computerra.ru, hightime.media, arsis.ru, timeweb.cloud, cnews.ru, byteguide.online, cloud4y.ru (best)
GigaChat	5	cloud4y.ru (startups), cnews.ru, serverspace.ru, klerk.ru, servernews.ru
Gemini	7	tobiz.net, habr.com, tproger.ru, yandex.cloud, timeweb.cloud, miops.dev, cloud.vk.com
ChatGPT	5 основных + 9 вспомогательных.= 14	cloud4y.ru (startups), cnews.ru, reddit.com, cloud4y.ru (best), cloudindex.ru
Deepseek	112 (из них 4 основных)	ng.kz (Наша газета), comnews.ru, donpress.ru/, cnews.ru
Claude	21 (8 основных)	cloud4y.ru (startups), tproger.ru, cnews.ru, cnews.ru, habr.com, tadviser.ru/, miops.dev, tobiz.net

Выводы:

Геотаргетинг (Алиса и DeepSeek):
Поисковые движки Алисы и DeepSeek оказались наиболее чувствительны к метаданным пользователя (IP-адрес в Казахстане). Вместо стандартной выдачи они подмешали в контекст региональные источники (включая весьма забавную в смысле авторитетности “Нашу газету” из Костаная).
Уязвимость перед сильным контент-маркетингом:
Обзорная статья в блоге провайдера Cloud4Y попала в поисковый пул четырех моделей из шести. при этом сам Cloud4Y в итоговый топ-5 не попал. Здесь да, модели проявили (возможно специально выученную) поправку на источник. Хотя Gigachat в результате заменил Cloud.ru на Cloud4Y. То есть, не надо стесняться хвалить себя на своих сайтах. Нейросеть всё равно сделает поправку.
Разница в поисковых стратегиях (Глубина vs. Первоисточники):
- DeepSeek ставит абсолютный рекорд по числу затронутых страниц (112 ссылок), используя тактику агрессивного парсинга с жесткой последующей фильтрацией.
- Gemini в прямом ответе не указала ссылки на источники. При добавлении в промпт требования предоставить ссылки на источники и поисковые запросы, перечень выглядит гораздо беднее чем у других LLM. Есть подозрения, что Gemini частично генерирует их постфактум на основании ответа через обратную рационализацию. А в целом, у меня сложилось ощущение, что Google маскирует механизм выбора ссылок, не позволяя пользователям (и SEO-специалистам) через чат-бота понять, как именно алгоритм оценивает авторитетность источников.
- Claude и ChatGPT ищут баланс, агрегируя профессиональные СМИ, блоги и живые дискуссии разработчиков (Хабр, Reddit).

Топ-10 источников, сформировавших мнение LLM

Для составления этого рейтинга были проанализировано использование моделями уникальных URL-адресов. Если страница встречалась в топе источников у конкретной LLM, это засчитывалось как упоминание.

№	Ссылка	Частотность	Влияние на итоговый ответ
1	cloud4y (startups)	4 модели (ChatGPT, GigaChat, Алиса, Claude)	Максимальное. Главный виновник продвижения бренда Cloud4Y в итоговые рейтинги.
2	tproger.ru	3 модели (Gemini, Алиса, Claude)	Высокое. Сформировал базовые профили провайдеров для малого бизнеса.
3	cnews.ru	3 модели (ChatGPT, GigaChat, Claude)	Высокое. Источник цифр и позиций провайдеров в Enterprise/СМБ сегментах.
4	habr.com	2 модели (Gemini, Claude)	Среднее. Привнес в ответы инженерный взгляд на DevEx и биллинг.
5	serverspace.ru	2 модели (GigaChat, Алиса)	Среднее. Использовался для верификации состава Топ-5 игроков рынка.
6	timeweb.cloud	2 модели (Gemini, Алиса)	Среднее. Позволил моделям взять данные о грантах и ДЦ
7	ng.kz (Наша газета Костанай Казахстан)	2 модели (Алиса, DeepSeek)	Локальное. Исказило финансовые метрики в сторону тенге из-за геопривязки
8	tobiz.net	2 модели (Gemini, Claude)	Низкое. Вспомогательный обзор для сверки позиций Selectel и Yandex.
9	miops.dev	2 модели (Gemini, Claude)	Низкое. Нишевый технический блог, давший Claude информацию о DevOps-стеках.
10	cloud4y.ru (best)	2 модели (ChatGPT, Алиса)	Среднее. Вторая SEO-статья того же вендора, закрепившая его доминирование в RAG.

Успех статей Cloud4Y в эксперименте демонстрирует, что SEO остается нашим всё для контент-менеджеров. Модель не понимает, хорош провайдер или плох, насколько ангажирован корпоративный сайт, она оценивает только релевантность текста в поисковой выдаче.

Позиции провайдеров в рейтингах самих источников

Источник	Yandex	Timeweb	VK	Selectel	Cloud.ru	Cloud4Y	Beget	Другие
cloud4y.ru (startups)	1	5	2	4	-	3	6	-
tproger.ru	5	3	4	2	-	-	1	-
cnews.ru	-	1	2	-	-	5	-	3. Турбо, 4. K2 Cloud
habr.com	1	3	2	7	4	6	5	-
serverspace.ru	-	4	5	2	3	-	-	1. Serverspace
timeweb.cloud	-	1	2	4	3	-	-	5. Рег.облако
ng.kz (Наша газета Костанай Казахстан)	1	4	2	3	-	5	-	-
tobiz.net	1	-	3	4	2	-	-	5. Rostelecom Cloud
cloud4y.ru (best)	2	7	5	3	1	6	-	4. MWS (MTS)

Интересно, как LLM обрабатывают конфликт интересов. Несмотря на то, что SEO-статьи Cloud4Y попали в выборку 4 из 6 моделей, в итоговый консенсус-топ этот провайдер не вошел (только на 4-5 места у локальных моделей). То же самое с Serverspace. Две гипотезы:

Этим статьям не хватило подтверждения из других источников.
Модели (особенно зарубежные ChatGPT, Claude, Gemini) способны распознавать ангажированность корпоративных блогов (сомнительно).

Полагаю, что Cloud4Y не попал в топ-5 ИИ только из-за малого присутствия в общем медийном поле. При усреднении его хорошие статьи проиграли общей массе.

А вот если завтра условный ноунейм-провайдер наймет мощную команду SEO-специалистов и закупит ссылки на агрегаторах, LLM с вероятностью 90% начнут рекомендовать его как надежное Enterprise-решение. Нейросети не беспристрастные судьи, а простые ретрансляторы наиболее агрессивной рекламной кампании в индексах поисковиков.

Матрица корреляции ответов LLM с оригинальными рейтингами в статьях

Формула: Состав (С) % — доля угаданных участников / Позиция (П) % — доля угаданных мест

Обратите внимание на огромный разрыв между параметрами «С» (Состав) и «П» (Позиция). В большинстве случаев совпадение состава составляет 80–100% (модели берут тех же провайдеров, что и в статье). Но совпадение позиций низкое — максимум 60%. То есть LLM используют интернет-источники как основу, но ранжируют по собственному алгоритму. Прямого копирования рейтинга из источника я не обнаружил. Как работает алгоритм фактического ранжирования сказать нельзя. Учитывая, что при нескольких запросах порядок и состав провайдеров в топе несущественно меняется, полагаю ключевое, это статистическое усреднение + случайность.

А вот теперь ключевой расчёт, для чего я и затеял всю эту суету, беру топ источников с рейтингами, считаю сводный и сравниваю с тем, что дали LLM:

Место	Рейтинг топа источников	Рейтинг ИИ
1	VK Cloud	Yandex Cloud
2	Yandex Cloud	Timeweb Cloud
3	Timeweb Cloud	VK Cloud
4	Selectel	Selectel
5	Cloud.ru	Cloud.ru

И мы видим, что итоговые рейтинги ИИ и источников практически полностью совпадают. Почему VK Cloud модели переместили на третье место? Две гипотезы:

Нейросети выучили, что Yandex Cloud — крупнейший игрок в РФ и опираясь на свои веса они передвигают его вверх (сомнительно).
Timeweb Cloud лучше позиционировал себя как провайдера для малого бизнеса и стартапов и за счет этого вышел в лидеры.

Вторая гипотеза не отрицает того, что возможно VK Cloud больше позиционирует себя как enterprise бизнес, что помешало ему в убедить LLM в своей полезности.

Заключение

В нашем случае мы получили от LLM не больше, чем если бы потратили на самостоятельный поиск пять минут. Фактически, модели дали текущий срез топовых ссылок из поисковиков по банальным запросам с легким смещением по промпту. Единственное, произошла небольшая корректировка важности критериев на более подходящие малому бизнесу.

В статье я оценивал только как нейросети формируют свои ответы при запросе рекомендаций. Насколько экспертны модели в этом вопросе? Думаю не больше, чем статьи, которые они нагуглили.

Так что SEO живее всех живых, а на текущий момент GEO требует лишь изменение формы подачи. Если SEO-шники обманывали алгоритмы гугла и яндекса, то для них ничего не поменялось и с появлением LLM.

P.S. По существу вопроса о лучшем провайдере я ничего не скажу (из всех провайдеров лишь однажды пользовался услугами TimeWeb). Статья не задумывалась как реклама, но обвинений в ней не избежать. Поэтому если какая-то компания хочет оценить, как её видит LLM, готов к сотрудничеству.

Комментарии (20)

Dreams_and_magic
03.06.2026 19:50
#30061442
Так можно или нельзя?
1. Kamil_GR Автор
  03.06.2026 19:50
  #30061456
  ) не больше, чем результатам поисковых запросов.
  1. Dreams_and_magic
    03.06.2026 19:50
    #30061496
    То, что нейросеть просто суммаризирует результаты поиска, как бы давно известно:)
    
    Kamil_GR Автор
    03.06.2026 19:50
    #30061516
    Неочевидный факт.
    
    Upd: многие предполагают, что ответ LLM это результат размышлений и оценки тысяч фактов, а не вольный пересказ единичного оплаченного творчества сеошника.
    
    Dreams_and_magic
    03.06.2026 19:50
    #30061638
    Вы переоцениваете сеошников. В суммаризацию попадают вовсе не те результаты, которые вы получите при гуглении.
    
    Kamil_GR Автор
    03.06.2026 19:50
    #30062030
    У Клода те.
    
    Можно оценить по его поисковому запросу, выдаче, и результатам самостоятельного поиска в brave

Sap_ru
03.06.2026 19:50
#30061910
Нельзя. Каждый раз, когда я пытаюсь с помощью LLM получить ответ на нетривиальный вопрос, ответа на который она изначально не знает, то получается полный всеобемлющих ужас. И никакой гуглёж её не спасает - она находит какой-нибудь первый попавшийся совершенно левый, но очень авторитетный источник, в котором есть ответ на другой, но чем-то схожий вопрос, и начинает черпать от туда вдохновения для своего бреда. И как её потом не заставляй читать мануалы или гуглить более аккуратно, она всё всё равно будет люто галлюцинировать.

Верхом бреда был случай, когда мне было лень читать 20 страниц достаточно маразматического манула к утилите "dar" и был очень простой вопрос, который возникает примерно у каждого, кто первый раз этой тулзой пользуется (писали её очевидный психи, кстати). Но по разными причина ответа на этот вопрос нет на первой странице результатов гугла (именно потому, что авторы - мягко говоря специфичные люди).
Так как ответ сходу не нашёлся, а манулал вызвавал рябь в глазах и присутпы головной боли, то дай-ка, думаю, попрошу LLM прочитать мануал, погуглить примеры и сэкономить мне время... Ага, щаз.
Три!!! Три часа я с ней бился в попытке получить правильный ответ. Мне уже просто из спортивного интереса было интересно это сделать. Ну простой же вопрос. И Мануал доступен. Куча примеров и информации гугулится. Может я сам дурак и как-то не так запросы строю, нужно же разобраться на будующее. Но нет. Совершенно никаким образом из неё нельзя добыть правильный ответ - только если ты его уже знаешь и последовательно тыкаешь её в галлюцинации. Тогда на пятой галлюцинации она сдаётся и даёт ответ. И ничего с этим не поделать.

И так с каждым неочевидным впросом. Я бы минут за 15 ответ бы нагуглил. Ну за пол часа, если совсем что-то сложное. Я с LLM это всегда сплошной поток галлюцинаций и непредсказуемой количество времени.
- Вот ответ.
- Ой, не работает? Тогда вот так.
- Ой, опять не работает? Тогда три раза подпрыгните и два раза присвистните - обязательно поможет.
- Вы, совершенно правы, я галлюцинирую - не поможет. Вот правильный ответ.
- Вы совершенно верно заметили, что этот ответ я уже давала и он неверный. Извините за галлюцинацию. Вот понастоящему верный ответ.
- Как вы верно заметили, этот ответ не на заданый вопрос и относится к другой теме. Вот правильниый ответ.
- Я снова галлюцинирую. Хорошо, что вы это заметили. На этот раз даю точныей ответ:...
- Простите, опять что-то пошло не так. ...
....

И каждый же бредовый ответ будет с какими-то "подтверждающими ссылками". И если ты ответа не знаешь, то как баран пробуешь её бредовые рекомендации одну за другой. Ну, или лезешь их проверять в интеренете и всё равно тратишь время. И к моменту, пока она что-то вразумительное выдаст, ты уже и сам всё загуглил и разобрался.

Тривиальные вопросы - запросто. Но на трививльные вопросы я и сам ответы знаю и за минуту нагуглить могу.

disnous
03.06.2026 19:50
#30062536
Вместо всей статьи можно было просто написать капсом слово "Нет" и не растекаться "мыслию по древу", зато на одну бесполезную статью про ИИ стало бы меньше
1. Kamil_GR Автор
  03.06.2026 19:50
  #30062562
  Можно, если бы я не уважал читателей, и высказывал своё мнение. Бога нет, деньги зло, теория относительности ошибочна и так далее.
  
  Впрочем, ваш комментарий удивительным образом соответствует своему содержанию.
  1. disnous
    03.06.2026 19:50
    #30062582
    Не совсем понял к чему пассаж про "уважение читателей"
    Касаемо "высказывать мнение" - именно по причине существования статьи и высказывания вашего мнения, на нее пришел я и высказал свое мнение))
    
    Kamil_GR Автор
    03.06.2026 19:50
    #30062592
    Просто безосновательно высказать мнение это не уважение. Развернуть причины, которыми оно обусловлено, необходимое требование
    
    disnous
    03.06.2026 19:50
    #30062744
    Не кажется, что это переливание из пустого в порожнее?
    Общеизвестный факт - нейросети не могут без галлюцинаций, додумывают и стараются угодить, нежели реально работают с фактами.
    Сотни статей про это написано, мелкий текст в любом ИИ-чате существует.
    ИМХО - Хабр и так полон статей на эту тему, а человек неискушенный вряд ли полезет на Хабр ради этого. Эффект Даннинга-Крюгера, как никак.
    
    Kamil_GR Автор
    03.06.2026 19:50
    #30062810
    В статье этого нет
    
    Общеизвестный факт - нейросети не могут без галлюцинаций, додумывают и стараются угодить, нежели реально работают с фактами.
    
    disnous
    03.06.2026 19:50
    #30062880
    Зато есть в множестве других статей, которые кратно подробней расписывают что, как и почему.
    
    Переформулирую свой изначальный комментарий - какая ценность вашей статьи, (по вашему мнению) относительно множества других по этой же теме?
    
    Kamil_GR Автор
    03.06.2026 19:50
    #30062896
    Другие статьи это проблема других авторов.
    
    В своей статье я оценил как много своего вносит LLM в ответы, требующие интернет поиска. Выяснилось что мало.
    
    Статей по этой теме я не видел.
    
    disnous
    03.06.2026 19:50
    #30062906
    Принято, спасибо за пояснение)

vldmrmlkv
03.06.2026 19:50
#30063378
У вас вывод строится только на одном промпте, но нет сравнения разных промптов. От этого разве не зависит точность ответа? В данном случае, например, нет критериев оценки провайдеров. Я при использовании LLM просто так редко уже спрашиваю, использую с начала эту же LLM для улучшения промпта, начиная с простого запроса + запрос улучшить промпт для более точного ответа, иногда в несколько заходов с ручными правками.
1. Kamil_GR Автор
  03.06.2026 19:50
  #30063396
  Цель была не идеальный промпт и идеальный ответ. А открытый запрос даже без требования поиска и оценка ответа и источников
  1. vldmrmlkv
    03.06.2026 19:50
    #30063664
    Возможно я не так понял.
    
    задаю вопрос непосредственно LLM
    
    Это значит напрямую модели, без системных промптов, не в окне чата на сайте провайдера LLM?
    
    Kamil_GR Автор
    03.06.2026 19:50
    #30063768
    Нет.. это значит не в Гугле, не в Яндексе... А просто LLM (приложение или веб версия без разницы)

Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска +10

Эксперимент

Оценка интернет-источников

Матрица корреляции ответов LLM с оригинальными рейтингами в статьях

Заключение

Комментарии (20)

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор

Kamil_GR Автор