Оценивая текущую повестку вокруг ИИ, многие резонно замечают парадокс. Шума много, ботов ещё больше, а сгенерированных картинок и красивых концептов — бесконечный поток. Мы даже видим волны увольнений из-за повальной оптимизации, но где осязаемые результаты? Где то самое «пощупать»? Настоящая эффективность, которую можно поставить на стол перед скептиком и сказать: смотрите, вот оно работает. Без идеализации, но с пониманием реального потенциала.
Безусловно, у технологии есть мощные стороны. Я сам о них писал (раз), но и проблематику отрицать нельзя. Это было бы наивно и попросту ненаучно (об этом тоже был разговор).
Именно на стыке этих двух реальностей — между хайпом и суровостью — и возникла идея провести практический тест. Одно дело писать статьи о концепциях и рисовать радужные графики в Pitch Deck. Совсем другое — запустить реальный проект, где главным арбитром выступит не человек с его интуицией, настроением или усталостью, а связка независимых языковых моделей.
Хабр для этой затеи — идеальная площадка. Здесь сосредоточен тот самый критический и технологический потенциал, который не даст эксперименту скатиться в мир иллюзий. Тут не забалуешь.
Суть эксперимента
Я предлагаю сформировать LLM-группу как венчурный комитет для оценки потенциально рентабельных стартапов. Задача коллективного ИИ предельно проста и одновременно сложна: выбрать лучшее из предложенного.

Ключевой момент в том, что первоначально оценивать проекты будет не человек, а группа алгоритмов. Меньше вкусовщины, больше воспроизводимости — холодный анализ на основе заложенной логики.
Чтобы структурировать поле битвы идей, выбраны две категории:
программные решения (Software);
технологические и аппаратные решения (Hardware/Tech).
Каждую категорию разобьём по масштабу начальных вложений. Это не догма, а система координат:
Микро — до 3 млн рублей
Малый — до 30 млн рублей
Средний — до 300 млн рублей
Указанные цифры — примерные метки для калибровки запросов к ИИ, не жёсткие рамки. Мы задаём вектор, а не строим клетку. LLM оценивает в контексте: вот бюджет, вот категория, вот рынок — считай. Без контекста модель начнёт сравнивать микро-SaaS с Tesla и сойдёт с ума.
Что мы проверяем
Наша гипотеза простая. Связка из нескольких независимых LLM, работающих по единой методологии, должна дать более стабильную и воспроизводимую оценку стартапов, чем отдельный человек. Не потому что машины умнее, а потому что они лишены конкретных человеческих искажений: усталости после третьего питча, личной симпатии к основателю, давления социального доказательства, когда все вложились — и нам надо.
Но важно понимать: LLM не лишены искажений вообще. Они усредняют человеческие предрассудки из обучающей выборки и галлюцинируют убедительно. Суть эксперимента именно в том, чтобы выяснить — можно ли эти искажения нейтрализовать перекрёстной проверкой моделей и жёсткой методологией. Если три разных LLM, запущенные с одним промптом, сходятся в оценке — это сигнал. Если расходятся — тоже сигнал, только о другом: методология дырявая.
Первый фильтр
Авторы стартапов сами прогоняют идею хотя бы через три LLM.

Прежде чем выставить проект на оценку, им нужно выполнить три шага. Запустить описание через разные модели, например — GLM, Qwen, DeepSeek, главное чтобы архитектурно разные, а не три клона на одном датасете. Получить от каждой критический разбор: где слабые места, какие риски, какие проверяемые факты подтверждают или опровергают ключевые тезисы. И выложить эти оценки вместе с заявкой- стартапом в конкурсной статье.
Это базовый фильтр. Если автор не готов потратить время на формализацию мысли для трёх-пяти разных моделей — значит, идея либо сыровата, либо, возможно, ему просто лень. В обоих случаях дальше обсуждать нечего. Максимально честный прогон нужен самому автору и в его же интересах. Сообщество в любом случае проверит выводы и вынесет свой вердикт. Каждый читатель может повторить проверку своими моделями и сделать общий LLM-вывод, что в конечном итоге и будет сделано по всем представленным проектам. Воспроизводимость встроена в процесс — это не декларация, а механика.
Чего здесь точно не будет
Мы не собираем стартап-идеи прямо сейчас. Это подготовительный этап, без которого всё рухнет. Сегодня задача — написать методологию экспертной оценки в токенах: промпты, метрики, логику оценки и механизм разрешения конфликтов между моделями. Сами идеи начнём принимать на следующем этапе, когда инструмент будет откалиброван. Торопиться некуда. Сначала настроим инструмент, потом пустим в дело.
Куда мы движемся
Первый этап — прямо сейчас. Вырабатываем методологию в комментариях: живые люди пишут конституцию для LLM-судей. Второй — объявляем конкурс, собираем проекты и прогоняем через пользовательские LLM-группы. Это уже не тест системы, а настоящая гонка идей. Третий — если методология покажет работоспособность, обсудим, как проверить её на реальном кейсе для потенциальных участников. Живые деньги, но только когда система докажет, что ей можно доверять.
Про финансы отдельно. На первом и втором этапе речь о деньгах не идёт. Если дойдём до третьего — механизм инвестиций и распределения вынесем в отдельное обсуждение. Сейчас это было бы просто неуместно.
Скептикам
Для критически настроенных читателей отдельное обращение. Отнеситесь к этому как к практичному тесту (бенчмарк), который помогает раздвинуть рамки понимания, на что способны нейросети прямо сейчас. Никто не принуждает верить в машинное чудо, что было бы глупо. Мы просто проверяем гипотезу. Ваша въедливость не баг, а фича. Если видите уязвимости, логические дыры или точки отказа — укажите. Ваш скепсис сделает систему крепче, а эксперимент честнее.
Что нужно от комментаторов: песочница для методологии
Помогите построить методологию. Чтобы не начинать с чистого листа, я набросал черновик (v0.1) базового промпта и системы весов. Предлагаю использовать этот раздел как песочницу. С чего начинать LLM-конституцию?
Черновик системного промпта
Ты прагматичный венчурный аналитик с 15-летним опытом. Тебе предложен стартап, и ты задаёшься вопросом: стоит ли сюда вкладываться или нет. Твоя задача — найти слабые места. Не хвали презентацию, не ищи оправданий. Оцени проект от 0 до 100 по четырём критериям и аргументируй каждый балл. Если данных не хватает, ставь 0 и пиши, чего именно не хватает. «После оценки примени модификатор ±2 по шкале технологической добавленной стоимости (описан ниже)».
Этический фильтр
Применяется до начала оценки по принципу pass/fail. Это защита от мусорных и токсичных заявок. Проект автоматически отсеивается в трёх случаях:
Псевдонаука и физически невозможные решения. Вечные двигатели, экстрасенсорика, астрология, культы. Такие проекты не рассматриваются — они не соответствуют научно-технической площадке.
Юридические риски. Оружие, наркотики, мошенничество, финансовые пирамиды, подделки, пропаганда насилия, порнография. Независимо от юрисдикции — это часто уголовные последствия.
Репутационные риски. Алкоголь, табак, вейпы, азартные игры, секс-индустрия, фармацевтика, БАДы, микрозаймы, политические проекты и лоббистская деятельность. Во многих странах это легально, но для нашего эксперимента неприемлемо. Слишком высокие регуляторные, правовые и культурные барьеры.
Критерии и веса
Рынок и проблема (30%). Есть ли боль, понятен ли TAM/SAM/SOM, не нарисованы ли марсианские единороги.
Технология и продукт (30%). Есть ли прототип, насколько решение реализуемо, есть ли защита в виде патентов, кода или ноу-хау.
Экономика и метрики (20%). Юнит-экономика, CAC, LTV, путь к окупаемости. Если данных нет, оцени потенциальную модель монетизации по аналогам.
-
Команда и риски реализации (20%). Есть ли у фаундера бэкграунд для MVP? Если нет, насколько критичен разрыв и сложно ли его закрыть?
Если числовые данные (TAM, CAC, LTV, выручка) не приведены в заявке — не додумывай их. Ставь 0 по критерию "Экономика" и указывай, каких данных не хватает».
Модификатор технологической добавленной стоимости
Применяется после оценки по четырём критериям. Это бонус или штраф к итоговому баллу в диапазоне ±2.
+2 балла — если есть уникальная технология, патент, собственная R&D-база или прорывное техническое решение.
+1 балл — если есть технологическое ядро, но оно не уникально (использует существующие решения новым способом).
0 баллов — стандартный случай, технология соответствует уровню рынка.
-1 балл — если это перепродажа без модификации, white label без доработок, арбитраж трафика.
-2 балла — если бизнес-модель не имеет технологического ядра (классический колл-центр без автоматизации, переклейка шильдиков, простой карго-брокер).
Этот модификатор не заменяет оценку по четырём критериям, а корректирует её с учётом того, насколько стартап действительно технологичен, а не просто использует технологическую обёртку.
Открытые вопросы для обсуждения
Даже с таким черновиком остаются спорные моменты, где коллективный разум должен проявить себя.
Как заставить модель проверять реальный бэкграунд, а не верить на слово?

ИИ опирается на текст от фаундера. А фаундеры могут красиво написать о себе всё что угодно. Вариант, который я рассматриваю: требовать от фаундера прикладывать верифицируемые данные вроде LinkedIn, GitHub, публикаций и добавлять в промпт инструкцию: «Сравни заявленный бэкграунд с реальными данными из профилей и укажи расхождения. Если ссылок нет, ставь 0 по критерию команды». Но как заставить LLM анализировать, а не просто пересказывать? Здесь, скорее, окончательная оценка от человека, которая будет в любом случае после LLM.
Стоит ли делать веса плавающими? Для голой идеи без команды рынок и технология тянут на 80% решения. Для вышедшего на рынок продукта на первый план выходит экономика. Для Hardware на старте технология важнее экономики, для SaaS наоборот. Я склоняюсь к динамическим весам, но с жёсткими ограничениями: не более ±10% от базовых. Иначе методология превратится в резиновую. Стоит ли игра свеч? Или это усложнит систему до неработоспособности? Возможно, что куда лучше будет использовать матрицу весов, где сдвиг зависит от двух осей:
Тип (Software / Hardware / Biotech / Marketplace)
Стадия (Idea / Prototype / MVP / Revenue)
Где не резиновая методология, а табличная. Жёсткость задаётся фиксированной матрицей, гибкость — разными весами для разных комбинаций.
Делайте предложения, дополняйте. Это открытая методология — чем больше въедливости, тем крепче результат.
P.S. О круговой зависимости
Эта авторская статья отредактирована с помощью LLM: GLM, Qwen, DeepSeek, Kimi и Perplexity. Это не доказательство работоспособности идеи, а часть тестируемой проблемы. Начинаем использовать и проверять машины прямо сейчас, на этом тексте. И это — лучший пролог к эксперименту.
Мы не знаем до конца, можем ли доверять группе AI в подобной сфере. Поэтому и эксперимент. Если методология выдержит вашу критику — значит, есть шанс, что она выдержит и реальные стартапы.
Можете начать прямо с этой статьи. Дайте её своим LLM на оценку, посмотрите, что скажут. Если найдёте слабые места — пишите, мы их закроем. Поехали.
Max-G Автор
Сразу обозначу позицию, чтобы не было иллюзий. ИИ со всеми его недостатками — скорее помощник и усилитель, а не заменитель человека. Первичную оценку и обработку данных при правильно написанном промпте доверить ему можно. Но не финальное решение. По крайней мере, на данном этапе.
Именно поэтому эксперимент — не про слепое доверие машинам, а про проверку: на каком уровне LLM уже могут быть полезны в венчурной оценке, а где без человеческой трезвости пока не обойтись.
Вся методология собрана в разделе «Что нужно от комментаторов: песочница для методологии». Там лежит черновик конституции для LLM-судей и открытые вопросы — про верификацию бэкграунда и плавающие веса.
С них и предлагаю начать разбор. Все предложения прогоним через связки LLM и подведём общий итог в следующей статье.