Как LinkedIn масштабировал поиск людей на 1,3 млрд пользователей / forpes.ru

Главная
Как LinkedIn масштабировал поиск людей на 1,3 млрд пользователей

Как LinkedIn масштабировал поиск людей на 1,3 млрд пользователей

17.11.2025 13:55

madballer34 2 283 Источник

LinkedIn запускает обновлённый поиск людей на базе генеративного ИИ — и делает это спустя, казалось бы, удивительно долгую паузу для функции, которая напрашивалась сама собой. Появление новой системы происходит три года спустя после выхода ChatGPT и через полгода после запуска ИИ-поиска вакансий в LinkedIn. Для технических руководителей это — наглядный урок: внедрение генеративного ИИ в настоящих корпоративных условиях, да ещё в масштабе 1,3 млрд пользователей, — процесс медленный, тяжёлый и требующий постоянной прагматичной оптимизации.

Дисклеймер: это вольная пересказ текста издания Venture Beat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Новая система работает так: теперь пользователь может ввести в строку поиска естественный запрос вроде «Кто хорошо разбирается в лечении рака?». Старый поиск, основанный на ключевых словах, не справился бы с этим. Он бы искал только слово «рак». Пользователю пришлось бы вручную подбирать сложные запросы вроде «рак» и «онкология» и пытаться вручную собрать картину.

ИИ-поиск понимает смысл запроса. Модель улавливает семантические связи: что «рак» связан с онкологией, а та — с геномными исследованиями. Поэтому система показывает релевантных специалистов — даже если они ни разу не упоминали «рак» в профиле.

При этом LinkedIn старается учитывать не только релевантность, но и практическую пользу. Вместо того чтобы показать первого в мире онколога (который окажется недоступным контактом третьего уровня), система взвешивает, кто из ваших ближайших связей может быть «достаточно релевантен» и помочь выйти на нужного эксперта.

Однако ключевой урок для корпоративных команд — это своеобразная «поваренная книга» LinkedIn: многоступенчатый процесс дистилляции, совместного дизайна и безостановочной оптимизации. Именно её компании пришлось довести до совершенства в одной вертикали, прежде чем двигаться дальше.

Как говорит Вэньцзин Чжан, вице-президент по инженерии LinkedIn, в своём посте о запуске, команда однажды попыталась создать универсальную систему поиска для всех продуктов сразу — и это тут же замедлило прогресс. Поэтому LinkedIn решил сначала «победить» в одной области. Этой областью стал поиск вакансий на базе ИИ, и он сработал: по данным вице-президента по инженерии продукта Эррана Бергера, соискатели без высшего образования стали на 10% чаще находить работу.

Сейчас этот же «рецепт» применили к куда более масштабной задаче — поиску людей среди более чем миллиарда пользователей.

Новый вызов: граф из 1,3 млрд участников

По словам Бергера, поиск вакансий стал основой, на которой строился поиск людей.

Всё начиналось с «золотого набора данных» — нескольких сотен или тысяч реальных запросов и профилей, оценённых вручную по 20–30-страничному документу продуктовой политики. Чтобы масштабировать обучение, LinkedIn использовал этот небольшой набор для генерации большого объёма синтетических данных через большую базовую модель. На основе этих данных обучили 7-миллиардную «Policy Model» — очень точного, но слишком медленного для продакшена судью релевантности. Его роль — обучить более компактные модели.

И тут команда упёрлась в стену. В течение 6–9 месяцев они не могли обучить одну универсальную модель, которая бы одновременно соблюдала строгие правила релевантности и учитывала пользовательские сигналы взаимодействия.

Прорыв наступил, когда LinkedIn разделил задачу. Модель с политикой на 7 миллиардов параметров «дистиллировали» в модель на 1,7 миллиарда, сфокусированную только на релевантности. Затем её дополнили несколькими учителями — моделями, обученными предсказывать конкретные действия пользователей: отклик на вакансию, добавление в контакты, подписку. Это ансамблевое обучение давало «мягкие» вероятности, которые уже копировала финальная студент-модель с помощью KL-дивергенции (дивергенция Кульбака–Лейблера, математический инструмент, который помогает «перегнать» знания большой модели в маленькую, сохраняя качество ранжирования).

Получившаяся архитектура работает в два этапа. Сначала большая модель на 8 млрд параметров делает широкую выборку кандидатов. Затем компактная студент-модель выполняет точный ранжирующий проход. Для поиска вакансий хватало студента на 600 млн параметров, но для поиска людей пришлось ужимать ещё сильнее: новая модель — всего 220 млн параметров при потере релевантности менее 1%.

И это всё равно было недостаточно — прежняя архитектура ломалась. Поиск людей — это не только ранжирование, но и выборка (retrieval). CPU-инфраструктура не справлялась, и LinkedIn пришлось перейти на GPU-индексацию — фундаментальную перестройку, которой поиск вакансий не требовал.

Организационно это был сложный процесс: две команды (поиск людей и поиск вакансий) долго шли параллельно. Пока команда поиска вакансий не совершила прорыв. Тогда Бергер ротировал лидеров команды поиска вакансий — продукт-менеджера Рохана Раджива и инженерного лида Вэньцзин Чжан — в команду поиска людей, чтобы те передали свой опыт.

Дистилляция ради десятикратного ускорения

После решения проблемы выборки команда занялась ранжированием и эффективностью. Здесь и пригодилась адаптированная «кухня» LinkedIn с новыми методами оптимизации.

Один из главных рывков — сокращение входных данных. Команда обучила отдельную LLM с помощью обучения с подкреплением, чтобы она автоматически сжимала контекст — фактически, пересказывала входные данные. Это уменьшало размер входа в 20 раз при минимальной потере информации.

Комбинация компактной (220M) студент-модели и 20-кратного сокращения входа дала 10-кратный прирост в скорости ранжирования. И именно это позволило обслуживать людей на масштабе LinkedIn.

Прагматизм вместо хайпа: строим инструменты, а не агентов

Бергер подчёркивает: главное в корпоративном ИИ сегодня — совершенствование рекомендательных систем, а не поиск «агентного хайпа». Он даже не говорит, какие конкретно модели использовались: это неважно, важна эффективность под задачу.

Новая система включает «умный слой маршрутизации запросов», который решает, куда отправить запрос: в новую семантическую систему или старый проверенный лексический поиск.

Вся эта архитектура — инструмент, который в будущем могут использовать агенты. Но сам по себе поиск — не агент.

«Даже лучший reasoning-агент в мире бесполезен, если инструмент, который он использует (например, поиск людей), работает плохо», — говорит Berger.

Теперь, когда поиск людей заработал, LinkedIn когда-нибудь предложит и агентов, которые будут его использовать. Но сроки компания не называет. Зато «рецепт» уже готов — и будет применяться в других продуктах LinkedIn.

Для предприятий, строящих свои ИИ-дорожные карты, посыл очевиден:

Будьте прагматичны: не пытайтесь охватить всё сразу. Победите одну вертикаль, даже если на это уйдёт 18 месяцев.
Оформите рецепт: превратите успех в процесс — политики, пайплайны дистилляции, совместное проектирование.
Оптимизируйте без жалости: настоящие «10х» появляются не в первой версии модели, а в агрессивной дистилляции, обрезке лишних параметров модели и хитрых техниках вроде RL-саммаризации.

Опыт LinkedIn показывает: в реальном корпоративном ИИ выигрыш приносит не выбор модели и не эффектные агенты, а владение полноценным процессом — той самой «AI-нативной поваренной книгой» из дистилляции, со-дизайна и беспощадной оптимизации.

Комментарии (2)

Litemanager_remoteadmin
17.11.2025 13:59
#29125476
да 1,3 миллиарда участников это не мало

vlad4kr7
17.11.2025 13:59
#29126232
Может кто, знает почему ЛН, потребляет в 10 раз больше памяти? Легко до 1.5-2 гиг в отличие от обычного сайта в 200-300 мег. При этом любой клик, все равно идет подгрузка.