Изучая историю поисковиков, я нашёл то, что мы все упустили / forpes.ru

Главная
Изучая историю поисковиков, я нашёл то, что мы все упустили

Изучая историю поисковиков, я нашёл то, что мы все упустили +1

22.08.2025 13:56

21_copilots 2 961 Источник

Сидел я как-то в один из тех рабочих долгих вечеров, когда и работать надоело, и отдыхать ещё лень. Сёрфил по сайтам в поисках интересных новостей. Надеялся, что в процессе придёт какая-нибудь идея для статьи.

Думал, думал, а потом понял — она же перед глазами. Поисковик!

Учитывая, что в айти я уже больше 20 лет, то мгновенно вспомнил, как он раньше выглядел. Как я забивал запрос, получал мешанину ссылок, открывал 20 вкладок — и молился, чтобы среди них было хоть что-то полезное.

А сейчас я могу случайно написать запрос на английской раскладке и получить нужные ссылки с расшифрованным контекстом и переводом запроса.

Следом в голове побежали вопросы: почему Google опередил всех, а тот же AltaVista канул в лету? В чём там конкретно дело? В алгоритмах, удобстве? Или просто в том, что пользователи полюбили минимализм и «те самые цвета»? А Rambler, Yahoo, Altavista… кто-то вообще ещё помнит эти имена?

Я написал эту статью специально для блога Minervasoft. Компания помогает среднему и крупному бизнесу эффективно внедрять GenAI: объединяет все корпоративные знания в одном источнике — системе управления знаниями Minerva Knowledge — и с помощью авторской методологии делает так, чтобы статьи всегда оставались актуальными, структурированными и понятными. Это снижает риск галлюцинаций и повышает корректность ответов ИИ-агента до 94%.

В статье — исследование, как поисковики прошли огромнейший путь трансформации: от Rambler и Яндекса, которые учились понимать морфологию русского языка, до современных ИИ-инструментов вроде Perplexity.

Yahoo: Каталог как цифровая телефонная книга

Yahoo, созданный в 1994 году Джерри Янгом и Дэвидом Фило, изначально был не поисковиком, а каталогом — структурированным списком сайтов, сделанным вручную.

Внутри — куча категорий вроде "Новости", "Технологии", "Спорт", "Образование" и так далее. Пользователь заходил на главную страницу сайта, выбирал нужную ему категорию, затем подкатегорию и, если повезёт, находил нужный сайт через несколько (иногда десятков) кликов. Например, чтобы найти университетский ресурс по программированию, вы могли пройти путь: "Образование → Университеты → Компьютерные науки → MIT".

Если говорить техническим языком, то Yahoo был базой данных, организованной в виде иерархического дерева. Каждая категория — узел, связанный с подкатегориями и конечными записями — ссылками на сайты с краткими аннотациями.

Сама база хранилась на серверах, а интерфейс работал через HTML-страницы с гиперссылками. Человек взаимодействовал с каталогом через браузер, кликая по категориям, которые загружались как статические страницы.

Поиск в Yahoo был довольно примитивным в самом начале: он использовал простое совпадение ключевых слов в названиях сайтов или их описаниях, без анализа того, что было на самих страницах. Например, запрос "новости" искал совпадения в метаданных каталога, а не на самих сайтах.

Для обработки запросов Yahoo брал за основу базовые методы информационного поиска, такие как булевская модель: если пользователь вводил слово "компьютеры", система искала точные совпадения в аннотациях или заголовках категорий.

Это работало, потому что интернет 1994 года был небольшим — около 2–3 миллионов страниц, и редакторы платформы могли вручную поддерживать работу каталога. К 1995 году Yahoo уже обрабатывал миллионы посещений в месяц.

Как я понял, почему это работало: интернет был компактным, и пользователи в целом не формулировали сложных запросов. Ведь структура Yahoo напоминала простой библиотечный каталог, а ручная модерация давала то самое качество — редакторы отбирали только достойные сайты.

Система держалась аж до 1998 года, но потом объёмы интернета выросли до десятков миллионов страниц. Модерировать вручную столько запросов — невозможно. Редакторы перестали успевать классифицировать новые сайты, и каталог начал устаревать.

Так добавление нового сайта стало занимать дни или недели, а интернет всегда требовал скорости. Yahoo пытался дополнить каталог автоматизированным поиском, заключив партнёрство с Inktomi в 1998 году, но его поисковые алгоритмы всё равно оказались слабее конкурентов, таких как AltaVista.

Так медленно и уверенно Yahoo ушёл на заслуженный отдых.

AltaVista: Пионер автоматизированного поиска

AltaVista, запущенный в 1995 году компанией Digital Equipment Corporation, стал тем самым первым поисковиком. Команда именно этого сервиса отказалась от ручной сортировки в пользу автоматизации.

В отличие от Yahoo, AltaVista использовал краулеры — программы, которые автоматически "ползали" по сайтам, собирали их содержимое и создавали базу данных. Пользователь вводил запрос, и система искала совпадения по ключевым словам. Для 90-х это было прорывом: поиск стал реально быстрым и масштабируемым.

Если снова говорить техническим языком, то AltaVista работал на основе инвертированного индекса — структуры данных, где слова (или их нормализованные формы) связывались со списками страниц, содержащих эти слова.

Краулинг: Краулер AltaVista (называемый Scooter) сканировал веб-страницы, переходя по ссылкам. Он извлекал текст, заголовки, метатеги и анкоры ссылок, сохраняя их в базе данных. К 1997 году индекс AltaVista содержал около 30 миллионов страниц — огромный объём для того времени.

Индексация: Текст страниц разбивался на слова (токенизация), и создавался инвертированный индекс. Например, слово "computer" связывалось со списком всех страниц, где оно встречалось, с указанием позиций и частоты. Для ускорения индексации использовались хэш-таблицы, а данные хранились на серверах DEC Alpha, довольно мощных для 90-х.

Обработка запроса: Пользовательский запрос токенизировался, и система искала совпадения в индексе, используя булевскую модель поиска (AND, OR, NOT). Например, запрос "computer science" разбивался на ["computer", "science"], и система искала страницы, содержащие оба слова, с приоритетом на их близость (например, в пределах 10 слов) и частоту в заголовках или метатегах.

Ранжирование: AltaVista использовала раннюю версию TF-IDF (Term Frequency-Inverse Document Frequency) для ранжирования. TF считала частоту слов в документе (нормализованную на длину документа), а IDF снижала важность распространённых слов, таких как "and" или "the". Важность документа: ( TF-IDF(t, d) = TF(t, d) \cdot \log(N / df(t)) ), где ( TF(t, d) ) — частота термина ( t ) в документе ( d ), ( N ) — число документов, ( df(t) ) — число документов с термином ( t ). Допом учитывались заголовки и анкоры ссылок, которые получали повышенная важность.

Пример: для запроса "computer science" AltaVista находил страницы, где оба слова встречались чаще и ближе друг к другу, отдавая приоритет заголовкам. Однако релевантность хромала: алгоритмы не учитывали контекст, поэтому запрос "Apple" мог выдать страницы о фруктах и компьютерах, а система не понимала разницы между "Apple" и "apple". Кроме того, AltaVista не оценивала авторитетность страниц, как Google позже сделал с PageRank, что приводило к случайным или низкокачественным результатам.

Появление AltaVista было настоящим праздником того времени: в 1996 году он обрабатывал миллионы запросов в день и индексировал десятки миллионов страниц, опережая конкурентов по скорости и масштабу. Но его алгоритмы всё равно оставались примитивными из-за:

отсутствия семантического анализа;
слабой защиты от спама — например, страницы, перегруженные ключевыми словами, снижали качество выдачи.

Почему Yahoo и AltaVista устарели?

Умозаключение здесь несложное — Yahoo и AltaVista были продуктами своего времени. Yahoo был удобен, пока интернет оставался маленьким и уютным, а алгоритмы AltaVista не учитывали критерии поиска сайтов.

Но при этом:

ручной подход команды Yahoo стал анахронизмом, когда сайтов стало миллиарды;
алгоритмы AltaVista сумели автоматизировать индексацию.

К концу 90-х пользователи начали привыкать к новым фичам и возможностям поиска и стали просить большего: не просто списки ссылок, а действительно толковые результаты. Тогда компаниям и пришлось придумывать новые способы решения этого запроса и делать ставку на умную ранжировку.

Зарождение рунета: Rambler и ранний Yandex

В середине 90-х интернет в России выглядел как современный “темщик”: сайтов — мало, соединение — медленное или никакое, но амбиций и желания сделать что-то своё — величиной с небоскрёб.

Рунет только начинал формироваться, и потихоньку стали появляться первые поисковики. Rambler и ранний Yandex были первыми из тех, кто открыл эту дверь для России.

Рамблер появился в 1996 году, и изначально был не поисковиком, а счётчиком посещений — что-то вроде примитивной аналитики для сайтов. Но уже через год команда поняла, что рунет растёт и пользователям нужно как-то ориентироваться.

Тогда Рамблер стал превращаться в поисковик с каталогом, похожим на Yahoo, но с упором на русскоязычные ресурсы. В 1997 году, когда в рунете было всего несколько тысяч сайтов, Рамблер стал хитом чартов: его простой интерфейс и каталог, где сайты сортировались по темам, зашли большинству пользователей.

Например, если вы искали новости, Рамблер предлагал рубрику "СМИ", где сайты были аккуратно разбиты по категориям. Но была и проблема: поиск Рамблера полагался на простое совпадение ключевых слов, а русский язык с его морфологией (падежи, склонения, спряжения) создавал трудности. Запрос "книга" мог не найти "книги" или "книгу", а это многих раздражало.

Если говорить о раннем Яндексе, то он появился ещё в 1997 году на выставке Softool, спустя год после Рамблера.

Аркадий Волож и Илья Сегалович (основатели) понимали, что русский язык — штука сложная. Поэтому в основе поиска Яндекса лёг морфологический анализатор — программа, которая разбирала слово на части (корень, приставку, суффикс, окончание) и приводила его к «основе» — лемме.

Например, пользователь писал «книги», а система понимала:

корень — «книг»,
окончание «-и» = множественное число, родительный падеж,
лемма — «книга».

Дальше поиск охватывал все формы этого слова: «книга», «книге», «книгами» и т.д. Так поисковик «сглаживал» все варианты в одну базовую форму, что сильно повышало точность.

Для хранения данных использовался инвертированный индекс. Это как гигантский словарь: слева слово в нормализованной форме, справа — список документов, где оно встречается, плюс позиции внутри текста. Поэтому Яндекс быстро находил страницы по ключевым словам.

Чтобы наполнить этот индекс, краулер ходил по сайтам, собирал тексты, прогонял их через морфологический анализатор и сохранял результат в базе. Уже к 1998 году у Яндекса было несколько сотен тысяч страниц, и его поиск был сильно круче, чем у конкурентов — потому что там учитывалось много факторов:

не только частота слов, но и их порядок и расположение в тексте;
проверка, находятся ли слова рядом (phrase matching, обычно в пределах 5–10 слов);
булевская логика: «новости Москва» интерпретировалось как «новость» И «Москва» (с учётом всех падежей и форм). Для синонимов использовался OR.

Финальный рейтинг строился на основе доработанного алгоритма TF-IDF:

TF — сколько раз слово встречается в тексте (с поправкой на длину документа, чтобы большие статьи не выигрывали только за счёт размера).

IDF — насколько редким или уникальным было слово по сравнению со всей базой.

То есть ранжирование стояло на адаптированном TF-IDF (Term Frequency-Inverse Document Frequency) — классическом алгоритме информационного поиска, но с доработками для русского.

TF(t, d) = f(t, d) / |d|

где f(t, d) — частота термина t в документе d, |d| — длина d. IDF (обратная частота документов) учитывала редкость слова в корпусе: IDF(t) = log(N / df(t)), где N — общее число документов, df(t) — число документов с t. Итоговая важность: TF-IDF(t, d) = TF(t, d) * IDF(t).

На картинке: термин — слово, которое мы ищем; документ — текст, в котором встречается термин; TF (Term Frequency) — сколько раз слово встречается в документе; IDF (Inverse Document Frequency) — насколько редким это слово является среди всех документов; TF-IDF — произведение TF и IDF; ранжирование — документы сортируются по важности TF-IDF, чтобы показать самые релевантные в верхней части списка.

Ещё несколько сильных опций поиска Яндекса:

Учитывалось, насколько близко слова из запроса расположены друг к другу. Если они рядом — документ считался более релевантным, и его важность увеличивалась (в полтора-два раза).
В рейтинг встраивался контекст — слова в заголовках, ссылках и других важных позициях имели большее значение.
Работа с синонимами и исправление опечаток. Для исправлений использовался принцип расстояния Левенштейна — метрика, которая показывает, сколько изменений нужно, чтобы превратить одно слово в другое.
Синонимы находились с помощью тезауруса, который строили на основе больших корпусов текстов (позже — и Национального корпуса русского языка, в создании которого участвовал Илья Сегалович). Так поиск понимал, что «автомобиль» и «машина» — это одно и то же.

Если раскрыть это шире:

Например, для того же слова "машина" система вычисляла расстояние до слов в словаре: до "машина" — 1 (замена "а" на "ы"), и предлагала коррекцию, если расстояние ≤ 1-2. Это реализовывалось динамическим программированием:

матрица dp[i][j] = min(dp[i-1][j] + 1, dp[i][j-1] + 1, dp[i-1][j-1] + cost)

где cost = 0, если символы равны, иначе 1 через тезаурус на основе собранных корпусов текстов, а позже — и ресурсов вроде НКРЯ — базу синонимичных групп, построенную на основе корпусов русского языка.

Для запроса "машина" система расширяла поиск на "автомобиль", "тачка", добавляя их леммы в запрос с пониженной важностью (скажем, 0.8 от оригинала), чтобы не терять релевантность, но расширять охват.

Поисковые системы научили нас быстро находить информацию в безграничном интернете. Но внутри компаний существует та же проблема: нужные знания часто теряются в чатах, документах и архивах. И здесь уже нужен свой Google или Яндекс — только не по всему интернету, а по корпоративной базе знаний.

Чтобы правильные ответы всегда были под рукой, компании используют системы управления знаниями. Например, такие как Minerva Knowledge со встроенным ИИ-агентом Minerva Copilot, который полностью забирает на себя роль «поисковика».

Он понимает запросы сотрудников на естественном языке (даже с ошибками и опечатками), ищет информацию в базе знаний и выдаёт точный ответ за секунды. В отличие от обычного поиска, Copilot умеет не просто находить документы, но и подбирать конкретные инструкции, ссылки и статьи для принятия решений.

Так вместо хаоса файлов и заметок бизнес получает удобный инструмент для всей команды. А ещё — счастливых сотрудников, которые не тратят время на рутину и не отвлекают коллег в поисках нужной информации.

Узнать подробнее о продуктах Minervasoft

Google — PageRank и доминирование

Ларри Пейдж и Сергей Брин в 1998 году показали миру Google.

В основе поиска лежала важная отличительная черта — не просто искать, а находить лучшее. Решал этот запрос алгоритм PageRank, который оценивал важность веб-страниц не по количеству ключевых слов, как делали AltaVista или Rambler, а по их авторитетности, основанной на структуре ссылок в интернете.

PageRank, названный в честь Ларри Пейджа, моделировал интернет как ориентированный граф, где страницы — это вершины, а ссылки между ними — рёбра. Идея подпитывалась академическим цитированием: если на статью ссылаются сотни учёных, она, скорее всего, значима. Точно так же страница, на которую ссылаются другие сайты, особенно авторитетные, считалась более важной.

Как работает PageRank

Google придумал PageRank, чтобы определить, какие страницы в интернете важнее. Идея была такая: каждая страница отдаёт часть своей «важности» тем, на кого ссылается. Если на страницу ссылаются другие сайты — значит, она сама становится популярной.

Вначале все страницы считались равными. Потом алгоритм многократно пересчитывал важность страниц, перераспределяя его по ссылкам, пока значения не стабилизировались. В среднем нужно было несколько десятков пересчетов, и результат показывал, какие страницы действительно являются «центрами притяжения» в сети.

Идейно PageRank основан на вероятностной модели, которая имитирует поведение пользователя, гуляющего по интернету. Человек с вероятностью ( d ) (обычно 0.85) переходит по случайной ссылке на текущей странице, а с вероятностью ( 1-d ) "прыгает" на любую другую страницу в интернете.

PageRank присваивает каждой странице числовую важность, отражающий её значимость, где важность образуют распределение вероятностей, а их сумма по всем страницам равна 1.

При этом отдельные страницы могут иметь важность, превышающие 0.1 или даже больше, в зависимости от размера графа и структуры ссылок. Для удобства Google масштабировал эти значения (например, в публичной версии PageRank для тулбаров использовалась шкала 0–10).

Формула PageRank для страницы ( i ):

[PR(i) = \frac{1-d}{N} + d \sum_{j \in B_i} \frac{PR(j)}{L(j)}]

Где:

( PR(i) ) — PageRank страницы ( i ).

( N ) — общее число страниц в индексе.

( d ) — демпфирующий фактор (обычно 0.85), моделирующий вероятность перехода по ссылке.

( B_i ) — множество страниц, ссылающихся на страницу ( i ).

( PR(j) ) — PageRank страницы ( j ), которая ссылается на ( i ).

( L(j) ) — число исходящих ссылок со страницы ( j ).

Термин ( \frac{1-d}{N} ) учитывает случайные переходы, а вторая часть суммирует вклад от страниц, ссылающихся на ( i ), пропорционально их PageRank и количеству исходящих ссылок. Это подтверждает идею, что ссылка от популярной страницы ценнее, а страница с множеством исходящих ссылок передаёт меньше важности каждой.

Также в Google очень следили за "зависающими узлами" (dangling nodes) — страницам без исходящих ссылок, которые могли "захватывать" важности и нарушать устойчивость алгоритма. В этом случае компания перераспределяла важности таких страниц равномерно по всем остальным, добавляя их вклад в ( \frac{1-d}{N} ) на каждой итерации.

Для вычисления PageRank Google использовал итеративный метод. Изначально каждой странице присваивался равный важности (( 1/N )). Затем алгоритм пересчитывал важности, пока значения не сходились (обычно за 50–100 итераций, в зависимости от размера графа). Технически это сводилось к поиску стационарного распределения матрицы переходов ( M ), где ( M_{ij} = 1/L(j) ), если страница ( j ) ссылается на ( i ), и 0 в противном случае. Модифицированная матрица с учётом демпфирующего фактора: ( M' = d \cdot M + (1-d)/N \cdot E ), где ( E ) — матрица из единиц. Итоговый вектор PageRank решался через итерацию ( PR^{k+1} = M' \cdot PR^k ).

Вот вам практический пример на основе трёх сайтов:

сайт A ссылается на B и C,
сайт B — только на C,
сайт C ни на кого не ссылается.

Что происходит:

У A почти нет «ценности», ведь на него никто не ссылается.
B получает немного важности от A, но ничего больше.

C получает ссылки и от A, и от B, поэтому постепенно становится самым «важным» узлом. Алгоритм повторяет это распределение «голосов важности» снова и снова, пока баланс не устанавливается. В итоге видно, что именно на C приходится наибольшая часть важности — потому что на него чаще ведут ссылки.

То есть PageRank работает как система голосования, где ссылка — это голос доверия. Чем больше таких голосов (и чем важнее голосующие сайты), тем выше рейтинг страницы.

Или если раскрыть это подробнее:

На трёх страницах: A, B и C. A ссылается на B и C, B ссылается на C, а C — зависающий узел (без исходящих ссылок). Пусть ( d = 0.85 ), ( N = 3 ). На первой итерации:

( PR(A) = PR(B) = PR(C) = 1/3 \примерно 0.3333 ).

На следующей итерации, учитывая перераспределение важности C:

( PR(A) = (1-0.85)/3 + 0.85 \cdot 0 \примерно 0.05 ) (никто не ссылается на A).

( PR(B) = (1-0.85)/3 + 0.85 \cdot (1/3)/2 \примерно 0.05 + 0.1417 = 0.1917 ) (A передаёт половину своего PR).

( PR(C) = (1-0.85)/3 + 0.85 \cdot ((1/3)/2 + 1/3) \примерно 0.05 + 0.2833 = 0.3333 ) (A и B ссылаются на C).

Важность C затем перераспределяется равномерно: его ( PR(C) ) делится на ( N ), добавляя ( 0.3333/3 \примерно 0.1111 ) к каждой странице на следующей итерации. После нескольких итераций значения стабилизируются, показывая, что C получает наибольшую важность из-за большего числа входящих ссылок.

Интеграция с поиском

PageRank был не единственным компонентом поиска Google, скорее дополнением к текстовому анализу. Googlebot сканировал интернет, создавая инвертированный индекс, где слова связывались с документами через TF-IDF, о котором я рассказал выше.

Для запроса "программирование" система находила документы с этим словом, вычисляла их текстовую релевантность (TF-IDF), а затем добавляла PageRank как отдельный ценностный (важность) коэффициент, чтобы приоритизировать авторитетные страницы. Например, страница MIT с высоким PageRank и умеренным TF-IDF могла обойти страницу с высоким TF-IDF, но низким PageRank. Интеграция была сложнее простого умножения: Google использовал линейную комбинацию факторов (TF-IDF, PageRank, анкорный текст), с важностью, настроенной эмпирически.

Анкорный текст ссылок играл ключевую роль: если на страницу вела ссылка с текстом "лучший курс программирования", это увеличивало её релевантность для запроса "программирование". Google анализировал HTML-теги <a> и их атрибуты, добавляя анкоры в индекс как дополнительный сигнал.

К июню 2000 года Google индексировал более миллиарда страниц (в 1999 году — около 50 миллионов), что помогло ему обойти AltaVista и стать лидером по объёму и качеству выдачи.

Почему Google полетел вперёд:

Команда сосредоточилась на качестве поиска.
Его алгоритмы постоянно улучшались: к PageRank добавились анализ текста, учёт синонимов и исправление опечаток.
Стоял акцент на скорости — Google индексировал интернет быстрее конкурентов, а его серверы справлялись с нагрузкой, когда другие поисковики падали от наплыва пользователей.
Сервис одинаково хорошо работает с английским, русским и другими языками.

Также Google повлиял на подход к монетизации. Если Рамблер и Yahoo зарабатывали на баннерах, Google ввёл контекстную рекламу через AdWords — ненавязчивую и привязанную к запросам. Так он начал расти, не раздражая пользователей, и одновременно задавал тренды для рунета, где Яндекс позже запустил свой "Директ".

Альтернативы в современном мире — Bing и DuckDuckGo

Несмотря на лидирование Google по всем пунктам, люди быстро привыкли и начали искать альтернативы, которые предложат что-то новое — будь то приватность, функции или интеграция с экосистемами.

Первый поисковик компании Microsoft MSN Search запустился в 1998 году — в том же году, что и Google. У MSN Search изначально не было собственного индекса: он полагался на партнёрства с внешними провайдерами: Inktomi для веб-поиска и LookSmart для каталогов. Запуск был быстрым, но результаты – довольно кривыми. Ну или более кривыми, чем у конкурентов.

В 2006 году он эволюционировал в Windows Live Search, где Microsoft начала инвестировать в собственные алгоритмы, добавив интеграцию с сервисами вроде Hotmail и Messenger. К 2007 году это стало просто Live Search, с более приятным ранжированием и фокусом на мультимедиа. Но эти версии не смогли конкурировать с Google по доле рынка, и в 2009 году Microsoft ребрендировала систему в Bing.

Его главная фишка — глубокая связь с Windows, Office и другими сервисами. Например, в 2010 году поиск картинок в Bing стал популярным благодаря красивой галерее изображений с ежедневно обновляющимся фоном, чего Google тогда не предлагал.

Технические подробности

Bing работает на базе сложной системы, интегрированной с облачной инфраструктурой Azure от Microsoft.

Процесс поиска начинается с краулера Bingbot, который сканирует интернет, индексируя страницы в огромную базу данных. Индекс Bing в 2025 году охватывает триллионы страниц, обновляясь в реальном времени для свежих новостей и трендов. Когда пользователь вводит запрос, например "новейшие технологии 2025", система токенизирует его, нормализует (учитывая синонимы и опечатки) и включает алгоритмы машинного обучения.

Ранжирование в Bing работает на комбинации факторов: релевантности (TF-IDF и семантический анализ через модели вроде BERT), авторитетности (аналогично PageRank, но с акцентом на "click distance" — сколько кликов нужно от главной страницы сайта до результата) и пользовательских сигналов (без персонализации, но с учётом общих паттернов).

Click distance измеряет глубину страницы в структуре сайта: чем меньше кликов от главной, тем выше приоритет, что помогает отсеивать глубокие, менее важные страницы. Например, для запроса "погода в Москве" Bing интегрирует данные из Azure Maps, выдавая не только текст, но и интерактивные карты.

С 2015 года Bing использует RankNet — нейронную сеть для ранжирования, обученную попарных сравнениях документов (какой из них лучше для запроса).. К 2023 году добавилась интеграция с ИИ, как в Bing Copilot (на базе GPT-4), где поиск генерирует ответы, а не только ссылки. Технически это работает через API Azure AI: запрос проходит через векторизацию (embedding), сравнивается с индексом и генерирует ответ с источниками. Визуальный поиск использует компьютерное зрение: загрузите фото, и Bing применит CNN (конволюционные нейросети) для распознавания объектов, находя похожие картинки из базы.

Почему Bing прижился:

Интеграция — если вы используете Windows, Bing встроен в Cortana, Edge и поисковую строку на рабочем столе. Запрос "погода в Москве" в Windows 10 сразу открывает результаты Bing.
Акцент на визуальный поиск — можно загрузить картинку, и он найдёт похожие изображения или товары.

Но есть и слабости: менее продвинутый анализ ссылок и контекста.

DuckDuckGo

DuckDuckGo, запущенный в 2008 году, сделал ставку на то, чего избегали Google и Bing, — полную приватность. Он не отслеживает запросы, не собирает данные пользователей и не показывает персонализированную рекламу, отвечая на растущую озабоченность слежкой в интернете.

Поэтому даже в 2025 году DuckDuckGo любят те, кто хочет серфить по интернету без "цифрового следа". Например, запрос "законы о конфиденциальности в России" выдаёт результаты без таргетинга, в отличие от Google, который подстраивает выдачу под профиль пользователя.

Техническая реализация DuckDuckGo

DuckDuckGo не создаёт собственный веб-индекс с нуля, а использует агрегацию данных из внешних источников, таких как Bing, Yahoo, Yandex и другие API, а также краулеры для специфических ресурсов, вроде Википедии. Это позволяет экономить ресурсы, но накладывает ограничения на глубину индексации.

Обработка запроса:

Пользователь вводит запрос, например, "сравнение российских облачных сервисов". DuckDuckGo токенизирует запрос, выделяя ключевые слова, но не сохраняет историю поиска или IP-адрес. Это обеспечивается через серверную архитектуру, где запросы обрабатываются без привязки к идентификатору пользователя. Для защиты соединения используется HTTPS, а данные не логируются.

Агрегация результатов:

DuckDuckGo отправляет запрос к партнёрским API (например, Bing для веб-поиска, Википедия для справочной информации). Каждый источник возвращает список документов, ранжированных по своим алгоритмам (обычно на основе TF-IDF и анализа ссылок, как у Bing). DuckDuckGo применяет собственный слой ранжирования, чтобы убрать персонализацию. Например, вместо учёта геолокации или истории поиска он использует нейтральные сигналы: частоту слов, качество источников (Википедия или крупные СМИ получают приоритет) и свежесть данных.

Instant Answers:

Для популярных запросов DuckDuckGo предлагает "Instant Answers" — прямые ответы, извлечённые из структурированных источников вроде Википедии, Stack Overflow или открытых баз данных. Например, запрос "столица России" сразу выдаёт "Москва" с краткой выдержкой из Википедии. Это сделано через внутренний движок, который парсит API и базы данных, используя регулярные выражения и скрипты на Perl (ранняя основа DuckDuckGo) или Python. В 2025 году Instant Answers покрывают тысячи тем, от погоды до научных фактов, за счёт краудсорсинговой платформы DuckDuckGo Answers.

!Bangs:

Уникальная фишка DuckDuckGo — команды "!bangs", позволяющие перенаправлять запросы на другие сайты. Например, "!w Москва" отправляет запрос "Москва" напрямую в Википедию, а "!a ноутбук" ищет ноутбуки на Amazon. Это реализовано через базу из более чем 13 000 предопределённых команд, хранящихся в хэш-таблице. При парсинге запроса движок проверяет наличие "!bang", извлекает команду и перенаправляет HTTP-запрос к целевому сайту с параметром поиска. Это не требует сложных вычислений, но ускоряет доступ к специфическим ресурсам.

Ранжирование:

Алгоритм ранжирования DuckDuckGo проще, чем у Google. Он комбинирует TF-IDF от источников (например, Bing) с дополнительными сигналами, такими как популярность сайта (на основе трафика, без PageRank-подобных вычислений) и релевантность ключевых слов. Однако отсутствие персонализации и меньшая глубина индекса делают результаты не такими точными для сложных запросов.

Приватность и бизнес модель:

Технически приватность реализуется через отказ от трекинга. DuckDuckGo не использует cookies для отслеживания, не хранит историю запросов и применяет анонимизацию через прокси для запросов к внешним API.

Например, запрос к Bing проходит через серверы DuckDuckGo, скрывая IP пользователя. Реклама и аффилированный маркpетинг (основной источник дохода) показывается на основе ключевых слов запроса, а не профиля пользователя, и поэтому она не даётся условному Amazon или Ebay, что снижает релевантность объявлений, но повышает доверие.

Сервис любят юристы, айтишники и своего рода “темщики”, которым нужен доступ к специфическим сайтам. А функция "!bangs" и Instant Answers помогают ползать там без утечки данных.

Но есть и слабая сторона — релевантность. Алгоритмы DuckDuckGo не такие мощные, как у Google или Yandex, из-за зависимости от внешних источников и отсутствия глубокого семантического анализа. Сложные запросы, вроде "сравнение российских облачных сервисов", могут дать не очень точные результаты, так как система не использует нейросети для понимания контекста или локальных данных, как тот же Yandex.

Но при этом Bing показал, что можно бросить вызов Google, интегрируя поиск с экосистемой и визуальными фишками. А DuckDuckGo доказал, что приватность — это конкурентное преимущество, особенно в эпоху, когда данные пользователей стали валютой.

При этом оба поисковика подтолкнули Google и Yandex к улучшениям: первый внедрил больше опций конфиденциальности, а второй усилил визуальный поиск.

Yandex — Локальный лидер рунета

Яндекс начинал как поисковая система, которая учитывает языковой контекст. Сейчас он — ну, вы и сами знаете.

Так, например, менялся логотип Яндекса в течение лет

У компании стояла амбициозная задача — сделать поиск, который понимает русский язык лучше всех. К 2025 году его доля в рунете составляет более 60%, и это не только за счёт поиска.

Яндекс превратился в платформу, где пользователь может решить почти любую задачу. Залог успеха этой истории — локализация. Яндекс хорошо понимает российский контекст: от сложных запросов вроде "расписание электричек Тула–Москва" до культурных приколов, таких как подборка фильмов к 8 Марта. Его алгоритмы учитывают не только морфологию, но и разговорные формы: запрос "где поесть недорого" обрабатывается так же естественно, как если бы вы спросили об этом друга.

В 2024 году Яндекс обновил свой алгоритм, добавив нейросетевые модели, которые лучше понимают сложные и длинные запросы.

Его голосовой ассистент Алиса, запущенный ещё в 2017 году, сейчас — один из самых продвинутых в мире.

Нейросети также апгрейднули поиск до нового уровня. В 2023 году Yandex внедрил YATI (Yet Another Transformer Intelligence), который анализирует семантику запросов и выдаёт более точные результаты. Например, запрос "как починить кран" теперь выдаёт не только статьи, но и видеоинструкции или мастеров из Яндекс.Услуг, если вы добавили город. Это ответ на конкуренцию с ИИ-поиском, вроде Perplexity AI.

Почему Яндекс находится в топе? Google, конечно, силён в глобальном поиске, но в России люди ценят понимание местных реалий, поэтому и выбирают Яндекс.

Собирал диаграмму на основе открытых источников

Также, например, в 2025 году Яндекс лучше справляется с запросами вроде "Где купить запчасти для Лады в Новосибирске?", потому что индексирует локальные сайты и форумы, которые Google может пропустить. И Яндекс чуть меньше критикуют за вопросы приватности, чем Google, хотя и он собирает данные для персонализации.

Диаграмма рыночных долей поисковых систем в России за июль 2025 года по StatCounter: Yandex — 73,43 %, Google — 24,53 %, Bing — 0,87 %, остальные — менее 1 % — Диаграмма рыночных долей поисковых систем в России за июль 2025 года по StatCounter: **Yandex — 73,43 %, Google — 24,53 %, Bing — 0,87 %**, остальные — менее 1 %

И хоть Google доминирует в мобильном поиске (особенно на андроиде), Яндекс любят использовать на десктопах и те, кому нравится формат экосистемы.

Поиск с ИИ: Perplexity AI, Google Gemini и другие языковые модели

Говоря о поисковой системе в 2025 году, нельзя даже случайно не упомянуть ИИ. Тем более, когда он повсюду: Perplexity AI, Google Gemini, ChatGPT и т.д.

Perplexity AI: один из самых “человечных” ИИ-поисков

Perplexity AI, запущенный ещё 2022 году, представляет собой веб-сканирование в реальном времени с мощью языковых моделей — GPT-4 и Claude 3.

В отличие от Google, который просто выдаёт ссылки, или Яндекс, который интегрирует сервисы, Perplexity синтезирует информацию и даёт прямой, структурированный ответ с указанием источников.

Perplexity остался востребованным до сих пор, потому что ориентирован на исследования. Его любят студенты, аналитики и другие эксперты. В рунете его чаще используют, когда нужен доступ к англоязычным источникам или более глубокий анализ — например, "тенденции ИИ в 2025 году" выдаст обзор с Reddit, научных статей и новостей.

Google Gemini: Интеграция ИИ в поискового гиганта

Google в 2024 году показал всем свой Gemini 2.5, интегрировав его в Google Search для диалогового и мультимодального поиска. Он может искать информацию текстом, голосом и даже изображениями, а его функция "Deep Research" (запущена в декабре 2024) напрямую конкурирует с Perplexity, давая контекстные и полные ответы на вопросы.

То есть на запрос "Как работает квантовая криптография?" Gemini выдаст краткое объяснение, диаграмму и ссылки на источники, включая научные статьи и ютуб-лекции.

Хотя в рунете Gemini всё равно уступает Яндексу по локализации, он силён в глобальном охвате и интеграции с экосистемой Гугл. При этом Gemini критикуют за излишнюю зависимость от рекламной модели Гугл: ответы могут включать спонсорский контент, а это снижает доверие по сравнению с тем же Perplexity.

Ну и для сложных запросов Gemini может быть менее точным, чем специализированные ИИ-поисковики, из-за широкого охвата.

ChatGPT и другие LLM: Поиск как побочный эффект

Да, ChatGPT не создавался как поисковик, но с выходом SearchGPT в 2024 году всё-таки начал конкурировать в этой области. SearchGPT, интегрированный в ChatGPT, использует данные из интернета для ответов в реальном времени, но его сила — в диалоговой природе.

Другие LLM, такие как Claude от Anthropic, тоже пробуют себя в поиске, но результаты пока слабые. Claude лучше справляется с творческими задачами, чем с фактическими запросами, и в рунете его почти не используют. В целом, ChatGPT и подобные модели подходят для генерации идей или объяснений сложностей, но уступают Perplexity и Gemini в реальном поиске из-за отсутствия веб-сканирования или слабой локализации.

Что в итоге? Мы прошли большой путь от каталогов Yahoo до ИИ-поиска Perplexity AI. Но как вы думаете, каким будет поиск ещё через пару лет? Или 10-20?

Больше полезной информации про ИИ и спорные вопросы в найме, менеджменте и планировании читайте в блоге Minervasoft.

Комментарии (2)

nerolinker
25.08.2025 02:21
#28748874
Чел сгинь уже со своим ИИ текстом. 20 лет он в айти... Судя по тексту обычный зумер с фантомным чувством ностальгии (ненастоящим). Фантазер.

aghast
25.08.2025 02:21
#28748918
Невозможно читать, на откровенный gpt-текст С минимальными стилистическими правками уже аллергия