image
Выборы проводятся для того, чтобы узнать, чей предвыборный прогноз оказался точнее. (с) Роберт Орбен
Чтобы оценить вклад компании Google в развитие поисковых систем, нужно переместится примерно на 20 лет назад. В те смутные времена, количество информации в интернете было в сотни раз меньше чем сейчас, но сам поиск нужной информации был куда сложнее. Пользователь мог проводить долгое время на сайте поисковика, пробуя формулировать по разному запрос к поисковой системе и все еще не получать нужного результата. Существовали даже агенства, которые предлагали свои услуги по поиску в интернет за деньги. На заре поисковых систем важность страницы определялась множеством субъективных факторов, вроде html разметки, количества терминов, заголовков и жирностью шрифта на странице. Не редко специально созданная страница или копия оригинальной страницы, наполненная нужными заголовками и терминами оказывалась в выдаче топ. При этом с точки зрения человека она не имела совершенно никакого смысла, но имела очень высокий рейтинг в поисковой системе.

В 1997 году двумя студентами Стэндфордского университета был предложен знаменитый алгоритм Page Rank. По сути это тот редкий случай, когда инженеры выпрыгнули из многолетнего болота и нашли простое элегантное решение, которое за один простой шаг закрыло стопку проблем и предрешило исход битвы межу CEO специалистами и поисковиками на много лет вперед. Суть Page Rank – это «демократия» в мире Веб. Каждая страница на сайте, которая содержит ссылку на другой сайт, «голосует» за него. Таким образом в топ подымаются наиболее часто цитируемые, авторитетные сайты первоисточники. Page Rank помогает поднять в топ наиболее популярные сайты, которые как пузырьки воздуха в воде, всплывают на основе «мнения» большого количества менее популярных сайтов. Такая схема хорошо работала в экосистеме начала 2000-х, где доминировали небольшие интернет сайты, наполнение которых занимались веб мастера и контент менеджеры. С приходом Веб 2.0 основным источником информации в интернете стали сами пользователи интернета что видоизменило интернет. Во-первых, огромный поток информации от пользователей привел к тому, что появились гигантские сайты с миллионами, а иногда десятками и сотнями миллионов страниц. Во-вторых, сайты начали содержать большое количество неструктурированной и не адаптированной информации для поисковиков, большое количество локальных мемов и синтаксических ошибок. Однажды созданная тема, скажем на форуме или в блоге под одним заголовком, может легко перейти в другую область для обсуждения. При поиске на таких сайтах, основная проблема уже не в определить авторитетность сайта, а правильно проранжировать страницы внутри самого сайта, ведь теперь под поисковый запрос могут попасть сотни и тысячи страниц. Конечно же, в таких случаях Page Rank не работает и многие поисковые системы использует приемы из «до гугловской» эпохи, вроде анализа заголовков, тегов и тд.

В следующей части я расскажу, можно ли обойти эту проблему с помощью машинного обучения, как заставить машину ранжировать страницы внутри самого сайта учитывая его уникальную терминологию на примере поиска по этому сайту.

Комментарии (4)


  1. Ogra
    14.11.2018 21:20
    +2

    Слишком много букв. Не осилил.


    1. Bazist Автор
      14.11.2018 21:54
      -1

      Это не большая вводная статья, попытка посмотреть на развитие поисковых систем с другой стороны. В следующих частях, будет «ближе к делу» и больше примеров. Суть — я пишу поисковый движок и оттачиваю ранжирующий алгоритм, будем сравнивать его работу с другими популярными поисковыми системами.


      1. kinall
        15.11.2018 08:14

        я пишу поисковый движок

        Простите, а нескучные обои в нём будут?..
        Ещё раз извините)


  1. Bazist Автор
    15.11.2018 16:10

    Обои немного не в тему, это ведь не фейслифтинг яндекса или гугла.
    В остальном, должно быть не скучно
    s1.radikale.ru/uploads/2014/8/21/e3bcf5ec37d945430cf00a44caed78b1-full.jpg