Выборы проводятся для того, чтобы узнать, чей предвыборный прогноз оказался точнее. (с) Роберт ОрбенЧтобы оценить вклад компании Google в развитие поисковых систем, нужно переместится примерно на 20 лет назад. В те смутные времена, количество информации в интернете было в сотни раз меньше чем сейчас, но сам поиск нужной информации был куда сложнее. Пользователь мог проводить долгое время на сайте поисковика, пробуя формулировать по разному запрос к поисковой системе и все еще не получать нужного результата. Существовали даже агенства, которые предлагали свои услуги по поиску в интернет за деньги. На заре поисковых систем важность страницы определялась множеством субъективных факторов, вроде html разметки, количества терминов, заголовков и жирностью шрифта на странице. Не редко специально созданная страница или копия оригинальной страницы, наполненная нужными заголовками и терминами оказывалась в выдаче топ. При этом с точки зрения человека она не имела совершенно никакого смысла, но имела очень высокий рейтинг в поисковой системе.
В 1997 году двумя студентами Стэндфордского университета был предложен знаменитый алгоритм Page Rank. По сути это тот редкий случай, когда инженеры выпрыгнули из многолетнего болота и нашли простое элегантное решение, которое за один простой шаг закрыло стопку проблем и предрешило исход битвы межу CEO специалистами и поисковиками на много лет вперед. Суть Page Rank – это «демократия» в мире Веб. Каждая страница на сайте, которая содержит ссылку на другой сайт, «голосует» за него. Таким образом в топ подымаются наиболее часто цитируемые, авторитетные сайты первоисточники. Page Rank помогает поднять в топ наиболее популярные сайты, которые как пузырьки воздуха в воде, всплывают на основе «мнения» большого количества менее популярных сайтов. Такая схема хорошо работала в экосистеме начала 2000-х, где доминировали небольшие интернет сайты, наполнение которых занимались веб мастера и контент менеджеры. С приходом Веб 2.0 основным источником информации в интернете стали сами пользователи интернета что видоизменило интернет. Во-первых, огромный поток информации от пользователей привел к тому, что появились гигантские сайты с миллионами, а иногда десятками и сотнями миллионов страниц. Во-вторых, сайты начали содержать большое количество неструктурированной и не адаптированной информации для поисковиков, большое количество локальных мемов и синтаксических ошибок. Однажды созданная тема, скажем на форуме или в блоге под одним заголовком, может легко перейти в другую область для обсуждения. При поиске на таких сайтах, основная проблема уже не в определить авторитетность сайта, а правильно проранжировать страницы внутри самого сайта, ведь теперь под поисковый запрос могут попасть сотни и тысячи страниц. Конечно же, в таких случаях Page Rank не работает и многие поисковые системы использует приемы из «до гугловской» эпохи, вроде анализа заголовков, тегов и тд.
В следующей части я расскажу, можно ли обойти эту проблему с помощью машинного обучения, как заставить машину ранжировать страницы внутри самого сайта учитывая его уникальную терминологию на примере поиска по этому сайту.
Комментарии (4)
Bazist Автор
15.11.2018 16:10Обои немного не в тему, это ведь не фейслифтинг яндекса или гугла.
В остальном, должно быть не скучно
s1.radikale.ru/uploads/2014/8/21/e3bcf5ec37d945430cf00a44caed78b1-full.jpg
Ogra
Слишком много букв. Не осилил.
Bazist Автор
Это не большая вводная статья, попытка посмотреть на развитие поисковых систем с другой стороны. В следующих частях, будет «ближе к делу» и больше примеров. Суть — я пишу поисковый движок и оттачиваю ранжирующий алгоритм, будем сравнивать его работу с другими популярными поисковыми системами.
kinall
Простите, а нескучные обои в нём будут?..
Ещё раз извините)