Здравствуйте, меня зовут Дмитрий Карловский и я крайне опечален качеством поиска современных поисковиков.
Например, обсуждали мы как-то в $mol-чате стоит ли делать "человеко-понятную" псевдостатику в урлах вида /snjat-dvushku/s-remontom/v-vihino
для SEO, или всё же сеошники - шарлатаны, гадающие на поисковой гуще. Решили проверить кто там у нас в топе по запросу "квартира купить однокомнатная горьковская" и получили такой результат:
Дыбенко, Лесная, Жопа Мира, всё, что угодно, только не то, что спрашивали. Первые 4 результата - нерелевантный мусор. А потом сервис самого же Яндекса. Как так получилось, что в 2к21, в эпоху машинного обучения и GPT-3, у нас получился поиск хуже, чем на заре интернета?
Копаем вглубь
А разгадка простая: первые четыре результата - это реклама, мимикрирующая под выдачу. Порой она настолько хорошо мимикрирует, что опознать её может только экстрасенс:
Отвечая на изначальный вопрос: в топе будет тот, кто больше проплатил поисковику, и всё. Так что не мучайте программистов хитрожопыми правилами формирования урлов, выгоняйте сеошников не умеющих в научный подход, а сэкономленные деньги просто отдайте на рекламу. И ладно там с СЕО, для пользователей ситуация куда более печальная..
Какие бы умные разработчики ни работали над уникальными алгоритмами поиска, если ко власти приходят эффективные менеджеры, для пользователя ваш поиск всё-равно будет работать отвратительно. Такие менеджеры усиленно пилят сук на котором сидят. Главное - срубить как можно больше премий, пока он не обломился.
И Яндекс такой не один, конечно. Соблазн поднять бабла на невнимательности пользователей - очень высок. Например, поищем "free hosting" в популярных поисковиках:
Безоговорочный лидер тут у нас - Yahoo, где суммарная площадь рекламного мусора превысила объём релевантной выдачи. Видя, снижение прибыли из-за оттока пользователей, они всё сильнее закручивают гайки, тем самым лишь ещё больше увеличивая отток.
Копаем вширь
И это мы пока что говорили лишь про "результаты выдачи" и мимикрирующую под неё рекламу. А есть ещё и не мимикрирующая реклама, всяко разные "колдунщики" и "острова" влезающие со своими "подсказками" после каждого второго пункта выдачи. Интерфейс выдачи сейчас везде настолько перегружен, что им просто неприятно пользоваться. Чем больше даже релевантной информации разбросать по странице, тем меньше вероятность, что посетитель вообще заметит то, что ему могло бы быть полезно.
На мой взгляд хороший поисковик должен предлагать диалог помогающий пользователю объяснить роботу, что он ищет:
Лук
Какой лук? Репчатый, охотничий, географическое место или вообще внешний вид?
Охотничий
А что про него? Как работает, где купить, история использования?
Как работает
Лады, держи страницы о конструкции луков.
Если делить таким образом выборку каждый раз на 5 частей, то за 10 вопросов легко можно найти любую страницу из 10 миллионов. Акинатор не даст соврать.
Нечто похожее есть в поиске по картинками, только фасеты подбираются безобразно:
Сейчас же поисковики пытаются ответить сразу на все вопросы одновременно, показывая тебе и карты, и вырезки из Википедии, и перевод, и видео, и подборку картинок, и ответы на вопросы, и что ищут другие люди, и всё, что угодно, лишь бы ты не делал лишних тапов, но делал лишние свайпы.
И даже если от всего этого избавиться, сам результат поиска тоже оставляет желать лучшего. Всё потому, что поисковики возвращают не то, что вы ищите, а то, что ищет большинство по совершенно иным запросам. Ну мало ли вы ошиблись, отбились от стада, со всеми бывает.
Например, лет 7 назад я написал песню, которая много где уже опубликована. Так вот, там есть слова "Ты моё Сонце - я твой Месяц в звёздах". Давайте попробуем её найти:
Прекрасно, 9 миллионов результатов и, внезапно, фолиевая кислота на пол экрана! Не, ну а что, вдруг залетит после таких-то красивых слов. Яндекс - мы думаем на перспективу.
Это явление называется "пузырём фильтров". Есть большой пузырь, куда суют по умолчанию всех. В нём находится индивидуальный пузырик, основанный на слежке за пользователем. И что бы вы ни искали, результаты будут не со всего интернета, а лишь из вашего пузыря.
Чтобы вырваться из пузыря и заставить таки поисковик искать то, что вам надо, порой помогает взятие запроса в кавычки. Но и тут Yahoo умудрился отличиться:
Два нерелевантных результата, прикидывающиеся будто их 60. Bing же просто выдаёт 4 рекламы (две из которых - ювелирка, Бинг более деликатен, чем Яндекс, видимо) и всё:
Короче, с поиском в интернете сейчас определённо чо-то не то. Это уже настолько очевидно всем, что пара бывших топов по рекламе из Google запустили свой платный поисковик. Конечно же они грозятся рекламу не показывать, за действиями не следить, данные не воровать.. Но вы можете открыть им для индексации ваши Gmail, Outlook, Google Drive, Dropbox, Slack, Jira или где вам там есть что скрывать.
Ведь если вы платите компании деньги, то нет оснований полагать, что все ваши данные разом (намеренно или не очень) вдруг окажутся в руках кого-то, кому вы бы их ни за что не открыли. Да что уж там, они даже не парятся, и отображают в выдаче гугл-карты, хвастаясь тем, какие они молодцы, что не стали изобретать велосипед получив $77,5 млн инвестиций. Вот тебе и приватность.
Причём, что у них собственно с качеством поиска ты не узнаешь, пока не заплатишь. А с качеством у поисковиков есть проблемы и без реклам да пузырей. Банальный поисковой спам то и дело попадается в результатах. Например, вездеcсущий pinterest.com. Чтобы не видеть его в выдаче приходится добавлять "-site:pinterest.com" к запросу. Но работает это не везде.
Копаем вбок
И сижу я такой, смотрю на это всё, и офигеваю. Что делать-то простому безработному программисту из Мухосранска? От рекламы в выдаче уже тошнит. Платить за поисковик 5 баксов жаба душит. Пилить своё - никаких ресурсов не хватит. Хотя, есть одна идейка..
У того же Гугла есть Программируемая поисковая система. Она позволяет встроить Гугл-поиск в свой сайт. А что если..
Ладно, смотрим апи. Какие у нас есть возможности:
Можно рисовать своё поле поиска и дёргать запросы вручную.
Можно полностью самим же рисовать и выдачу.
Можно искать как по конкретным сайтам, так и по всему интернету.
Да это же то, что нам и надо! Но кто оплачивает этот банкет? Находим Прайс и видим 3 альтернативы:
Платить из своего кармана за чужие поиски.
Показывать рекламу.
Показывать атрибуцию.
Платить нечем, от рекламы как раз и пытаемся сбежать, а что за атрибуция такая? Фактически это реклама самого гугла, только менее навязчивая. То есть достаточно просто вставить ссылку на Гугл? Не совсем, варианта лишь два:
Показывать её где-то рядом с поисковым полем.
Или где-то рядом с результатами поиска.
Причём делать это нужно не как попало, а лишь с помощью их бренд-скрипта. Ну ладно, звучит приемлемо - вставим атрибуцию в конце выдачи. Зато сможем предоставить пользователю действительно хороший UX поиска. Разве что..
Один скрипт, другой, третий и вот у нас уже страничка на 200 кб. А это на четверть больше, чем весь портал mol.hyoo.ru, где функциональности гораздо больше, чем поле поиска, http-запрос и список ссылок. Мой внутренний перфекционист рыдает кровью, но ничего не поделаешь. Хорошо хоть не на Ангуляре..
Но даже так загрузка у нас получилась в 2 раза быстрее оригинала:
Итак, пришла пора показать результат всех этих мучений лицом:
Как видно, есть предустановленный список альтернативных поисковиков и чёрный список доменов, которые исключаются из выдачи. Но пользователь легко может их изменить под себя. Настройки хранятся локально. Они никуда не сливаются. Но и не синхронизируются. Для синхронизации потом сделаю свой крипто синхронизатор, не раскрывающий данные серверу.
К сожалению, не раскрывать текст запросов поисковику не получится. Так что уровень приватности не больше, чем в собственно Гугле.
А теперь о печальном:
Даже в кавычках ничего не нашлось. И дело тут совсем не в запросе, а в том, что программируемый гугловый поиск похоже ищет не по всему интернету, а лишь по некоторому пузырю из наиболее популярных страниц. Так что "убийца конкурентов" у нас, конечно, не получится. Благо есть быстрые ссылки для поиска по тому же запросу в других поисковиках.
Выкапываемся
Я может и не бог дизайна, но я и не транс-национальная корпорация, которая может позволить себе нанять самых топовых дизайнеров.. которые не в курсе, что иногда люди пользуются интернетом и в полумраке, а кристально белый фон страницы в этих условиях просто выжигает им сетчатку.
Поисковик я делал таким, каким бы хотел пользоваться сам. Поэтому рекламы на нём нет и не будет. А в приоритете релевантность результатов поисковому запросу а не профилю пользователя. Ну, насколько это возможно в свете отсутствия коммерческой выгоды и, как следствие, использовании сторонних API.
Проект, как обычно, с открытыми исходниками, лицензия MIT. Так что смело подкидывайте идеи по улучшению, а то и подключайтесь к его развитию. Например, не сложно будет прикрутить поиск по картам и картинкам. Ну или пилите что-то своё, лучше, чем у меня. Пусть расцветают сто цветов.
Тут правда есть риск, что этот мой микро сервис обретёт популярность. Тогда есть два варианта развития событий:
Оптимистичный: владельцы поисковиков растормошатся и возьмутся за UX их базовой функциональности.
Пессимистичный: лавочку могут просто прикрыть. Тем более, что в условиях использования есть такой чудесный пункт: Недопустимо создавать или пытаться создать такой же или аналогичный Сервис или продукт, используя доступ к любому из Сервисов или к соответствующей запатентованной информации. Забанить по нему можно кого угодно, было бы желание.
Но реалистичный сценарий всё же - неуловимый Джо, - это когда всем пофиг.
Ну и, наконец, ссылочки:
search.hyoo.ru - сам поисковик
hyoo-ru/search.hyoo.ru/issues - сюда писать баги
apps.hyoo.ru - тут другие наши приложения
t.me/mol_news - а тут можно следить за новостями из мира $mol
Почаще вам находить и пореже терять!
Apathetic
Ты зачем гугл сломал?
P.S. От слова "сонце" перетряхивает литералли каждый раз
justvoice
все нормально, «сонце» — это кто-то/что-то, связанное со сном :)
nin-jin Автор
Да не, просто беглая гласная. В русском языке такого много.
alexpp
Безграмотность, а не беглая гласная.
Qwerty710
Вообще, за компьютером клавиша может банально не нажаться при быстрой печати. Да и кстати, если речь про сравнение поисковиков, то неплохо бы и проверить, исправляет ли сайт орфографию.
Lepidozavr
нет, это всё на полном серьёзе?) то есть оформление текста с запятыми и последующим грамотным написанием слов никому ни о чём не говорит?) именитым авторам можно ставить запятые и коверкать слова, а простой смертный сделавший очевиднейшую ошибку, которую даже самый безграмотный человек сейчас не сделает - определённо безграмотен и не достоин своего видения рифмы в условиях преднамеренной ошибки?
Нет, я может чего-то не понял... но понимаю, если бы пару минусов влепили автору, ну статистическая ошибка, у кого-то плохой день, и ладно сейчас на Хабр приплывает аудитория Пикабу, но тут массовое явление какое-то. Тут за откровенную ересь бывает меньше минусов, чем за мнение автора стихотворения! Не отрицаю, может я правда чего-то не понимаю. Объяснит кто?
nin-jin Автор
Граммар-наци обычно дальше школьной программы в изучении языка не ушли, про эрративы не слышали, эволюцию литературной нормы не наблюдали. Зато очень оскорбляются, если ты говоришь или пишешь не так, как они привыкли.
DoctorMoriarty
>эволюцию литературной нормы
Вот как как филологи определят, насколько кандидат в нормы ломает семантику или же таки нет, не ломает, тогда и пишите в соответствии с новой признанной нормой. А пока что извольте пользоваться текущей нормой или хотя бы одной из субкультурных норм (пейсать по-падонкафски тоже надо правильно).
Некоторые прямо таки уцепились за возможность оправдывать собственную безграмотность и/или нежелание из-за лености соблюдать хорошие, годные традиции культуры речи «эволюцией», о которой что-то где-то слышали — а то как же, прямо в тренде «все мнения равны». Однако — не канает отмазка.
nin-jin Автор
Возможно я нарушу вашу картину мира, но филологи не занимаются предписаниями как людям говорить и писать, они занимаются описанием как люди говорят и пишут.
StjarnornasFred
Не совсем. Есть 2 подхода - прескриптивизм (предписание) и дескриптивизм (описание). Филологи, может быть, занимаются в основном первым, но они наверняка консультируют спициалистов по второму, потому что в конечном счёте именно второе будет иметь значение для ответа на вопрос "как правильно писать?".
nin-jin Автор
Специалисты по предписаниям - это вы чиновников так красиво назвали? И на каком же основании они по вашему имеют право указывать как нам с вами разговаривать?
StjarnornasFred
Странный вопрос. Вас же не смущает, например, что существуют строгие правила видов спорта, принятые на высшем уровне? Вам при этом никто не запрещает играть в футбол во дворе, допустим, в формате 3 на 3, но в официальных соревнованиях по футболу в команде должно быть определённое число игроков и поле должно иметь определённые размеры. Иначе это уже будет не футбол, а какой-то другой вид спорта.
Так и тут. Вам никто не запрещает говорить как хочется, но в официальных документах, в учебниках и в лицензированных СМИ должна использоваться формализованная и кодифицированная литературная норма.
Хороший пример - Исландия. Многие европейские языки страдают из-за "англификации", причём не простого заимствования слов (фиг бы с этим - это нормальный процесс развития языка), а из-за грамматического загрязнения. Многие неологизмы из английского языка переходят в язык в неизменном виде, их надо читать и писать как в оригинале, при том что это зачастую противоречит грамматике нового языка (например, не склоняются по правилам нового языка или содержат нестандартные звукобуквы - например, в шведском языке буква Y всегда читается как немецкая U, а теперь представьте заимствование типичного английского слова с этой буквой). Так вот, в Исландии местный языковой комитет не просто вырабатывает правила языка и следит за их соблюдением, но и занимается адаптацией неологизмов из всех сфер науки и общества к местному языку. Иногда для этого достаточно просто немного скорректировать слово, подогнав его под грамматику, а иногда задача посложнее (например, tolva - компьютер, "числовой предсказатель", слово взято из НФ-книги как авторский неологизм в 1965 году).
nin-jin Автор
Благо ни мои статьи, ни (тем более) песни не являются официальными документами.
И, к счастью, языки развиваются самостоятельно носителями, и ничего не должны, ни вам, ни какому-то самопровозглашённому комитету.
StjarnornasFred
"Самостоятельно" языки не развиваются, а деградируют. Если в стране-хозяйке слабый языковой орган, то её язык оказывается замусорен. Если в некоем регионе плохо работает система образования и не уделяется должного внимания обучению детей грамоте родного языка, то население этого региона начинает говорить и писать неграмотно, с массой ошибок и бессистемно. А вы думали, откуда взялись все эти "болие лимения", "в аочую", "из подтижка" и прочие "двух яростные кровати"? Именно оттуда, из тех мест Зацкадья, где русский язык "развивается самостоятельно носителями".
И вообще: карова. Всем понятно, что имелось в виду, следовательно, писать грамотно вовсе необязательно...
cepera_ang
Самостоятельно язык деградирует среди носителей деградирующего языка, но много ли этот слой населения оказывает влияния на культуру, много ли снимает фильмов, пишет книг и статей, даёт презентаций? Да и то, что вы называете замусориванием без системы на самом деле имеет под собой вполне понятные закономерности, упрощение/изменение происходит как раз систематично, просто вам лично это направление не нравится, а что делать, если "воочие" — это просто набор звуков, не привязанный ни к какой физической реальности вокруг говорящего? Да и "тишок", из-под которого что-то происходит — тоже вполне себе отжившее своё слово-понятие, туда ему и дорога.
Вот скажите мне, как называется сильный языковой орган ответственный за размусоривание английского языка? И ничего, развивается как-то без федерального бюро по надзору за языком.
KabirK
Ну вот — написал же человек статью. По-своему ценную статью, а главное — относительно объёмную, то есть содержащую много текста. При этом человек ничтоже сумняшеся уверен в корректности формы *Сонце, называет непроизносимый согласный беглой гласной, не знает о прескриптивизме и дескриптивизме — и считает себя вправе выносить лингвистические суждения. На мой взгляд, этим он определённо вносит свою лепту в деградацию языка.
Что до размусоривания, то, во-первых, английский язык занимает особое положение в современном мире, однако, во-вторых, даже для него существует кодекс Hart's Rules for Compositors and Readers. А подавляющее большинство прочих языков (достаточно развитых) поддерживают именно что органы: l’Academie francaise, die Gesellschaft fur deutsche Sprache, la Asociacion de Academias de la Lengua Espanola — и т. д. Более сотни наименований в английской Вики (статья List of language regulators).
cepera_ang
Кому и почему стало бы хуже, если бы со временем Сонце стало бы именно так и записываться?
KabirK
1. Речь шла о другом: а) оказывает ли влияние на развитие языка слой населения, для которого характерна недостаточная грамотность, б) есть ли «органы, размусоривающие язык». Ответ — «да» оба раза. Вы эти «да» игнорируете, меняя тему. Это, простите, напоминает мне демагогию.
2. Если же рассматривать вопрос не в контексте этого диалога, а отдельно, то ответ на него очевиден, а если вам он неочевиден, то либо вам не вспомнилось, например, слово «солнечный» — и тогда вот оно; либо вы не знаете о том, что важнейший принцип русской орфографии — морфологический, — тогда ответ на часть «кому» — всем, кто использует русский литературный язык, а ответ на часть «почему» слишко объёмен для комментария на Хабре, но легко находится в университетских учебниках (или в справочных текстах академического характера).
Есть области, где наука [ещё] не разобралась в механизмах и закономерностях; есть — где разобралась. Пересматривать второе — странное занятие. Кому и почему стало бы хуже, если бы семью семь стало бы равняться сорока семи?
DoctorMoriarty
>а что делать, если «воочие» — это просто набор звуков, не привязанный ни к какой физической реальности вокруг говорящего? Да и «тишок», из-под которого что-то происходит — тоже вполне себе отжившее своё слово-понятие
«Наборы звуков» и «отжившие понятия»? Да, для публики, которая не читает и не имеет привычки к чтению / для публики, которой надо, чтобы если статья — то «чётко, без воды и по делу, без гуманитарщины» — наборы звуков. Деградирующие носители языка, разумеется, порождают процесс деградации языка.
nuclight
Представьте себе, именно занимаются предписаниями, как правильно писать, потому что кто еще это сделает, кроме них? Банально потому, что описание того, как говорят, невозможно без письма, причем правильного письма — например, слова с одинаковыми корнями, хотя и могут произноситься по-разному, писаться должны так, чтоб было ясно, что это за корень. И т.д.
Lord_Ahriman
Вот не надо эрративами и эволюцией нормы прикрывать безграмотность и нежелание учиться. Эрративы всегда по контексту видно. А когда мне, как вчера, на мыло приходит деловое(!) письмо от организации (!!!) с «вкрации» и «искпертиза» и со знаками препинания, расставленными, похоже, рандомайзером, то это не эрративы, а чОрт знает что. И большинство дичи в Сети — не эрративы, а именно тотальная безграмотность.
aamonster
Граммар-наци на самом деле не очень счастливые люди, и наезжают не потому, что хотят кого-то унизить, а потому, что им больно. Ну не знаю... представьте, что кто-то ведёт куском пенопласта по стеклу, звук такой, что у вас зубы ноют.
Олбанский, кстати, такого эффекта не даёт: когда всё не так – это воспринимается совсем по другому. Думаю, просто неграмотный текст даёт что-то вроде эффета Uncanny Valley, всё почти Ok, но мелкие несоответствия цепляют.
bano-notit
Я как бывший грамар-наци очень советую наблюдать и исследовать почему же люди говорят не так как написано с правилах. Это много интереснее чем на каждую ошибку читать лекцию из школьных правил, может даже не из школьных.
А вот с письмом сложнее. Оно теряет очень много того, что можно выразить в живом языке и соответственно там смысл сохраняется сложнее. Хотя даже тут можно найти свой стиль. Я например не ставлю запятые там, где их отсутствие не вредит чтению. Но в ситуации казнить нельзя помиловать обязательно поставлю. Аналогично заглавные буквы ставлю только в больших сообщениях где больше 3 предложений, чтобы легче читалось
В опщем занемайтись иследованиями, не упреками
aamonster
Воопщем же!
А насчёт упрёков – да. Они не работают. Поправлять имеет смысл только тех, кто готов выслушать.
Вот если сказать: "чувак, что ж ты делаешь, мне же больно" – помогает иногда. Люди в целом не сволочи и готовы идти навстречу, если это не очень напряжно.
ЗЫ: с запятыми у меня беда, это порой очень стыдно :-).
Lord_Ahriman
Эмгхм… Во-первых, «л» — согласная. Во-вторых, беглая гласная — это совсем-совсем другое.