В будущем, как нам кажется, все популярные браузеры выйдут за рамки программ для открытия веб-страниц и научатся лучше понимать людей, которые ими пользуются. Сегодня я расскажу вам, каким мы видим это будущее на примере персональной ленты Дзен в Яндекс.Браузере, которая теперь доступна пользователям Windows, Android и iOS.



Несмотря на кажущуюся простоту, в основе Дзена лежат довольно сложные технологии. Я расскажу немного о том, как это реализовано у нас, где и почему мы использовали традиционное машинное обучение, а где — нейронные сети и искусственный интеллект, и буду благодарен за ваше мнение об этом подходе.

Рекомендации хорошо знакомы всем, кто активно пользуется сетью. Интернет-магазины предлагают схожие товары. Онлайн-кинотеатры советуют фильмы. Музыка, книги, игры, приложения — в любой нише можно найти примеры подобных решений. В современном мире, где количество информации растет в геометрической прогрессии, рекомендации помогают людям найти что-то новое и интересное.

Яндекс всегда специализировался на поиске. В широком смысле этого слова. Поиск ответов на свои вопросы. Поиск оптимального маршрута. И даже поиск свободного такси рядом с вами. Примерно два года назад у нас появилась еще одна идея. Научить машину искать в сети тот контент, который был бы интересен конкретному человеку. Персонализированный поиск, где в качестве запроса выступают не слова, а интересы. Из этой идеи и родилась лента рекомендованного контента Дзен.

Дзен


Дзен – это бесконечная лента контента, которая формируется исходя из интересов конкретного человека. Мы хотим помочь пользователям найти интересный контент, а издателям – целевой трафик (клик по рекомендациям открывает материал на сайте-первоисточнике). Обычно рассказы о новых продуктах начинают с описания идеологии и продуктовой стратегии, и здесь я рекомендую вам прочитать пост Романа kukutz Иванова в блоге Яндекса, а мы с вами сразу перейдем к самому важному для Хабра, к технологиям. Тем более, что именно они отличают Дзен в Яндекс.Браузере от любых других браузерных (и не только) аналогов.



Кстати, внимательный читатель может вспомнить, что первые эксперименты с Дзеном проводились в 2015 году на странице zen.yandex.ru. Почему теперь лента рекомендаций стала частью Браузера? На этот раз вопрос я обязательно отвечу чуть позже.

В основе Дзена лежит рекомендательная технология Диско, разработанная в Яндексе и уже нашедшая применение в Яндекс.Музыке и Яндекс.Маркете. Слово «диско» созвучно английскому слову discovery, которое означает «открытие нового» и хорошо описывает суть технологии.

Упрощенная логическая схема работы Диско в случае с Дзеном выглядит так:



Начнем с самого начала, с исходных данных, которым еще только предстоит как-то превратиться в факторы.

С чего начинаются рекомендации


Прежде чем что-либо советовать человеку, нужно понять его интересы и предпочтения. Дзен для этого использует знания Яндекса о посещаемых людьми сайтах. Благодаря этим знаниям многие новые пользователи Дзена смогут сразу увидеть ленту персональных рекомендаций без необходимости что-то настраивать. Но иногда их недостаточно. Можно было бы попробовать решить эту проблему с помощью ленты, ориентированной на среднестатистического человека. Но мы же знаем, что такого человека в реальности не существует (что хорошо было показано на примере американских военно-воздушных сил). Поэтому пошли другим путем и предложили людям самостоятельно ограничить круг своих интересов. У этих настроек нет своего названия, но внутри мы называем их «Онбордингом».



Важно понимать, что Онбординг – это не обязательный этап начальных настроек, а лишь резервный вариант для тех, кому точно нечего предложить. Лента рекомендаций сразу после прохождения Онбординга может достаточно сильно отличаться от подборок, формируемых через несколько недель активного использования Дзена. Эти настройки уже доступны пользователям Яндекс.Браузера для Android и iPhone. Для Windows станут доступны в ближайшее время (а пока можно воспользоваться временным решением).

Знания об интересах человека – это лишь половина необходимой информации. Для того чтобы что-то рекомендовать, нужно для начала это что-то найти. Обычно рекомендательные сервисы решают эту задачу примитивным способом – формируют ограниченный каталог RSS-лент по интересам. В случае с Дзеном таких ограничений нет. Поисковые роботы ищут любые материалы. Это могут быть как авторские публикации с популярных блогов, так и качественные истории с форумов или ролики с YouTube. Это то, что мы называем «диким вебом». Главное, чтобы сайт не был заброшен и на странице содержалось достаточное количество полезного контента.

Итак, с одной стороны у нас знания о любимых публикациях миллионов пользователей, с другой – вся мощь глобального поискового индекса Яндекса. Осталось самое «простое». Научить машину строить рекомендации.

Виды рекомендательных систем


В истории рекомендательных технологий хорошо известны два их основных вида: фильтрация по содержимому и коллаборативная фильтрация. Начнем с первого, который основан на сравнении содержимого рекомендуемых объектов. Для примера предлагаю рассмотреть фильмы. Если два фильма относятся к одному и тому же жанру, и пользователь уже высоко оценил один из них, то с определенной вероятностью можно посоветовать ему и второй. И здесь интересно вспомнить онлайн-кинотеатр Netflix, который увеличил количество жанров с нескольких сотен до десятков тысяч, среди которых можно найти даже «Культовые ужастики со злыми детьми». Большая часть из этих жанров скрыта от глаз зрителей и используется только для построения рекомендаций.



В нашем случае никаких жанров нет. Чтобы сделать вывод о соответствии веб-страницы интересам человека, нужно сравнить ее контент с известными образцами. Причем заниматься этим должен компьютер, которому нужно не просто прочитать материал, но и понять его смысл. И единственный способ решить эту задачу достаточно точно, это использовать опыт Яндекса в области искусственного интеллекта.

NLP + CV


Когда речь заходит об искусственном интеллекте, то многие пользователи представляют себе SkyNet, желающий поработить человечество. К счастью, будущее не предопределено и все в наших руках. Но а если серьезно, то наработки в области ИИ уже сейчас помогают нам решать сложные задачи. Способность машины читать, видеть и, что наиболее важно, понимать смысл открывает большие перспективы.

Обработка естественного языка (Natural Language Processing, NLP) и компьютерное зрение (Computer Vision, CV) – два широко применяемых в Дзене направления из области искусственного интеллекта.



Когда мы говорим о рекомендациях, то подразумеваем себе материалы, которые были бы достаточно близки по своему смысловому наполнению к образцам пользователя. Иными словами, машина должна прочитать два текста и сделать вывод: близки ли они по смыслу или нет. Ровно это мы и учимся делать. Специально обученная нейронная сеть преобразует текст в вектор, в котором заключен смысл текста. Два текста могут быть написаны с использованием разных слов и даже на разных языках, но смысл у них будет один. Сравнивая эти векторы, мы можем с определенной вероятностью предсказать интерес человека к новому материалу. Кстати, если векторы почти совпадают, то это уже говорит о смысловом дубликате (рерайт текста или разные статьи об одном и том же событии), с которыми мы боремся в ленте.

Другой подход к NLP, над которым работает команда Дзена, это автоматическое присвоение меток для любого текста. Вспомните про пример с Netflix'ом и десятками тысяч жанров. Так и здесь. Классификация публикаций с помощью меток помогает повысить точность итоговых рекомендаций.

Работа с компьютерным зрением в целом похожа на NLP. Только вместо чтения текста машина учится «смотреть» и понимать смысл изображения. Помимо прямого применения в рекомендациях у компьютерного зрения есть и другие задачи в Дзене. Например, миниатюры картинок далеко не всегда удобно масштабируются, и их приходится обрезать, а компьютерное зрение помогает находить на картинках людей и спасает их от судьбы Нэда Старка из «Игры престолов».

Компьютерное зрение применяется и для нахождение текста на картинках. Некоторые сайты любят дублировать заголовок в виде изображения. В ленте это смотрится далеко не так красиво, поэтому подобные картинки выявляются и не используются в качестве миниатюр. Существует еще такое труднообъяснимое понятие, как «качество» картинки. Машина учится выбирать на сайте те изображения, которые больше нравятся людям, и использует их в качестве все тех же миниатюр.

SVD


Выше я рассказал вам о подходе к построению рекомендаций, который основан на фильтрации по содержимому объектов. Теперь пришло время вспомнить о коллаборативной фильтрации. В основе этого подхода лежит идея, что похожим людям нравятся похожие объекты. В этом случае вам не нужно знать свойства рекомендуемых объектов, достаточно собрать статистику о том, насколько они соответствуют интересам пользователей. На примере фильмов это может выглядеть так:



Опираясь на уже известные оценки, можно выявить закономерности в поведении разных людей и попробовать предсказать реакцию на новый фильм. На математическом уровне для применения коллаборативной фильтрации придуманы разные алгоритмы, о которых в свое время на Хабре хорошо рассказал мой коллега Михаил Ройзнер.

В случае с Дзеном мы используем коллаборативную фильтрацию (а точнее алгоритм SVD) для предсказания интереса человека к определенному сайту в целом. Эта информация дополняет рекомендации, построенные для отдельных материалов с помощью искусственного интеллекта (NLP+CV). Позволяет отсеять излишний шум и выявить нетривиальные закономерности (скажем, может выясниться, что люди, которые интересуются Хабром и историями с Пикабу, чаще других читают «N+1»).

Подытожим. Используя исходные данные о сайтах и пользователях, мы с помощью технологий обработки естественного языка, компьютерного зрения и алгоритма SVD формируем комплект различных факторов, которые характеризуют интересы человека к тем или иным сайтам/материалам.



Точность итоговых рекомендаций напрямую зависит от количества и разнообразия исходных данных, поэтому в качестве факторов используются и многие другие наши знания. Например, знания Яндекса о конкретном сайте или странице, информация о том, как человек использует Дзен, его обратная связь в виде кликов, «больше такого» и «меньше такого», местоположение и даже время суток. Общее количество отдельных факторов, которые мы закладываем в систему рекомендаций, исчисляется тысячами. Сложность системы достигает такого уровня, что одних алгоритмов уже мало. Нужна технология, которая будет сама вычислять идеальную формулу для построения итоговой ленты. И здесь нам пригодился опыт Яндекса в области машинного обучения.

Матрикснет


Термин «машинное обучение» появился еще в 50-х годах. Он обозначает попытку научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстрировать поведение, которое в него не было явно заложено.

Каждый день наша поисковая система отвечает на миллионы запросов, многие из которых — неповторяющиеся. Поэтому невозможно написать такую программу, в которой предусмотрен каждый запрос и для каждого запроса известен лучший ответ. Поисковая система должна уметь принимать решения самостоятельно, то есть сама выбирать из миллионов документов тот, который лучше всего отвечает пользователю. Для этого нужно научить ее обучаться.

С 2009 года поиск Яндекса использует собственный метод машинного обучения Матрикснет. С его помощью можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Кроме того, Матрикснет сам определяет разную чувствительность для разных значений факторов ранжирования. Эта технология достаточно универсальна, поэтому впоследствии нашла применение не только в Яндексе, но и в Европейском Центре ядерных исследований.

Способность компьютера учитывать тысячи факторов и самостоятельно искать наилучшее решение – это то, без чего невозможно построить современную рекомендательную систему. Именно поэтому Матрикснет был взят за основу при создании собственной рекомендательной технологии.

Результат работы Матрикснета – это именно то, что пользователь и видит в ленте Дзен. Со стороны разработчиков не существует каких-либо правил вида «Если человек любит А, то рекомендуем ему Б». Все подобные закономерности рождаются и постоянно меняются внутри Матрикснета. И чем больше у него данных, тем точнее рекомендации. Именно поэтому Дзен – это часть Яндекс.Браузера, а не самостоятельный веб-сервис или приложение. Отдельному приложению сложнее понять интересы пользователя, который после двух-трех дней может просто перестать его запускать. Чтобы магия Дзена и машинного обучения вступила в полную силу, им нужно активно пользоваться или хотя бы регулярно проходить рядом. И браузер, как единая точка выхода в интернет, подходит для этого лучше всего. Само собой, любой пользователь может отказаться от использования Дзена в Браузере.

В этом посте я рассказал вам о том, как формируется лента персональных рекомендаций в Яндекс.Браузере, и почему Дзен – это не очередная «лента новостей», а результат работы серьезных технологий. Наработки из области искусственного интеллекта уже сейчас помогают машине понимать смысл контента и интересы человека. Но это лишь самое начало. Кто знает, может быть, однажды компьютеры будут понимать нас лучше, чем мы сами?
Поделиться с друзьями
-->

Комментарии (105)


  1. malinichev
    08.06.2016 13:52
    +2

    Эх… Если-бы остальные браузеры тоже вносили какие-либо новшества — было-бы просто чудесно! А то один Яндекс стремится выпускать новинки, такое чувство что гугл стоит на месте…


    1. forComments
      08.06.2016 14:01
      +11

      И к чему они такие новшества?
      Вам мало источников получения «интересного контента»?


      1. malinichev
        08.06.2016 14:05
        +2

        Подскажите какие есть, те, которые я видел — мне показались неудобными


        1. DenimTornado
          08.06.2016 15:53
          -3

          RSS?


          1. BarakAdama
            08.06.2016 16:16
            +1

            RSS отличный специализированный инструмент. У меня у самого есть подборка в Feedly. Но это совершенно о другом. С помощью RSS я слежу за несколькими уже известными для меня сайтами. Причем за всеми их публикациями. Дзен же работает иначе. Находит интересные (а не все подряд) публикации и с неизвестных для меня сайтов.


            1. DenimTornado
              08.06.2016 16:19

              То есть одно и тоже, но с разных сайтов, а зачем? Вот если сейчас 10-20 айтишных сайтом открыть, то бОльшая часть новостей будет совпадать, ну и нафига мне нужны «неизвестные» мне сайты?


              1. BarakAdama
                08.06.2016 16:22
                +2

                Почему одно и то же? Смысловые дубликаты вычищаются из Дзена (могут быть баги, но в целом вычищаются). Интересный контент – это близкий по духу, но не совпадающий 1в1 по наполнению.


                1. DenimTornado
                  08.06.2016 19:00
                  +1

                  Уговорили, посмотрю)


                1. avost
                  08.06.2016 19:00

                  Одно и то же по аналогии с тем, как работает ваша реклама. Поскольку это ваш источник денег, там же самые совершенные алгоритмы, правда?
                  Один раз поискал через яндекс где в городе продают туалетную бумагу. Полтора месяца реклама бумаги теперь преследует… :( да я через 10 минут её купил, зачем вы мне её пихаете с такой настойчивостью? Я ведь правильно понял, что с вашей системой туалетная бумага будет меня преследовать и в подборке публикаций?


                  1. BarakAdama
                    08.06.2016 19:15
                    +3

                    Так у блока с рекламой Яндекса есть крестик, с помощью которого можно сообщить машине о своем недовольстве. Тогда машина переключится на что-нибудь другое.


                    1. napa3um
                      08.06.2016 20:01
                      +2

                      Возможно, это будет откровением, но факт в том, что большинство пользователей (голословное утверждение, но я проверил на двух надёжных знакомых) не взаимодействует с рекламой. Не нажимают крестики, не выбирают, насколько им понравилась реклама, не звонят в службу поддержки баннерной сети, чтобы рассказать, как им лучше рекламировать то, что они рекламируют. Они просто ненавидят рекламу всё больше и больше благодаря вашему предположению о том, что незакрытая реклама пользователю понравилась и важна. И ставят адблок, если технически подкованы в этом.


                    1. iandarken
                      09.06.2016 09:25

                      Вот кстати момент. Увидел я у друга велосипед определенной марки, вбил в поиск его название — просто посмотреть характеристики. На десктопе нет проблем — адблок вырезает всю рекламу. А на телефоне у меня теперь весь директ завален предложениями купить велик. И вот как раз на телефоне у меня совершенно никакого желания пытаться ткнуть в крошечный крестик с достаточно большим шансом промахнуться и попасть в рекламу. Яндекс определенно уверен, что все что я ввожу в поисковой строке — я хочу купить, а не просто ищу информацию.

                      У вас нет желания сделать отдельный поиск, типа «Я.Информация», запросы которого будут генерить рекламу не «вот тут можно это купить», а «вот тут можно найти еще инфы по этому вопросу»?


                      1. EvilArcher
                        09.06.2016 11:43
                        +1

                        Дали бы пользователю возможность настроить поиск по ключевым словам. Т.е. если в поисковом запросе есть слова типа «купить» или «цена», то в первую очередь отображать сайты магазинов. Если таких слов нет, то не показывать ссылки на магазины вообще.


        1. napa3um
          08.06.2016 16:54
          +1

          https://surfingbird.ru/


      1. dmitriy_novikov
        08.06.2016 14:07
        +14

        поддерживаю. основная задача браузера — корректное отображение сайтов, и развивать нужно в первую очередь это направление.
        а сервисов типа «сейчас мы вам всяких статей накидаем» пруд пруди… еще в браузере этого не хватало.


        1. napa3um
          08.06.2016 14:44
          +2

          Сотовые сети не хотят быть трубой, браузеры не хотят быть телевизором.


        1. myxo
          08.06.2016 15:17
          +3

          Всегда хорошо когда есть выбор. Но только если это действительно выбор, отключить-то эту функцию можно будет?

          ps. И название странное. Настоящий дзен сервис не предоставлял бы никакого контента.


          1. BarakAdama
            08.06.2016 15:24
            +8

            Дзен отключается в настройках, конечно же.


            1. pehat
              08.06.2016 19:39

              Пресловутый Яндекс.Бар тоже отключался в два клика, но осадочек остался даже у тех, кто его и не видел никогда. Штука, может, и полезная, но уж слишком внезапно вылезшая. Моя мама, увидев невесть откуда появившийся Дзен, сказала, что у нее в Яндекс.Браузере вирус, например.


        1. exfizik
          08.06.2016 22:56
          +1

          А как по-вашему разработчики бесплатных браузеров должны отбивать затраты на разработку без доп. сервисов?


          1. 2PAE
            09.06.2016 06:08
            +1

            Как по вашему, владельцы Яндекса зарабатывают на бесплатном поиске?


            1. exfizik
              09.06.2016 06:34

              Продолжим вопросом на вопрос :) Вы хотите, чтобы бесплатный браузер вам во все отображаемые странички вставлял рекламу, как это делают поисковики?


      1. ruguevara
        08.06.2016 15:57
        +1

        Как раз наоборот, их слишком много и там слишком много разного контента, не все что интересно многим, интересно мне. Хочется поменьше этих источников и зато поинтереснее контент.


    1. XaveScor
      08.06.2016 15:39
      -4

      Ну, такая же лента в MS Edge есть. Не вижу новинки.


      1. BarakAdama
        08.06.2016 15:41
        +3

        Не такая. «Подборки новостей» в браузерах были и раньше. Рекомендательный сервис, который ищет любой контент в глобальном индексе на основе персональных интересов, появился в браузере впервые.


        1. kemko
          08.06.2016 16:11
          +1

          Крайний раз, когда я пробовал Яндекс.Браузер, раздражало отсутствие индикации проигрывания звука на вкладках, поэтому снова вернулся к Chrome. Раньше вы говорили, что причина в использовании NPAPI-версии Flash. Если я не ошибаюсь, в Linux уже довольно давно вы используете PPAPI-вариант. В таком случае — когда же уже? Я правда хочу его попробовать, но при этом не хочется лишаться ни одной привычной полезности.


          1. tundrawolf_kiba
            08.06.2016 16:17
            +1

            Ну последние несколько месяцев замечал индикатор проигрывания с возможностью заглушить кликом по нему. Но я 90 процентов времени использую бета-версии, поэтому не могу точно говорить о стабильной.


          1. BarakAdama
            08.06.2016 16:19
            +2

            В процессе. Мы как раз почти перешли на PPAPI и индикатор звука уже в бете.


            1. kemko
              08.06.2016 16:21

              Значит, с учётом того, что на Linux у вас всё равно только бета — можно уже ставить и всё будет?


              1. BarakAdama
                08.06.2016 16:46

                Должен быть. Но бывают баги.


              1. alexws54tk
                08.06.2016 17:09

                Да, ставить уже давно можно.
                Ещё бы они не забывали в эту бету периодически добавлять фичи из маковской и шиндошской.


                1. tundrawolf_kiba
                  08.06.2016 17:14

                  Они где-то писали, что это сделано ради оптимизации. Сначала стабилизируют новый интерфейс на Windows-версии, а потом допилят Mac и Linux версии до него.


    1. sabio
      08.06.2016 16:07

      В Опере в последнее время тоже много интересных новинок. Например, режим экономии батареи и VPN «из коробки».
      Я уже не говорю про встроенную банеро-резку и оптимизацию трафика для медленных соединений.

      Персонализированную ленту новостей там тоже пилят, кстати: http://www.opera.com/blogs/desktop/2016/05/personal-news-feed-vpn-update/


      1. BarakAdama
        08.06.2016 18:38

        Да, но там принцип работы ленты совсем другой. Пользователю предлагают подписаться на контент тех сайтов, которые он посещает. Как RSS, если простыми словами.


    1. matshch
      09.06.2016 04:51

      Не знаю, как вам, а мне гугл уже давно присылает рекомендуемые статьи в Google Now, и зачастую довольно точно попадает в мои интересы. Причём это работает не только в Chrome, на телефоне я использую другой браузер и точно также гугл мне рекомендует, что почитать. Да, Яндекс делает много интересного со своим браузером, но мне кажется не совсем корректно говорить, что другие стоят на месте, надо просто смотреть шире.


  1. KirillFormado
    08.06.2016 14:01
    +3

    «Специально обученная нейронная сеть преобразует текст в вектор, в котором заключен смысл текста. Два текста могут быть написаны с использованием разных слов и даже на разных языках, но смысл у них будет один.»

    Очень интересно, но не специалист в этой области. Подскажите куда копать, не очень себе представляю как вектор соотносится в итоге со смыслом текста?


    1. napa3um
      08.06.2016 14:08

      Смысл смысла для компьютера только в том, что один смысл отличается от другого. Два одинаковых вектора — два одинаковых смысла. Модель, строящая «вектора смыслов» по тексту, — статистическая, она предсказывает вероятность появления того или иного вектора рядом с другим (обучаясь строить вектора так, чтобы эти предсказания становились всё более точными).


      1. Cybersoph
        14.06.2016 10:11

        «Способность машины читать, видеть и, что наиболее важно, понимать смысл открывает большие перспективы.»
        «Смысл смысла для компьютера только в том, что один смысл отличается от другого.»

        Если Яндекс научился «понимать смысл», то ему надо, как минимум, присуждать Нобелевскую премию.

        Пишите, пожалуйста, правду — «С помощью наших математико-лингво-статистических ухищрений мы, как бы, понимаем смысл».


        1. napa3um
          14.06.2016 10:51

          Примерно так и было написано.


    1. ruguevara
      08.06.2016 15:59

      Копайте по «word2veс»


      1. BarakAdama
        08.06.2016 16:49
        +3

        И про Latent Dirichlet allocation.


  1. Sergey6661313
    08.06.2016 14:32
    +6

    «текст в вектор» вот из-за таких вот потугов потом не можешь найти конкретный текст. Даже написав его в кавычки. Причём этим страдает и яндекс и гугл.
    Попробуйте загуглить «мёд порно». оба поисковика упорно ищут «мед» а надо «мёд». И ничто их разубедить не может.
    А когда к этому подключится искусственный интеллект он не только заместо мёда будет предлагать мед-сестёр но и заместо порно будет искать эротику…


    1. DenimTornado
      08.06.2016 15:56
      +2

      А что вы хотели найти по такому запросу, вот чисто для интереса?


      1. napa3um
        08.06.2016 16:08
        -4

        Вероятно, энциклопедическую статью https://ru.wikipedia.org/wiki/2_Girls_1_Cup.


      1. Sergey6661313
        08.06.2016 16:21
        +2

        Это же очевидно — порно в котором мёд является действующим реквизитом. В общем то всё тоже самое что и со сливками, только с мёдом. Ну уж никак не мЕд сестёр.


        1. DenimTornado
          08.06.2016 16:24

          «порно с мёдом»?


          1. Sergey6661313
            08.06.2016 17:25
            +2

            Даже в этом случае оно ищет не «мЁдом», а «мЕдом». Количество релевантных ссылок конечно возрастает, но яндекс всё равно не ищет ИМЕННО то что я написал.
            Тем более если попытаться добавить например слово анал. (или «анальное порно с мёдом») всё равно будет предлагать мЕд сестёр.


            1. ivsedm
              08.06.2016 18:55
              +6

              А вы затейник ))


              1. DenimTornado
                08.06.2016 19:00
                +1

                Вот да, даже не нашёлся, что ответить человеку)


    1. impetus
      08.06.2016 17:07

      А что мешает воспользоваться конструкцией « +«мёд» бла-бла-бла -«мед» »?


      1. Sergey6661313
        08.06.2016 18:35

        второй уровень: а если я хочу «мёд» или «мед», но не хочу все слова начинающиеся на Медc и Меди ??

        И по теме поста: а как и когда мне вообще ожидать появления этих «дзен»?


    1. MagicWolf
      09.06.2016 11:15

      Почему же, мне гугл много ссылок выдал как раз для значения «мёд», а не «медсестра». А вам лучше искать по запросам типа «измазана медом».


  1. Ermit
    08.06.2016 14:40
    +5

    В какой-то момент умный браузер начнет становится виртуальным порталом.
    С элементами социальных сетей. В рамках модных концепций типа месседжеров.
    Всё возвращается на круги своя…


  1. darkolorin
    08.06.2016 15:56
    -1

    И так немного мыслей. То есть вся технология это:


    • какой-нибудь Tensorflow
    • обученная модель на русском языке для тэгирования текста, ну вот например
    • далее там надо распознавать картинки и текст на них, не вопрос — ловите вот
    • надо написать аннотацию к изображению, не вопрос вот
    • далее берем это все как признаки и делаем что-нибудь типа классификации или алгоритма ранжирования (тут столько вариантов как это сделать, что жуть)
      Если звучит слишком резко, то прошу поправьте. Google имеет полный набор инструментов, чтобы похожий пак алгоритмов собрать у себя на компе. Ну вот с выборкой и индексом правда могут быть проблемы.

    По поводу онбординга, судя по тому, что там ограниченный набор, значит и весь индекс рекомендаций содержит ограниченный набор сайтов. Готов поспорить. То есть там не весь индекс Яндекса, а типа 1000-5000 сайтов с контентом.


    Ну и наконец последние пять копеек в вижн. А не проще брать сайты из закладок пользователя или табло и выводить заголовки оттуда? Ну типа проверить гипотезу вообще :)


    1. ruguevara
      08.06.2016 16:00
      +5

      Да там всего-то лишь машинное обучение.


    1. BarakAdama
      08.06.2016 16:41
      +1

      По поводу онбординга, судя по тому, что там ограниченный набор, значит и весь индекс рекомендаций содержит ограниченный набор сайтов.


      Онбординг не ограничивает сайты. Он лишь задает вектор для будущих рекомендаций. В ленте будут и другие ресурсы. И даже больше. Будут ресурсы и другой тематики в рамках борьбы с самоизоляцией пользователя.

      делаем что-нибудь типа классификации


      Machine learning так еще никто не называл :)

      А не проще брать сайты из закладок пользователя или табло и выводить заголовки оттуда?


      Это загоняет в очень узкие рамки. У большинства пользователей нет закладок, а 8 сайтов в Табло слишком мало. Получится просто автоматизация RSS-подписок. И замыкание пользователя на тех сайтах, которые он и так посещает.


      1. darkolorin
        08.06.2016 16:53

        А ему надо посещать другие сайты? То есть гипотеза сразу одобрилась и все уверены, что тебе нужно читать еще какие-то похожие на твои любимые темы ресурсы? Тогда мы приходим к предположению, что часто на похожих на твои ресурсы постят то, что ты не читаешь, а это как бы противоречит правилу современной журналистики. Часто на всех сайтах выходят те же самые новости и статьи. Но допустим, что на другом похожем ресурсе есть то, чего нет на моем. Это ведь легко посчитать по основным темам.
        Что будет если вывести рандом из статей с похожих на те, которые я и так посещаю? Проводили сравнение? Например в музыке часто рандом работает лучше чем композиция несколько алгоритмов.

        Machine learning так еще никто не называл :)


        Ну почему, вообще задача классификации это раздел обучения с учителем или без. Простите если вас это задело.


        1. BarakAdama
          08.06.2016 17:07

          Ему надо как минимум знать о существовании других сайтов :) А дальше он уже решает, посещать или нет. И лента адаптируется.

          Мне кажется, тут дело не в рандоме vs алгоритмах. А в разнообразии и борьбе с дубликатами. Слишком жесткие алгоритмы, которые ищут слишком похожие материалы, могут плодить дубликаты или замыкать в слишком узкой теме. Неудивительно, что в этом случае рандом сработает лучше – он просто разнообразнее и будет меньшим из двух зол.


      1. Dominis
        08.06.2016 17:26

        В ленте будут и другие ресурсы. И даже больше. Будут ресурсы и другой тематики в рамках борьбы с самоизоляцией пользователя.

        А можно услышать пару слов о том, как будет осуществляться подбор ресурсов по другой тематике? Просто рандомно, или на основе каких-то данных?

        P.S. Вы не в курсе, ведутся ли какие-то работы, чтобы научить машину слушать музыку, чтобы предлагать хороших исполнителей, которых ты ещё не нашел сам?


        1. i-mist
          08.06.2016 18:42
          +2

          Нейросеть, способная понять, что такое хорошая музыка для данного конкретного юзера — по-моему, чуточку чересчур. ) До появления strong AI можно обойтись сервисами рекомендаций — на основе плейлистов юзеров со схожими вкусами. А после появления strong AI, возможно, будет вообще не до этого. ;)


          1. Dominis
            08.06.2016 19:23

            Эх, я-то надеялся что будущее уже почти наступило, а оно ещё и только зарождается.
            Листы рекомендаций на основе вкусов других — не решают проблемы. Наверное мои вкусы слишком специфичны.

            P.S. вы не ответили на главный вопрос ;)


        1. BarakAdama
          08.06.2016 23:00

          Небольшой рандом имеет место быть, но не по всем возможным темам, а только по достаточно близким к текущей.

          Насколько я знаю, наши Музыка и Радио уже в какой-то степени учат машину «слушать» музыку.


        1. VMAtm
          14.06.2016 15:59

          Есть много статей на эту тему, которые предлагают разные подходы по генерации плейлиста на основе выбранного трека.
          По факту, достаточно легко можно написать движок, который будет собирать из открытых API данные про ваши песни (которые у вас в вашей медиатеке), и пытаться предложить вам что-то похожее.
          В добавок к этому можно анализировать тексты и само содержание песен, что так же может расширить базу для рекомендаций.


  1. Vorchun
    08.06.2016 16:09

    Всей родне женского пола поставил ЯБраузер, о чем говорил часто. Недавно стали всплывать справа внизу анонсы. У женского населения появились вопросы, которые я не смог снять одним кликом в настройках. Теперь навязывают контент и будет еще больше вопросов. А ставил ЯБраузер для того, чтобы не забивать себе голову


    1. BarakAdama
      08.06.2016 16:44
      +3

      Тут сразу два варианта решения. 1. Объяснить суть Дзена (и рассказать о кнопках «меньше такого», «больше такого», «заблокировать этот сайт»). 2. Выключить им Дзен.


  1. feligz
    08.06.2016 16:49

    Так и вижу светлое будущее Яндекс броузера. Не просто лента новостей, а бесконечная лента новостей, чтобы человек в ней залип на целый день, чтобы человеку можно было бесконечно откручивать бесконечное кол-во рекламы. Ок. Вот собственно на что идет вся мощь современных технологий в яндексе…


  1. raidhon
    08.06.2016 16:50
    +2

    Несмотря что вы такая же корпорация зла как и другие на букву G.
    Поставил пробую, очень даже ничего даже Linux верcию не забыли.

    Но Firefox все равно не брошу, потому что он хороший *_*


  1. kolu4iy
    08.06.2016 17:04
    +2

    А навигатор ваш теперь такой же fusy logic пользуется? А то невозможно стало ездить по нему с конца мая…


  1. alexws54tk
    08.06.2016 17:10

    Ждём Дзен в Линукс версии.


    1. BarakAdama
      08.06.2016 17:18
      +1

      Он в бете уже должен появиться.


      1. alexws54tk
        08.06.2016 20:43

        Пользуюсь yandex-browser-beta_16.6.0.6383-1_amd64.deb от 05-May-2016 14:37
        Где его найти?


        1. BarakAdama
          08.06.2016 23:01

          Если их нет, то это говорит об отсутствии сформированных рекомендаций. Тут надо подождать онбординг.


  1. AlienJust
    08.06.2016 17:21
    -1

    Всё просто — habrahabr.ru/post/301786


  1. BIanF
    08.06.2016 18:27

    Крутая вещь! Но… Очень уж «дёргает» систему. Случайно закрыл вкладку с Дзеном, заметив интересную статью. Открыл, а там уже совсем другие ссылки…
    Или открыл «woman.ru» и всё! Все ссылки только с него.
    В мобильной версии не хватает проверки качества сайта. Открываешь интересный материал, а у ресурса нет нормального перенаправления на мобильную версию и открывается главная.


    1. tundrawolf_kiba
      08.06.2016 18:30
      +1

      >Открыл, а там уже совсем другие ссылки…
      Часто помогает пролистать вниз, и там оказывается то, что вы видели, хотя и не всегда.


    1. melt
      08.06.2016 20:29
      +1

      Соглашусь с «дерганьем». Нужно бывает открыть вкладку из табло — новая вкладка — выбор нужной. А внизу тем временем 25-м кадром мелькнул Дзен с каким-нибудь горячим заголовком и согревающей душу темой. Только после загрузки нужного сайта информация доходит до мозга, что было что-то стоящее, но слишком поздно. Даже если пролистывать вниз потом — тематика близкая будет, но конкретно тот заголовок, что задел за живое — я еще ни разу не встретил.


  1. Liumee
    08.06.2016 18:27
    -4

    Я так понимаю, все остальные проблемы вашего стринги-браузера уже решены, и теперь можно заняться внедрением слежки за пользователями, угадыванием и записыванием их предпочтений?

    А ну, быстро марш закрывать баги! Напридумывают всякой х?рни…


  1. TihoFih
    08.06.2016 18:38

    Скажите, пожалуйста.
    Когда планируется
    1) 64-bit для windows и 32-bit для linux?
    2) Боковые вкладки
    3) Вариант оформление браузера в тёмных тонах


    1. melt
      08.06.2016 20:33

      +1 за 64 бит на Windows. Вот просто интересно, хром же есть 64-битный, из исходников одних собирают. Ну да конкретно допиливают, но все-таки. Разве нет ключика волшебного для компиляции в 64? Или очень трудозатратно? :)


      1. BarakAdama
        08.06.2016 23:06

        Chromium – это же лишь один из компонентов Яндекс.Браузера.


    1. BarakAdama
      08.06.2016 23:04

      Когда именно – не подскажу. Но 64 бита рано или поздно будут. Мак и Линукс уже на них.
      К идее боковых вкладок вернемся, когда закончим с текущими вкладками (сейчас их активно дорабатываем).
      Темное оформление – это интересная мысль.


  1. Dromok
    08.06.2016 22:21
    +4

    Мне очень понравился этот функционал. Теперь по несколько часов зависаю в яндекс.дзен, так как реально интересные статьи предлагает)). Только один момент не понравился, я не нашел как оттуда открыть ссылки в фоне (т.е. открытие ссылки в новой вкладке без перевода фокуса на эту новую вкладку). Вообще там это предусмотрено? Может есть какая-то неизвестная мне комбинация клавиш.
    До этого яндекс браузером не пользовался и удивил один момент, он при установке каким-то образом подтянул не только сохраненные пароли из хрома, но и даже сессии. И все расширения из хрома также подтянулись. Круто!


  1. GeniyZ
    08.06.2016 23:17
    +1

    Я активно пользуюсь альфами и Яндекс.Браузер мне очень нравится. Но Дзен часто меня расстраивает. Я уже устал блокировать и фишки.нет и навального и дождь, и какие фитхакеры… Я нажимаю «заблокировать сайт», но через некоторое время вновь вылазиет. Очень напрягает.
    Но вцелом — хорошо. Надеюсь, что чёрный список вскоре полноценно заработает и будет редактируемым.


  1. vlad72
    09.06.2016 04:52

    Хорошая идея продвигать рекламу пользователю напрямую, минуя адблоки ))
    Но есть гораздо более лучшая стратегия для продвижения такого продукта и соответствующие ей фичи.


  1. SpectarlDragon
    09.06.2016 04:53

    Запилите в Яндекс Браузере для OS X такой же дизайн, как и в Windows. Давно жду :D


  1. 007913
    09.06.2016 04:53
    -2

    Где отключить этот «дзен» полностью?


    1. BarakAdama
      09.06.2016 04:53
      +2

      В настройках же.


  1. Akr0n
    09.06.2016 06:39

    В мобильной версии Дзен не бесконечная лента, он закольцован через 30-40 карточек.


  1. ServPonomarev
    09.06.2016 07:19

    Подход интересный, но слегка тупиковый. Простое увеличение числа факторов, пихаемых в Матрикс нет, не даст качественного перехода. Просто количественный, находящийся под гнётом эффекта убывающей отдачи.

    Как мне кажется, нужен принципиально иной подход. Переходить от плоского вектора цифровых фич в их онтологии.


  1. Alesso
    09.06.2016 11:36
    -1

    Согласен. «Простое увеличение числа факторов, пихаемых в Матрикс нет, не даст качественного перехода. Просто количественный, находящийся под гнётом эффекта убывающей отдачи.»

    Потом туда будут добавлять рекламу и получим «рекомендательную помойку».


  1. 4knowledge
    09.06.2016 12:49

    А дзен в виде расширения в chrome можно внедрить?


  1. Cryvage
    09.06.2016 13:43

    Главная проблема всех этих рекомендаций, такая же, как и у обычного окна с часто посещаемыми страницами. Все интересы валятся в одну кучу и не сортируются. Страница быстрого доступа помогает пользователю удобнее и быстрее серфить по любимым сайтам. Вы смотрите, что пользователю интересно и предлагаете ему похожее, на других сайтах. Но проблема в том, что пользователь это не константа. Он изменчив. Я не имею в виду, что человеку нравились боевики, а потом они ему надоели. Я говорю о циклических изменениях. На работе я интересуюсь одним. Дома — совсем другим. Придя на работу я лазил по Stack Overflow, и читал статьи на Хабре, пытаясь разобраться с React.js. А в обед я уже читаю и комментирую статью о новом Яндекс Браузере. Перед этим я почитал новости. Вечером я буду изучать английский язык, а потом, посмотрю какой-нибудь сериал, после чего залезу на сайт его обсудить. В выходные буду изучать Python. А когда ко мне приходят друзья, мы часто смотрим КВН на YouTube. И мне не нужно больше или меньше чего-то из всего этого списка. Мне нужно все это, но в нужное время и в нужном месте. И мне совершенно не нужно, чтобы открыв браузер перед начальством, в рабочее время, я засветил там свои «обеденные» интересы. Попробуй потом докажи, что это ты читаешь только в обед. Так что недостаточно изучать мои интересы. изучайте всего меня, мой распорядок, мои шаблоны поведения. Только тогда ваш сервис достигнет истинного просветления. А еще надо не забыть, что у каждого человека есть интересы, которые он не хотел бы спалить перед другими. Может быть стоит добавить возможность вручную переключаться между несколькими Дзен-профилями.


    1. EvilArcher
      09.06.2016 14:22
      -1

      Может быть стоит добавить возможность вручную переключаться между несколькими Дзен-профилями

      Разработчики подобных систем стремятся к тому, чтобы пользователю не нужно было что-либо настраивать/фильтровать. Стоит задача приучить человека доверять выбору системы — она «лучше» знает, что тебе показывать. Только так можно эффективно пропихивать рекламу.
      Когда у человека не будет выбора, можно легко прогнозировать количество показа рекламного контента.


      1. vlad72
        09.06.2016 15:28

        Рекламу можно «пропихивать» и с настраиваемыми системами ))


      1. Cryvage
        09.06.2016 16:34

        Да ну, разве выбор профиля это сложная настройка? Просто дома мне будет показываться одна реклама, а на работе другая. Не думаю, что с несколькими профилями будет намного сложней что-то прогнозировать и пропихивать. Зато пользоваться будет удобней, а значит пользователей будет больше. Плюс больше вероятность того, что пользователь «в нужном настроении», для соответствующей рекламы. То есть она будет еще более таргетированной, а следовательно более эффективной. Вы только задумайтесь, такого еще ни у кого нет. Все собирают информацию о том, к чему пользователи проявляют интерес, но никто не учитывает, когда и при каких обстоятельствах они это делают. Ведь реклама горящих туров в рабочее время может напрочь сбить с рабочего лада. Да и вообще, наличие в ленте, в рабочее время, чего-то не относящегося к работе, может свести продуктивность к нулю. Решений я вижу два: либо сервис угадывает, не только, что мне интересно в принципе, но и что мне интересно именно сейчас, либо добавляем возможность вручную выбирать профиль: рабочий, домашний, семейный, ночной и т.д. Возможна так же комбинация двух этих методов — что-то доверяем угадывать сервису, а что-то определяем вручную, выбрав профиль. Собственно, именно это я и предложил в своем первом комментарии. А кому несколько профилей не нужно — будут сидеть с одним по умолчанию, то есть и усложнения не заметят. Вообще никаких минусов не вижу, ни для пользователей, ни для компании.


  1. Mako_357
    09.06.2016 19:50

    Лучше бы плавный скроллинг сделали, как в Safari или Edge.


    1. iDm1
      09.06.2016 20:59

      Так сделали же. Но в Edge он работает все же немного плавнее, да.


  1. saltukkos
    10.06.2016 16:25

    Перешёл на Яндекс.Браузер только чтобы опробовать Ваш «Дзен». Штука довольно интересная, достаточно точно определила мои интересы без каких-либо первоначальных настроек с моей стороны. Но всё же, одна и та же новость всплывает со многих ресурсов по десять, а то и больше раз. Так уж получилось, что новость про «Android запустили на iPhone» (не запустили) мне была показана уже раз 15. Ваши Яндекс.Новости отлично умеют собирать информацию с кучи источников и формировать в отдельные сюжеты. Нельзя ли применить подобную технологию для того, чтобы пользователи на сталкивались с вышеописанной проблемой?


    1. BarakAdama
      10.06.2016 16:29

      Да, тут еще есть работа. Некоторые посты сейчас пробиваются в ленту дубликатами. Собственно, Дзен – это не какая-то финальная точка. Постоянная работа над технологией идет. И спасибо за отзыв.


  1. neptum
    10.06.2016 16:50

    Яндекс.Браузер мне безумно нравился до тех пор пока вы не сменили Chrome интерфейс на вот этот вот плоский, пресный планшетоподобный фрик. В браузере просто неприятно сидеть несмотря на то что по дефолту он лучше чем Chrome. Вы кстати уже внедрили подобный дизайн в Кинопоиск и там вам влетело от юзеров, потому как аудитория там была глубоко привязана к удобному, компактному старому дизайну. А так как яндекс.браузер у многих просто стоит якобы обеспечивая вам % аудитории, а по факту многие просто мисскликают мимо Firefox или хром, то никто не возразил против смены дизайна на этот богомерзкий интерфейс в духе windows 8.

    Так что любой ваш инженерный функционал гасится об мерзкий нагроможденный прямоугольниками дизайн браузера. И меня удивляет что вы свято считаете его эталонным для себя.


    1. BarakAdama
      10.06.2016 18:04

      А так как яндекс.браузер у многих просто стоит якобы обеспечивая вам % аудитории

      Простите, но статистика Ли.ру и Метрики — это статистика именно использования, а не установок. По этой статистике использования он второй после Хрома на десктопе. Поверьте, после запуска альфы и беты мы собрали СТОЛЬКО фидбека, что пришлось долго и нудно допиливать интерфейс. У текущего варианта есть недостатки, но их стало уже сильно меньше. Именно поэтому его раскатили на всю аудиторию (и дали возможность вернуть старый в настройках, конечно же). А сейчас уже идет этап допиливания.

      Можете рассказать, какие проблемы у Вас с ним возникают сейчас?


  1. Sergey6661313
    10.06.2016 18:57

    Установил Яндекс браузер и через 1 день на хабре теперь отображается яндекс дикрект реклама — которую не блочит адблок… Совпадение?


    1. Sergey6661313
      12.06.2016 10:28
      -1

      И всё таки это не случайность… На чистой винде установил firefox и яндекс браузер. В яндекс браузере гуглиз как же включить этот долбанный дзен. (который кстати говоря никак себя не проявил). Удалил его нах*уй. Включит firefox и перешол на habrahabr. и пожалуйста: http://imgur.com/jU75tuv
      Вообщем думаю не только не пользоватся яндекс браузером но и вообще сервисами яндекса…


      1. Akr0n
        13.06.2016 05:40

        Используйте uBlock.


  1. Vaylandt
    15.06.2016 06:38

    Ради бога уберите меняющие цвет вкладки (подстраивающиеся)!!!
    Вам же цвет дорожных знаков не меняют каждый день?
    Это элемент управления и я не хочу думать куда мне нажать.
    Лично я каждый раз напрягаюсь понимать какая из вкладок сейчас активная.