Когда вы загружаете фотографии на Яндекс Диск, они не просто лежат в облаке: ML‑модели анализируют снимки, группируют их в альбомы и выбирают хайлайты для фотоленты в Яндекс Диске. Но чтобы улучшать такую систему, нужно уметь измерять качество её работы. И здесь начинается проблема: модель выбирает «красивые» и «удачные» кадры, а эстетика — вещь субъективная. Одному важны насыщенные цвета, другому — композиция, третьему — эмоции и лица в кадре. Если попросить асессоров ставить оценки от 1 до 10, мы быстро получим не объективную шкалу, а смесь личных вкусов, разной строгости и шума.

Поэтому мы подошли к задаче не как к обычной разметке, а как к исследованию. Вместо абсолютных оценок использовали шахматный подход. Каждая фотография стала «игроком», который соревнуется с другими по 16 признакам эстетики — цветам, фокусу, геометрии, эмоциональности и другим параметрам. Это позволило получить не просто рейтинг кадров, а инструмент для анализа того, какие визуальные признаки учитывают ML‑модели Диска.

Всем привет! Я Всеволод Мещеряков из службы разметки Yandex Crowd Solutions. Мы собираем и размечаем фото, видео, тексты — в общем, готовим данные, на которых учатся ML‑модели. В этой статье расскажу, как подход из мира шахмат помог нам связать субъективное восприятие фотографий с математическими оценками и сделать фотоленту Яндекс Диска ещё красивее.


Что происходит, когда вы загружаете фото на Диск

Фотографии, загруженные на Диск, обрабатываются ML‑пайплайном: модель извлекает признаки из изображений, оценивает их по нескольким визуальным характеристикам, группирует похожие снимки и ранжирует кадры внутри подборок. Один из результатов такого ранжирования — выбор наиболее удачных фотографий, которые затем используются как хайлайты в ленте.

Команда Диска постоянно улучшает эту модель, и для очередной итерации коллегам понадобился замер качества автоматической настройки ленты. Формально задача похожа на обычную разметку: взять набор изображений, получить человеческие оценки и сравнить их с предсказаниями модели. Но в этом случае целевая характеристика — эстетика фотографии. А она плохо переводится в абсолютную шкалу: эстетика — понятие предельно субъективное.

Если даже человеку порой трудно объяснить, почему один кадр кажется ему лучше другого, то как обучить этому алгоритм? Чтобы найти ответ на этот вопрос, нам предстояло не просто разметить датасет, а провести полноценное исследование и разработать методологию, которая свяжет субъективное восприятие человека с математическими оценками модели. Но любой путь в ML начинается с данных. Первым этапом стал сбор фото для датасета.

Где брать фото: от авторских прав до фильтрации

Процесс сбора изображений для датасета был нетривиальным. Брать изображения из открытых источников мы не могли по двум причинам:

  1. Юридические риски: нарушение авторских прав недопустимо.

  2. Чистота эксперимента: нет гарантии, что эти фото не входили в обучающую выборку исходной модели.

Поэтому данные собирали из внутренних источников: запросили фотографии у исполнителей из команды поддержки бизнеса и отдельно организовали сбор среди сотрудников Яндекса. В итоге нам предоставили около 1500 снимков — примерно в три раза больше целевого объёма. Команде Диска нужен был датасет на 500 изображений, но запас был необходим для последующей фильтрации. 

Основная задача следующего этапа состояла в том, чтобы не просто сократить массив до необходимых 500 изображений, но и обеспечить его репрезентативность и сбалансированность. Для начала удалили изображения, которые нельзя использовать в разметке. Затем мы использовали модель, которая помогла нам математически оценить разнообразие датасета и целенаправленно отобрать наименее похожие друг на друга снимки. 

Математика разнообразия

Мы прогнали фотографии через модель и получили на выходе эмбеддинги — векторы в высокоразмерном пространстве. Логика здесь простая: если две фотографии визуально похожи, то и их векторы будут находиться близко друг к другу.

На языке линейной алгебры близость определяется через косинусное расстояние. Если косинус угла между векторами близок к единице, значит, изображения почти идентичны. Приведём игрушечный, но хорошо иллюстрирующий идею пример: представим пространство эмбеддингов трёхмерным. Если на входе у нас два снимка с игральными кубиками, модель выдаст векторы, направленные в одну сторону. А вот вектор фотографии с эмодзи будет смотреть совсем в ином направлении. 

Визуализация для случая, когда пространство эмбеддингов трёхмерно
Визуализация для случая, когда пространство эмбеддингов трёхмерно

Обнаружив такую близость, мы можем смело отказываться от одного из кубиков в пользу разнообразия датасета.

Для сжатия датасета мы опирались на концепцию построения simplex Equiangular Tight Frame (ETF). Если не вдаваться в математические подробности, мы использовали идею максимально разнесённых векторов для формирования эталонного набора. Проще говоря, мы не случайно выбрали 500 фотографий из 1500, а собрали набор «наименее похожих» снимков. 

В результате мы убрали ещё две трети похожих кадров: офисные интерьеры, пейзажи, животные, серии снимков с близким содержанием — и на выходе получили качественный и компактный датасет.

Разметка на основе шахматного подхода

Когда датасет был готов, появился вопрос, как же его оценивать. Изначально у нас была гипотеза, что общую эстетичность можно измерить «в лоб» — оценить по десятибалльной шкале 16 элементарных критериев — например, эмоциональность кадра, геометрию линий, позу человека, сочетаемость цветов, фокус, композицию и другие визуальные характеристики. Идея была в том, что такая декомпозиция позволит описать фотографию исчерпывающим образом.

Однако на практике выяснилось, что у такого подхода есть слабые стороны:

  1. Размытые границы оценки. Асессору крайне сложно объяснить разницу между пятью и шестью баллами без жёстких эталонов.

  2. Проблема экстремумов. В случайном наборе может просто не оказаться фотографий на единицу или десятку, что ломает распределение.

  3. Невозможность честной агрегации. Оценки слишком зависят от психотипа. Девятка от оптимиста и тройка от критика по одному и тому же фото не дают в среднем шестёрку — они дают шум.

В итоге мы решили сменить парадигму: вместо того чтобы выставлять баллы, мы начали сравнивать. Поставить знак неравенства между двумя кадрами человеку гораздо проще.

Подход FIDE и рейтинг Эло

Мы решили организовать процесс по аналогии со швейцарской системой, принятой в Международной шахматной федерации (FIDE). Логика проста: в шахматах нет жюри, которое выставляет игрокам оценки за стиль игры. Сила шахматиста определяется сквозным рейтингом, который формируется в результате множества личных встреч.

В нашей задаче каждая фотография — это «игрок», который соревнуется с другими по субъективным характеристикам. Многократно сравнивая кадры попарно, мы определяем их место в общем зачёте и вычисляем усреднённый рейтинг.

У такого подхода много плюсов:

  • Простейшая инструкция: вопрос звучит максимально конкретно, например: «На какой фотографии цвет удачнее?» Асессор даёт ответ, не задумываясь о шкалах.

  • Естественная субъективность: мы не боремся с ней, а используем её как основу для ранжирования.

  • Автоматическая полнота: в датасете гарантированно выделяются и лидеры, и аутсайдеры.

Попарные сравнения
Попарные сравнения

Главный вызов здесь — вычислительная сложность. Если сравнивать «всех со всеми» (круговой турнир), количество пар растёт квадратично. Для 500 фото это слишком долго и дорого. Вместо этого мы применили итеративный алгоритм, который имитирует швейцарскую систему турнира: на каждом этапе модель сравнивает между собой изображения с близкими показателями, полученными на предыдущих итерациях. Это позволяет постепенно и с минимальным числом сравнений выстроить картину.

Преимущество такого подхода в том, что количество сравнений, которые необходимо провести для ранжирования всех участников, асимптотически растёт как N \log_{2}{N}, в отличие от N^{2} в круговом турнире, где N — количество участников.

При малом числе «игроков» значительной выгоды заметить не получится, однако принцип можно проследить более наглядно. Это решение позволило уложиться в бюджет на разметку. 

Для пересчёта рейтингов мы использовали схему, основанную на рейтинге Эло. В ней результат каждого попарного сравнения интерпретируется как «матч» между двумя фотографиями: выбранный асессором вариант считается победителем, второй — проигравшим.

Размер изменения рейтинга зависит от текущей разницы между участниками пары. Если фотография с высоким рейтингом выигрывает у фотографии с низким рейтингом, её рейтинг меняется незначительно: такой результат был ожидаемым. Если же снимок с низким рейтингом выигрывает у более сильного соперника, это считается неожиданным результатом, поэтому его рейтинг растёт сильнее, а рейтинг проигравшего заметнее снижается.

После 12 итераций попарных сравнений мы получили итоговые рейтинги фотографий по каждому признаку. Для большинства категорий распределения выглядели ожидаемо: основная масса снимков находилась в средней зоне. Но две категории — associations и face — заметно выбивались из этой картины. Их распределения отклонялись от нормального сильнее, чем остальные. Это означало, что оценки асессоров по этим признакам хуже сходятся к единому порядку ранжирования.

Это подтвердило нашу догадку: некоторые категории настолько субъективны, что достичь консенсуса среди асессоров там практически невозможно.

Аналитика: 16 составляющих красоты и эстетичности

На выходе мы получили уникальный размеченный датасет: у каждого снимка был рейтинг по каждой из 16 характеристик. Это позволило провести глубокий аудит моделей.

Мы сравнили оценки асессоров с предсказаниями двух версий ML‑моделей: текущей и экспериментальной. Для анализа мы использовали коэффициент корреляции:

  • Положительная корреляция (тёплые цвета): модель «думает» так же, как человек.

  • Нулевая корреляция: предсказания модели не согласуются с восприятием исполнителей.

  • Отрицательная корреляция (холодные цвета): модель оценивает кадр строго наоборот по сравнению с мнением асессоров.

Построив такую матрицу, мы фактически получили методологию «вскрытия» модели. Теперь мы видим, на какие именно визуальные признаки она опирается при выставлении финального скора. Например, для новой версии критически важным фактором стала геометрия линий, а старая была более чувствительна к насыщенности цветов и соблюдению пропорций.

По горизонтали — категории, по которым асессоры сравнивали фотографии, а по вертикали в нашей матрице расположены «головы» продовой модели. Под «головой» мы понимаем набор выходных нейронов, результат работы которых ML‑инженеры интерпретируют под конкретную задачу. В глаза бросается явная кластеризация: есть зоны, которые сильно коррелируют с показаниями «голов», а есть «холодные» зоны антикорреляции.

Нас больше всего интересовала «голова» cost_disk_aesthetic_0 — именно она отвечает за выбор лучших кадров для вашей галереи на Диске.

Анализ показал, что алгоритмам больше всего нравятся:

  • насыщенные цвета;

  • выдержанные пропорции и прямые линии;

  • эффект боке (красиво размытый фон);

  • явный фокус на объекте.

Другие «головы» обращают внимание на схожие параметры, но с большим акцентом на присутствие людей в кадре. Сравнение таких тепловых карт для разных итераций моделей позволяет нам не просто «подкручивать веса», а осознанно анализировать причины, по которым одна модель выигрывает у другой.

Результаты: красивая фотолента и оптимизация ресурсов

В результате мы получили не просто размеченный набор фотографий, а воспроизводимую схему оценки моделей, которые ранжируют изображения по субъективным признакам.

Что мы получили на выходе:

  • Уникальный датасет. Мы собрали изображения из внутренних источников, удалили чувствительный контент и визуальные дубли. После фильтрации и отбора через эмбеддинги получился набор из 500 снимков с более равномерным покрытием разных визуальных сценариев.

  • Экономию ресурсов. Благодаря использованию швейцарской системы FIDE и рейтинга Эло нам удалось провести разметку в 100 раз эффективнее по сравнению с классическим круговым турниром.

  • Методологию оценки ML‑моделей. Это готовый масштабируемый фреймворк, который позволяет интерпретировать оценки модели через призму человеческого восприятия. Теперь его можно использовать для замера качества не только на Диске, но и в любых других сервисах Яндекс 360.

Этот кейс подтвердил нашу главную идею: даже такие тонкие и субъективные материи, как эстетика, можно разложить на схемы и цифры.

Комментарии (4)


  1. HardWrMan
    04.06.2026 08:14

    "Мы будем просматривать фото клиентов и конечно же для их собственной безопасности и удобства".


    1. Ghrrm
      04.06.2026 08:14

      Скрытый текст


  1. morginalium8
    04.06.2026 08:14

    а кто вообще эту фишку придумал? да, реализация класна, но смысл то в чем? клиенты вообще знаю о пути своих фоток?


  1. Ghrrm
    04.06.2026 08:14

    1. Поиск сломан. Если есть фото «я и кот.jpg”, поиск по названию не найдёт его. Причём, началось это в определённый момент. На пути к дебилизации

    2. Если в папке есть хоть одно не фото, посмотр по ссылке выглядит как файлы, а не как фото. Идиотизм. Любой .ini ломает галерею

    3. Галерея в унодрайве намного красивее

    4. Офлайн режим сломан. Через некоторое время скачивание прекращается. Идиоты в поддержке просят скриншовт.

    Да, как в любом комментарии к Яндексу сейчас будет нагажено в профиль