Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

Что такое саммаризация?

Итак, как работает саммаризация и что стоит за этим процессом?

Саммаризация — это метод сокращения и упрощения большого объема информации до ключевых аспектов, который позволяет сохранять суть оригинального контента. Она позволяет брендам и платформам улучшить пользовательский опыт, предоставляя быстрый доступ к полезной информации. 

Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.

Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.

Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.

Именно поэтому наши специалисты анализировали каждый отзыв, чтобы выделить наиболее значимые аспекты и представить их в виде упорядоченных буллитов.

Процесс саммаризации: этапы и алгоритмы

Саммаризация в данном проекте проходила с активным участием AI-редакторов, которые вручную обрабатывали данные, чтобы затем обучить модель распознавать и обрабатывать ключевые аспекты отзывов. Процесс включал следующие этапы:

  1. Сбор данных и предобработка:

Первичный этап, где собирается массив текстов. В данном случае — отзывы, которые содержат субъективные мнения о продукте. На этом этапе важно очистить данные от шумов, ошибок, дубликатов и лишних символов, чтобы повысить точность анализа.

  1. Анализ текстов и выделение аспектов

Дальше начинается этап выделения значимых аспектов. Такие методы часто включают в себя идентификацию и классификацию упоминаний основных характеристик продукта. Например, в отзывах о телефонах часто выделяют такие аспекты, как камера, батарея и производительность, а для машин это может быть мощность двигателя, проходимость или количество цилиндров.

Для формирования обучающей выборки AI-редактора вручную анализировали каждый отзыв, разделяя текст на смысловые категории — «плюсы», «минусы» и «дополнительно». Это служило моделью для алгоритма, позволяя ему в дальнейшем автоматизировать процесс саммаризации.

3. Формирование итоговой структуры:

Выделенные элементы объединяются в краткие и структурированные буллиты. В нашем проекте AI-редактора составляли итоговую структуру данных, чтобы на выходе саммари отображали значимые моменты в формате саммари.

Саммаризация для платформы объявлений: опыт Data Light

Словарик и зачем он нужен

Если бы Виктория и ее команда работали над этим проектом без дополнительного инструментария, опираясь только на опыт редакторов, добиться консистентности в таком объеме данных было бы практически невозможно. Каждый редактор подходил бы к задачам по-своему. Поэтому мы используем словарь (словарик, как мы называем его в Data Light), полезный инструмент для стандартизации процессов.

Он представляет собой таблицу, где собраны стандартизированные фразы, которые могут быть использованы для создания буллитов. Каждая строка содержит исходное выражение и соответствующую формулировку, одобренную командой. Таким образом, если в отзыве, например, о телефоне пользователь упоминает долговечность батареи, редактор обращается к словарю и находит утверждение «долго держит заряд». Это не только ускоряет процесс, но и обеспечивает стабильность и предсказуемость данных, на которых обучается модель.

Изначально 80% буллитов бралось из словаря, а остальные 20% составляли уникальные, более узкоспециализированные фразы, которые добавляются вручную редакторами. Однако со временем мы заметили, что редакторы добавляли слишком узкие, субъективные формулировки, не подходящие для анализа и обучения модели. Для консистентности данных мы решили уйти от этих уникальных буллетов.

Мы получили этот навык работы с тематиками телефонов и автомобилей, и когда клиент предложил нам новые направления, мы уже не увеличивали словарь до такого количества строк, а сразу оптимизированные подходы.

Но словарь продолжает пополняться актуальными терминами и фразами по мере работы, что позволяет модели сохранять высокое качество саммаризации и обучаться на оптимальных объемах данных.

Мы получили навык работы с тематиками телефонов и автомобилей, и когда пришли новые направления, уже не раздували словарь до космических размеров, а использовали накопленные знания и оптимизированные подходы.

Как уместить словарик в 300 строк

С увеличением объема данных и количества категорий возникла проблема: На начальном этапе словарь был довольно компактным, что позволяло оперативно находить нужные термины и поддерживать высокую скорость работы.

Но с расширением проекта словарик значительно вырос. В какой-то момент он достигал 500 строк, это замедляло процесс поиска терминов. Чтобы увеличить скорость работы, команда решила оптимизировать словарь, сокращая его до 300–400 строк, при этом объединяя некоторые по смыслу и сохраняя только самые значимые и часто используемые термины. 

Так мы смогли сохранить высокий уровень эффективности, не теряя важной информации и при этом поддерживая стандарты однородности в работе.

Как добиться однородности

Поддержание единого стиля и подхода в описаниях стало одной из главных задач для команды Data Light. Еще на первых проектах по разметке LLM у нас возникла проблема: с ростом объема работы разные редакторы могли использовать свои формулировки и термины, что приводило к разнице в тоне и стиле.

Поэтому в последние годы мы ввели регулярные тренинги и обучающие сессии, где мы можем регулярно повторять принципы и правила, формулировки и предпочтительный стиль, а также вместе решать сложные кейсы.

Это помогает следовать единым стандартам и обеспечивают общую платформу для обмена опытом, что особенно полезно в сложных случаях, когда требуются нестандартные решения. Ежедневная проверка и обновление словаря терминов также стало обязательной практикой, чтобы поддерживать стиль, понятный и привычный для пользователей.

Секреты подбора редакторов

Работа с различными категориями товаров потребовала внедрения специализированного подхода для точной саммаризации.

Например, отзывы об автомобилях часто включают обширные и специфичные термины, такие как типы двигателей, системы трансмиссии, материалы отделки и уровни комплектаций. Описания преимуществ и недостатков автомобилей требуют не только точного понимания этих терминов, но и способности распознавать ключевые для пользователей характеристики.

Для работы с автомобильной категорией редакторы должны были понимать терминологию и специфику автомобильного рынка, это было важным критерием при подборе специалистов. Команда Data Light выбрала редакторов, обладающих базовыми знаниями об устройстве автомобиля и пониманием терминов.

А еще для автопроекта была создана текстовая шпаргалка из 100-150 строк, описывающая основные элементы автомобилей, их запчасти и характеристики. Этот справочник помогал редакторам даже без опыта в автотематике, быстро ориентироваться в терминах. Хотя шпаргалка очень полезна, при столкновении с редкими техническими терминами приходилось обращаться к внешним источникам. Все найденные дополнения вносились в общую базу, делая шпаргалку более ценной и полной.

Важность валидаторов и обратной связи

Валидаторы играют ключевую роль в проекте, так как они разбирают ошибки редакторов и предлагают улучшения. Они работают над тем, чтобы буллиты соответствовали строгим критериям качества, это минимизирует ошибки.

Для команды важно, чтобы все сотрудники, работающие над саммаризацией, обладали отличным знанием русского языка и понимали его специфику. В рамках найма Data Light разработала собственное тестирование на знание русского языка, и это тестирование отсеивает более 65% кандидатов.

Мы начали работу с клиентом с одной категории, и со временем нам доверили еще 7. За это время мы охватили много интересных направлений: от автомобилей до бьюти-индустрии (например, маникюр), мероприятия, ремонт, бытовые услуги и транспорт. Уже через неделю мы приступаем к работе над девятой категорией — арендой.


Мир LLM — это революция, которая только начинается. Только представьте себе эти возможности: мгновенный анализ потребностей клиентов, автоматизация сложных задач и совершенно новый уровень персонализации. Эти технологии не просто помогают бизнесу адаптироваться к будущему, они делают это будущее реальностью.

Хотите узнать, как меняются правила игры? Обратите внимание и на другие наши статьи!

Виктория Янышева

Head of Speech and Generative Data в Data Light

Денис Титов

AI-редактор в Data Light

Комментарии (2)


  1. alexhu
    22.11.2024 14:18

    Если вы отсеиваете на стадии подбора сотрудников более 65% кандидатов на знание русского языка, то вероятно и от пользователей ожидаете безупречного русского. А таких может и не быть - с чего бы пользователи так академически точно выражали свои мысли.

    И в начале статьи вы начали за суммаризацию текста, дальше перешли на рекомендательную систему, потом описали её усложнение на понимание смыслов, дальше на фильтрацию контента, и дальше на толерантность рекомендаций. Похвально, только это далеко выходит за рамки суммаризации текста.