Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.
В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.
Что такое саммаризация?
Итак, как работает саммаризация и что стоит за этим процессом?
Саммаризация — это метод сокращения и упрощения большого объема информации до ключевых аспектов, который позволяет сохранять суть оригинального контента. Она позволяет брендам и платформам улучшить пользовательский опыт, предоставляя быстрый доступ к полезной информации.
Хотя саммаризация может использоваться для совершенно разных задач, в контексте работы с отзывами на платформе заключалась в том, чтобы предоставить пользователю сжатую и объективную информацию, а также помочь быстро сформировать представление о продукте, услуге или товаре. Это особенно актуально в условиях переизбытка информации, ведь внимание пользователя ограничено несколькими секундами.
Отзывы можно разбить на три ключевые категории: преимущества, недостатки и дополнительно. Такая саммаризация экономит время и усилия пользователей, которые иначе вынуждены были бы читать десятки или сотни отзывов, чтобы сделать вывод. А еще структура саммари дает более сбалансированную оценку товара.
Но процесс автоматической саммаризации, особенно в текстах, содержащих эмоционально окрашенные мнения, требует тщательной проработки алгоритмов. Например, важно научить систему различать сарказм, субъективные оценки и выделять действительно значимые аспекты. Бывают и трудности: часто встречается сложность обработки многозначных слов, разный стиль написания и полисемия, когда одно слово имеет несколько значений в зависимости от контекста.
Именно поэтому наши специалисты анализировали каждый отзыв, чтобы выделить наиболее значимые аспекты и представить их в виде упорядоченных буллитов.
Процесс саммаризации: этапы и алгоритмы
Саммаризация в данном проекте проходила с активным участием AI-редакторов, которые вручную обрабатывали данные, чтобы затем обучить модель распознавать и обрабатывать ключевые аспекты отзывов. Процесс включал следующие этапы:
Сбор данных и предобработка:
Первичный этап, где собирается массив текстов. В данном случае — отзывы, которые содержат субъективные мнения о продукте. На этом этапе важно очистить данные от шумов, ошибок, дубликатов и лишних символов, чтобы повысить точность анализа.
Анализ текстов и выделение аспектов:
Дальше начинается этап выделения значимых аспектов. Такие методы часто включают в себя идентификацию и классификацию упоминаний основных характеристик продукта. Например, в отзывах о телефонах часто выделяют такие аспекты, как камера, батарея и производительность, а для машин это может быть мощность двигателя, проходимость или количество цилиндров.
Для формирования обучающей выборки AI-редактора вручную анализировали каждый отзыв, разделяя текст на смысловые категории — «плюсы», «минусы» и «дополнительно». Это служило моделью для алгоритма, позволяя ему в дальнейшем автоматизировать процесс саммаризации.
3. Формирование итоговой структуры:
Выделенные элементы объединяются в краткие и структурированные буллиты. В нашем проекте AI-редактора составляли итоговую структуру данных, чтобы на выходе саммари отображали значимые моменты в формате саммари.
Саммаризация для платформы объявлений: опыт Data Light
Словарик и зачем он нужен
Если бы Виктория и ее команда работали над этим проектом без дополнительного инструментария, опираясь только на опыт редакторов, добиться консистентности в таком объеме данных было бы практически невозможно. Каждый редактор подходил бы к задачам по-своему. Поэтому мы используем словарь (словарик, как мы называем его в Data Light), полезный инструмент для стандартизации процессов.
Он представляет собой таблицу, где собраны стандартизированные фразы, которые могут быть использованы для создания буллитов. Каждая строка содержит исходное выражение и соответствующую формулировку, одобренную командой. Таким образом, если в отзыве, например, о телефоне пользователь упоминает долговечность батареи, редактор обращается к словарю и находит утверждение «долго держит заряд». Это не только ускоряет процесс, но и обеспечивает стабильность и предсказуемость данных, на которых обучается модель.
Изначально 80% буллитов бралось из словаря, а остальные 20% составляли уникальные, более узкоспециализированные фразы, которые добавляются вручную редакторами. Однако со временем мы заметили, что редакторы добавляли слишком узкие, субъективные формулировки, не подходящие для анализа и обучения модели. Для консистентности данных мы решили уйти от этих уникальных буллетов.
Мы получили этот навык работы с тематиками телефонов и автомобилей, и когда клиент предложил нам новые направления, мы уже не увеличивали словарь до такого количества строк, а сразу оптимизированные подходы.
Но словарь продолжает пополняться актуальными терминами и фразами по мере работы, что позволяет модели сохранять высокое качество саммаризации и обучаться на оптимальных объемах данных.
Мы получили навык работы с тематиками телефонов и автомобилей, и когда пришли новые направления, уже не раздували словарь до космических размеров, а использовали накопленные знания и оптимизированные подходы.
Как уместить словарик в 300 строк
С увеличением объема данных и количества категорий возникла проблема: На начальном этапе словарь был довольно компактным, что позволяло оперативно находить нужные термины и поддерживать высокую скорость работы.
Но с расширением проекта словарик значительно вырос. В какой-то момент он достигал 500 строк, это замедляло процесс поиска терминов. Чтобы увеличить скорость работы, команда решила оптимизировать словарь, сокращая его до 300–400 строк, при этом объединяя некоторые по смыслу и сохраняя только самые значимые и часто используемые термины.
Так мы смогли сохранить высокий уровень эффективности, не теряя важной информации и при этом поддерживая стандарты однородности в работе.
Как добиться однородности
Поддержание единого стиля и подхода в описаниях стало одной из главных задач для команды Data Light. Еще на первых проектах по разметке LLM у нас возникла проблема: с ростом объема работы разные редакторы могли использовать свои формулировки и термины, что приводило к разнице в тоне и стиле.
Поэтому в последние годы мы ввели регулярные тренинги и обучающие сессии, где мы можем регулярно повторять принципы и правила, формулировки и предпочтительный стиль, а также вместе решать сложные кейсы.
Это помогает следовать единым стандартам и обеспечивают общую платформу для обмена опытом, что особенно полезно в сложных случаях, когда требуются нестандартные решения. Ежедневная проверка и обновление словаря терминов также стало обязательной практикой, чтобы поддерживать стиль, понятный и привычный для пользователей.
Секреты подбора редакторов
Работа с различными категориями товаров потребовала внедрения специализированного подхода для точной саммаризации.
Например, отзывы об автомобилях часто включают обширные и специфичные термины, такие как типы двигателей, системы трансмиссии, материалы отделки и уровни комплектаций. Описания преимуществ и недостатков автомобилей требуют не только точного понимания этих терминов, но и способности распознавать ключевые для пользователей характеристики.
Для работы с автомобильной категорией редакторы должны были понимать терминологию и специфику автомобильного рынка, это было важным критерием при подборе специалистов. Команда Data Light выбрала редакторов, обладающих базовыми знаниями об устройстве автомобиля и пониманием терминов.
А еще для автопроекта была создана текстовая шпаргалка из 100-150 строк, описывающая основные элементы автомобилей, их запчасти и характеристики. Этот справочник помогал редакторам даже без опыта в автотематике, быстро ориентироваться в терминах. Хотя шпаргалка очень полезна, при столкновении с редкими техническими терминами приходилось обращаться к внешним источникам. Все найденные дополнения вносились в общую базу, делая шпаргалку более ценной и полной.
Важность валидаторов и обратной связи
Валидаторы играют ключевую роль в проекте, так как они разбирают ошибки редакторов и предлагают улучшения. Они работают над тем, чтобы буллиты соответствовали строгим критериям качества, это минимизирует ошибки.
Для команды важно, чтобы все сотрудники, работающие над саммаризацией, обладали отличным знанием русского языка и понимали его специфику. В рамках найма Data Light разработала собственное тестирование на знание русского языка, и это тестирование отсеивает более 65% кандидатов.
Мы начали работу с клиентом с одной категории, и со временем нам доверили еще 7. За это время мы охватили много интересных направлений: от автомобилей до бьюти-индустрии (например, маникюр), мероприятия, ремонт, бытовые услуги и транспорт. Уже через неделю мы приступаем к работе над девятой категорией — арендой.
Мир LLM — это революция, которая только начинается. Только представьте себе эти возможности: мгновенный анализ потребностей клиентов, автоматизация сложных задач и совершенно новый уровень персонализации. Эти технологии не просто помогают бизнесу адаптироваться к будущему, они делают это будущее реальностью.
Хотите узнать, как меняются правила игры? Обратите внимание и на другие наши статьи!
Виктория Янышева
Head of Speech and Generative Data в Data Light
Денис Титов
AI-редактор в Data Light
alexhu
Если вы отсеиваете на стадии подбора сотрудников более 65% кандидатов на знание русского языка, то вероятно и от пользователей ожидаете безупречного русского. А таких может и не быть - с чего бы пользователи так академически точно выражали свои мысли.
И в начале статьи вы начали за суммаризацию текста, дальше перешли на рекомендательную систему, потом описали её усложнение на понимание смыслов, дальше на фильтрацию контента, и дальше на толерантность рекомендаций. Похвально, только это далеко выходит за рамки суммаризации текста.