Если вы хоть раз имели дело с заказом текстов для сайта, то знаете, как это может быть мучительно больно. И нет, мы даже не про долгие часы написания ТЗ (что делает любой нормальный контент-менеджер или SEO-специалист) и не про упоминание в них важной дополнительной информации, которую нужно отразить в текстах (что делают крутые специалисты).

Мы про результаты, которые присылают копирайтеры, особенно если это недорогие копирайтеры с биржи. В лучшем случае вы получаете рерайт первого же текста из выдачи, а в худшем – фактические и грамматические ошибки и столько воды, что позавидовал бы Ниагарский водопад.

Конечно, бывают исключения как среди копирайтеров, которые пишут хорошо и недорого, так и среди контент-менеджеров, которые, скажем так, не принимают близко к сердцу качество текстов. Если вы понимаете, о чём мы. Но это всё компромиссы, которые в конечном счёте могут стоить больших затрат, потому что пользователь ошибок не прощает. А в условиях роста онлайн-торговли требуется всё больше товарных описаний.

Мы подумали, что было бы здорово создать универсального умного «сотрудника», пишущего на любые темы за считанные секунды и желательно бесплатно. И поскольку в Сбере всё активнее используются сервисы на основе ИИ и машинного обучения, мы решили применить их и для этой задачи.

В сентябре вышел совместный проект Sber AI и CopyMonkey.ai – AI-копирайтер на основе искусственного интеллекта, который за секунды генерирует уникальные товарные описания для интернет-магазинов и маркетплейсов. В основе лежит языковая модель ruGPT-3.

В этой статье мы представим нашего нового «коллегу» (а может, и вашего, кто знает?) и расскажем, чем он может быть лучше копирайтеров с биржи.

Hard и soft skills

AI-копирайтер умеет генерировать короткие тексты, подходящие для наполнения товарных страниц, на основании наименования товара и параметров, которые нужно упомянуть в тексте.

Анализируя введённые параметры и «вспоминая» примеры текстов, на которых она обучена, генеративная модель использует их в подходящем контексте.

Параметрами могут быть как точные технические характеристики товара (например, разрешение, мощность, максимальная скорость, операционная система и пр.), так и просто эпитеты, важные для понимания того, как товар выглядит или используется (например, увлажняющий, антивозрастной, быстрый, мощный и др.).

Специалисту, который будет работать с AI-копирайтером, нужно иметь под рукой всего 3 вещи:

  • список товаров, для которых требуются описания;

  • перечень значимых параметров, упоминание которых он хочет видеть в текстах;

  • немного здравого смысла и насмотренности, чтобы проверить итоги генерации.

Пример генерации текста о квадрокоптере
Пример генерации текста о квадрокоптере

На частичную и полную занятость

AI-копирайтера можно привлекать и для единичных задач, и для постоянного наполнения товарных страниц.

В первом случае подойдёт стандартная бесплатная версия, доступная тут. Она умеет создавать три варианта текста на основе наименования товара и ввода его параметров, которые заказчик хочет отобразить в тексте.

Если же текстов требуется много, то можно приобрести расширенную версию от CopyMonkey.ai. Она имеет больше возможностей:   

  • интеграция с CMS;

  • массовая загрузка товаров файлами для экономии времени;

  • поддержка разных языков для магазинов, работающих на иностранную аудиторию.

Активность, коммуникабельность, быстрая обучаемость

Наш универсальный специалист имеет надёжный бэкграунд и широкий профиль.

В основе системы лежит модель ruGPT-3, созданная командами Sber AI, SberDevices и SberCloud. Мы дообучили её на сотнях тысяч товарных описаний с крупных российских маркетплейсов, поскольку на них собрано множество товаров из разных категорий, а сами описания достаточно качественные. Одной из наших целей было покрыть как можно больше тематик, чтобы практически любой интернет-магазин в России мог обратиться за помощью к AI-копирайтеру.

Собранные описания мы очистили от повторов, привели к единому формату и добавили токены.

Затем команда Sber AI дообучила на этих данных три генеративные модели:

  • ruGPT3-medium (356 млн параметров);

  • ruGPT3-large (760 млн параметров);

  • ruGPT3-XL (1,3 млрд параметров).

«Зачем столько?» – спросите вы. Грубо говоря, каждая из моделей имеет свою специфику и развивается по собственному пути: одна лучше работает с большим спектром тем, а другая больше подходит под узкоспециализированное обучение под конкретную тематику. В следующем блоке мы расскажем, какой из моделей в итоге мы отдали предпочтение, поэтому читайте до конца.

Также во время тестирования мы меняли ключевые параметры авторегрессионных генеративных моделей и смотрели, что получится. Например, можно ограничивать длину текстов или штрафовать модель за повторы.

Для генерации можно использовать несколько алгоритмов:

  • обычный жадный алгоритм (greedy algorithm);

  • сэмплинги top-k, top-p;

  • beam search.

При использовании каждого из них сгенерированные тексты отличаются. Наши эксперименты показали, что при варианте с Nucleus sampling (top-p) тексты описания в среднем получаются более красочными, в них встречается больше маркетинговых оборотов и описательных конструкций. Однако модель так увлекается, что может придумывать несуществующие характеристики.

Результаты Beam search получались менее красивыми и разнообразными, но в большей степени держались в русле заданной темы и выглядели более связными и целостными.

Ниже представлен пример генерации маркетингового описания для одного и того же товара – патчей для глаз.

Beam search

Nucleus sampling

Патчи для глаз с 24-каратным золотом и гиалуроновой кислотой обеспечивают антивозрастной уход за кожей вокруг глаз. Золото — это биологически активный ингредиент, обладающий омолаживающими свойствами. Оно стимулирует выработку коллагена и эластина, повышает упругость и эластичность кожи, разглаживает морщинки и осветляет пигментацию. Гиалуроновая кислота глубоко увлажняет и питает кожу, устраняет сухость и шелушения, возвращает коже тонус и упругость. Патчи пропитаны высококонцентрированной эссенцией, которая легко наносится и быстро впитывается в кожу. Тонкий фарфоровый аппликатор обеспечивает точную дозировку средства, что позволяет добиться выраженного омолаживающего эффекта. Патчи подходят для всех типов кожи, но особенно рекомендуются для тонкой, увядающей и усталой кожи. В упаковке 60 патчей, упакованных в индивидуальные коробочки.

Инновационная технология производства с точностью повторяет биологические процессы, происходящие в процессе производства драгоценного фарфора. Благодаря этому патчи эффективно увлажняют и разглаживают кожу, способствуют её восстановлению и антивозрастному уходу. Патчи HOUMAI 24К Gold Essence с 24-каратным золотом мгновенно подтягивают кожу, делают её более гладкой, упругой и увлажнённой. Патчи HOUMAI 24К Gold Essence с частицами золота интенсивно питают, увлажняют, тонизируют, устраняют следы усталости, освежают и подтягивают кожу. Тонкая фарфоровая оболочка патчей не даёт им сползать с кожи, обеспечивая эффект усталой кожи. Эффект от использования патчей HOUMAI 24К Gold Essence сравним с эффектом от применения омолаживающих масок. Патчи HOUMAI 24К Gold Essence с частицами золота можно использовать в качестве основы под макияж, наносить на зоны вокруг глаз. Золото, входящее в состав, повышает упругость и эластичность кожи, омолаживает и разглаживает морщины. Золото проникает глубоко в кожу и восстанавливает биологические функции клеток, обладает отбеливающим эффектом, борется с пигментацией. В состав патчей также входят частицы серебра, которые улучшают цвет кожи, препятствуя её старению. Для достижения максимального результата рекомендуется использовать каждую патч пару отдельно.

Думаем, вы заметили, что описание во второй колонке намного более художественное, чем в первой.

Молодой и дружный коллектив

Перед допуском к рабочим задачам мы, конечно, жёстко аттестовали «новичка». На помощь пришли коллеги – профессиональные копирайтеры. Они входили в асессорскую группу и оценивали результаты работы AI-копирайтера.

Для проверки им предоставили несколько вариантов генерации для различных групп товаров. А именно по три текста на каждую комбинацию «модель + параметры». Среди этих вариантов они выбрали лучшие с точки зрения смысловой нагрузки, стиля, грамматики и присутствия ключевых характеристик. Модели, отвечающие за лучшие генерации, сейчас и используются в сервисе.

По результатам асессорской оценки лучше всего показала себя модель ruGPT-3-large. Это не самая «тяжеловесная» модель из семейства ruGPT-3, но именно она оказалась оптимальной для создания товарных описаний внутри заданной тематики: как с точки зрения семантики текста и способности не отходить от темы, так и с точки зрения деплоя и real-time генерации.

Если нет возможности дообучить модель на данных конкретной тематики, то для широкого спектра тем хорошо проявляет себя модель ruGPT-3-XL. Она училась на самом большом количестве текстов, её перплексия самая низкая.

Всё ли так гладко?

Новичок он для того и новичок, чтобы сделать все возможные ошибки на испытательном сроке, а не на рабочих задачах.

В сгенерированных с помощью ИИ товарных описаниях людям обычно бросаются в глаза следующие неточности:

  • фактические ошибки и отклонение от темы. Например, упоминание платья в тексте про шампунь или информация одновременно и о длинном, и о коротком рукаве в тексте про одно и то же худи;

  • опечатки, орфографические и пунктуационные ошибки. Неправильно написанные слова и не там поставленные знаки препинания;

  • стилистические ошибки. Употребление в текстах одного стиля слов из другого, повторы слов, тавтология, нарушение лексической сочетаемости слов.

Совершал ли AI-копирайтер эти ошибки на своём испытательном сроке? А то! И мы, как мудрые тимлиды, радовались каждой из них, чтобы на них научить нашего «новичка» работать правильно.

Мы целенаправленно снижали количество возможных ошибок всех этих типов:

  • брали в качестве исходных данных авторитетные крупные маркетплейсы, текстам на которых можно доверять;

  • по итогам десятков тысяч генераций выбирали наилучшие результаты и дорабатывали модели;

  • привлекали к оценке профессиональных копирайтеров.

Ошибается ли он сейчас? Такое изредка случается. Но доля генераций с ошибками стала значительно меньше общего количества генераций. И серьёзность этих ошибок сильно снизилась по сравнению с тестами.

Итак, чем же наш боец отличается от аналогичных систем:

  • Сгенерированные тексты корректны с точки зрения русского языка и фактов;

  • система непрерывно обучается, повышая качество выдаваемых текстов;

  • в редких случаях встречаются неожиданные смешные генерации, которыми можно поделиться с друзьями. Скорее всего, при повторном запросе неточность пропадёт.

Ниже мы привели примеры генераций из разных тематик.

Варианты карьерного роста

Конечно, наш AI-сотрудник не всегда будет работать в одной и той же должности. Он прокачает скиллы и, возможно, захочет проявить себя в других сферах.

Например, на его основе можно кастомизировать чат-боты, обучая их грамотно и полно отвечать на запросы, связанные со спецификой конкретной компании. Он может помогать писать скрипты для колл-центров. В будущем подразделение Sber AI планирует обучать мультимодальные и мультитасковые модели для генерации не только текстов, но и изображений, видео, аудио и других форматов.

Мы были рады познакомить вас с нашим AI-копирайтером и даже на минутку сами представили, что он живой. Спасибо, что прочитали!

Комментарии (13)


  1. titbit
    18.10.2021 13:53
    +5

    А как с честностью у этого «сотрудника»? Будет нести такую же дичь, какую ему велели менеджеры, ради продаж любой ценой? Качество эти «заказных обзоров» упало уже настолько ниже плинтуса, что изначальная идея перевернулась на 180 градусов. Нужен ли тут ИИ или надо менять сам подход к рекламе товара?


    1. Sber Автор
      22.10.2021 12:17

      Мы и наш AI-копирайтер за честные описания товаров ???? Надеемся, что его клиенты будут придерживаться тех же принципов.


  1. MAXH0
    18.10.2021 13:53
    +1

    В bullshit bingo с ним поиграть можно?


  1. Javian
    18.10.2021 14:01
    +1

    Вместо аббревиатуры AI (Artificial Idiot) будет LL (Liar Liar).


  1. BearWakes
    18.10.2021 15:00
    +4

    Имея достаточно высокий уровень компетенций в маркетинге и PR могу предположить, что на текущем этапе развития ИИ будет невозможно заменить человеческие руки и мозг.

    Когда мы готовим статьи для своей организации они проходят экспертизу, как минимум трёх человек. Причём не по одному циклу. Шлифуется, дорабатывается, проверяется на уникальность, отправляется на модерацию и снова и снова... Иногда статья выходит в мир через неделю после начала работы над ней.

    Это, если мы говорим о действительно качественном контенте, а не о статье, купленной на агрегаторе за 150 рублей.


    1. Markscheider
      18.10.2021 16:37

      Шлифуется, дорабатывается, проверяется на уникальность, отправляется на модерацию и снова и снова...

      Обычное дело, хороший контент так и создается.

      Общался с редактором, которому часто приходится вычитывать обзоры продуктов и рекламные статьи после горе-копирайтеров. Говорит: "часто проще написать статью с нуля, чем вычитывать и править уже написанное кривыми руками". В этой связи вопрос к топикстартеру: после бота-копирайтера живые люди материал читают? И, если да, то что там выходит с трудозатратами? Час работы хорошего редактора стоит дорого...


      1. Sber Автор
        19.10.2021 15:45
        -1

        Добрый день! Благодаря постоянному обучению наш AI-копирайтер статистически допускает меньше ошибок, чем реальные люди. Что касается редактора, то здесь его привлекать не нужно, так как обычно он проверяет смыслы и факты, с которыми у искусственного интеллекта проблем нет.

        Если вы сомневаетесь в качестве работы AI, то вот вам такой факт: недавно бренд-бюро Sixth Sense и агрегатор ИИ-решений Cleverbots провели эксперимент, в ходе которого выяснилось, что 50% специалистов сферы маркетинга не могут отличить текст нейросети от работы копирайтера. В Telegram-канале «Чувство инсайта» публиковались посты с новостями, трендами и инсайтами в маркетинге. Половина респондентов ошиблись и не смогли отличить тексты AI (GPT-3) от написанных человеком.

        Этот эксперимент доказывает, что качество работы AI находится на очень высоком уровне ????


        1. Markscheider
          19.10.2021 17:14

          50% специалистов сферы маркетинга не могут отличить текст нейросети от работы копирайтера

          Здорово, это, как минимум, уже о многом говорит! Ждал инфу про подобный "тест Тьюринга" в самой статье.

          Что касается редактора, то здесь его привлекать не нужно, так как обычно он проверяет смыслы и факты, с которыми у искусственного интеллекта проблем нет.

          А вот тут вы немного ошибаетесь. Факты (по крайней мере, за хорошим копирайтером) проверять не надо. Но не все копирайтеры обладают т.н. чувством стиля. То есть здесь речь, скорее, не о вычитке, а о литературной редактуре.

          Да, я понимаю, что мы не "Войну и мир" здесь пишем. И если речь идет об описании товара на абзац - тут можно простить стилистические огрехи. Но все что больше 1000 знаков - ИМХО должно быть литературно читаемо. Вот самые распространенные огрехи, которые допускают копирайтеры (насчет вашего робота - не знаю :)).

          • Однокоренные слова в пределах двух-трех стоящих рядом предложений. "Новый усилитель оснащен тремя разъемами и двумя регуляторами уровня. Стоит отметить, что разъем "Вход" выполнен из позолоченной меди...".

          • Неестественный порядок слов (особенно, если автор выполняет заказ специалиста по SEO). "Какой выбрать усилитель: ламповый или транзисторный?".

          • Слишком длинные и сложные предложения, перегруженные оборотами, а также слова-паразиты. "Ресивер, представленный в данном обзоре, обладает неплохой АЧХ, а также позволяет менять коэффициент усиления посредством регулируемой ООС, соответствующий уровень которой исключает эффект самовозбуждения выходного каскада".

          Особо хочу отметить: я не агитирую за "инфостиль". При всей читаемости и понятности, технические (да и любые) тексты должны быть еще и красивыми. С художественными оборотами. На ум призодит аналогия с напитками и выражение "мягко пошла". Текст при чтении должен идти мягко, как хороший коньяк, а не как теплая водка :)


          1. Caeazar
            20.10.2021 08:49

            Само собой, говорить о замене человека такой моделью - весьма рано (хотя потенциал есть). Но как говорит тот же Курцвейл, сейчас мы имеем дело с аугментацией человека с помощью ИИ. И с этой ролью он справляется - множество знакомых-копирайтеров "из прошлой жизни" (рекламно-маркетинговой) подтвердили, что с радостью используют такой сервис, когда им прилетит заказ на 1000 однообразных текстовых описаний. Понятно, что сотворить шедевральные тексты не хуже Пушкина не выйдет - но порой это и не надо. AI - это про то как стать контролером/редактором вместо исполнителя и как делать больше за то же время.


            1. Markscheider
              20.10.2021 08:55

              Ну ок, кожаные литредакторы пока облегченно выдохнули :)


            1. Sber Автор
              20.10.2021 16:23

              Согласны с вами ???? Пока AI берет на себя рутинные задачи, чтобы освободить время человека для чего-то более сложного и креативного.


          1. Sber Автор
            20.10.2021 16:21

            Да, как и любой новичок, AI-копирайтер допускал стилистические ошибки на испытательном сроке. Чтобы снизить их количество, мы привлекали к тестированию профессиональных копирайтеров, брали в качестве исходных данных авторитетные маркетплейсы и по итогам десятков тысяч генераций выбирали наилучшие результаты. Об этом мы писали в статье ???? Поэтому сейчас количество стилистических ошибок стремится к нулю.


  1. mixsture
    01.11.2021 14:12
    +2

    Имхо, вообще направление развития поисковых систем с требованием уникальности описаний товаров тупиковое.
    Нет ничего хуже, чем «разные» описания одного и того же товара. Это не только не помогает покупателю, это активно вредит — теперь стоит усилий понять, что это один и тот же товар. Думаю, поэтому я всегда переключаюсь на вкладку «характеристики» — в этой вкладке нет творчества копирайтеров, вот если мощность 2квт — то так и написано, одинаково везде.
    Представляете, во вкладку «характеристики» бы пришли копирайтеры? и вот в графе мощность стояло бы «хорошая», «большая», «конкурентноспособная» и все это, чтобы «2квт» не повторять. И потом попробуй сравни «хорошая» это больше или меньше «конкурентноспособной»?