Всем привет! Я занимаюсь NLP в сфере Data Science и хочу поделиться результатами разработки Telegram-бота, у которого под капотом уже 15 нейросетей. Речь идёт о TurboText_bot. Он будет полезен всем, кто причастен к созданию контента. К таким можно отнести блогеров, журналистов, копирайтеров и многих других специалистов.. Даже бабушек у подъезда, ведь бот способен генерировать и обрабатывать новости.

Что удалось реализовать?

  • Генерация (рерайт текста, создание заголовков, текстов, отзывов и описаний к товарам);

  • классификация (определение стиля речи, кликбейта, позитивности); 

  • регрессия (прогноз % привлекательности заголовка, кликбейта статьи);

  • кластеризация (группировка новостей по жанрам, семантической близости для вывода трендов).

Ещё внутри есть антиплагиат для проверки уникальности текстов, SEO-анализ и анализ трендов в поисковиках (Яндекс, Google).

Ох, сколько же сайтов в СМИ мы спасли от блокировок и понижения рейтингов в поисковиках Яндекс и Google за не уникальный контент. Со временем каждый ощущал “выгорание”, а нейросети давали глоток новых идей для креативных заголовков, текстов, отзывов и описаний к товарам в маркетплейсах и прочее.

На обучение всех нейросетей для бота ушло больше года. На разработку самого бота - около 4 месяцев. И всё для того, чтобы вы за пару секунд могли создать тексты, которые будут залетать в ТОП-ы.

Нейросеть в боте создает заголовки такого же уровня как Lenta.ru
Нейросеть в боте создает заголовки такого же уровня как Lenta.ru

С чего всё началось?

6 лет назад, будучи студентом, я пришёл на подработку копирайтером. Затем это переросло в журналистику и редактуру. Так в сфере контент-менеджмента я провёл 4 года. Со временем в компании возник спрос на специалистов в сфере Data Science, чтобы помочь авторам текстов делать кликабельнее заголовки, а статьи писать без кликбейта. Имея за плечами как технический бэкграунд инженера, так и гуманитарный журналиста, согласился и понеслось.

Почему возник спрос для СМИ? С 2019 года Google в свои алгоритмы внедряет BERT, а Яндекс начинает обучать “трансформеры”. Новые разработки стали массово банить авторов некачественного контента и возник спрос на понимание, как это работает и как нейросетям существовать в тандеме с авторами. Так я и начал обучаться в Яндекс.Практикум на курсе Data Science и погружался в направление Natural Language Processing (NLP).

Достаточно отправить фото боту и он пришлет 2 варианта описания к товару всего за 3-10 секунд. Незаменимый помощник для тех, кто работает в маркетплейсах
Достаточно отправить фото боту и он пришлет 2 варианта описания к товару всего за 3-10 секунд. Незаменимый помощник для тех, кто работает в маркетплейсах

Первыми задачами на пути стало прогнозирование % дочитываемости текстов (т.е. какой % читателей долистают статью до конца) и прогноз % привлекательности заголовка (предсказание CTR, чтобы повысить долю кликов среди просмотров статьи в ленте). Затем мы решили помочь избавиться от кликбейта в статьях, получив модель, определяющую кликбейты в СМИ с точностью 93%.

Когда в компании увидели спрос на такие нейросети, то взялись за генеративные модели. Так появились создатели заголовков, текстов, рерайтов, отзывов и описаний к товару.

Кому поможет бот?

Журналистам, блогерам, фрилансерам, SEO-специалистам, работникам маркетплейсов. Пользователям достаточно выбрать задачу в боте и следовать инструкциям. Для удобства меню поделено на 3 части - создатели, проверки и аналитика.

За 3 секунды бот сгенерировал рерайт с уникальностью 69%. Осталось подправить фамилию, пару слов и копирайтер может уже заработать от 30 рублей за текст, не прикладывая усилий
За 3 секунды бот сгенерировал рерайт с уникальностью 69%. Осталось подправить фамилию, пару слов и копирайтер может уже заработать от 30 рублей за текст, не прикладывая усилий

Базово доступно 3 попытки в каждом режиме бесплатно (45 всего) и после можно купить PRO-аккаунт, где будет по 30 попыток (450 всего) за 100 рублей или $2. Для сравнения: даже если будете пользоваться только антиплагиатом, то использование выйдет более чем в 5 раз дешевле, чем на Текст.Ру или Адвего.

У нас есть контент-биржа TurboText c 10-летней историей работы с заказчиками текстов и исполнителями. Мы на одной волне с каждым из них и идем в ногу с трендами в мире искусственного интеллекта, поэтому Telegram-бот и стал новым шагом в развитии проекта.

Технические особенности

Бот написан на aiogram, чтобы запросы обрабатывались асинхронно, подключена база данных PostgreSQL и платежные системы, чтобы всё было по-взрослому.

Под капотом бота лежат нейросети на базе ruGPT-3, ruT5, BERT, ROBERT, CLIP. Для решения задачи генерации отзывов и описаний к товару по фото используются ансамбли из нескольких моделей.

Пример, как с помощью ансамбля нейросетей получили генерацию отзыва по фото
Пример, как с помощью ансамбля нейросетей получили генерацию отзыва по фото

Для обучения использовалась своя база данных со статьями на более чем 1 млн пар текстов разного стиля (в основном художественный и публицистический) и свыше 1 млн изображений товаров для обучения нейросетей генерации отзывов и описаний. 

Бот продолжает совершенствоваться и в будущем сможет создавать не только рерайты, но и гуглить новую информацию в интернете для написания аналитических статей. Человек способен на большее, чем просто перефразировать тексты и проводить анализ трендов в СМИ. Эту задачу мы оставляем за помощником авторов - нейросетями. Авторы с помощью бота могут довериться новым технологиям, продолжить совершенствоваться и писать ещё круче тексты без кликбейта и фейков.

Всем спасибо за внимание! Жду вопросы и фидбэк :-)

Комментарии (13)


  1. LesnoyChelovek
    30.09.2022 13:10

    «Осталось подправить фамилию, пару слов и копирайтер может уже заработать от 30 рублей за текст, не прикладывая усилий»

    Лучший пример работы боты — когда он напишет о себе статью для публикации на «Хабр». А пока это сделал человек и будет делать дальше.

    А про «не прикладывая усилия» — то есть настройка бота силой мысли? И «от 30 рублей за текст» — ни один серьёзный проект не будет такие тексты использовать.

    PS. с глаголом совершенного вида «приложить» в значении «направить действие чего-л. на что-л., применить» соотносится глагол несовершенного вида «прилагать», то есть правильно будет как раз не «не прикладывая усилия», а «не прилагая усилия»


    1. mochila007 Автор
      30.09.2022 16:23

      Да, вы правы. Под "не прикладывая усилия" скорее имеется в виду, что на бирже часть текстов можно продавать сразу без дополнительной редакции.


  1. hbn3
    30.09.2022 16:12
    +1

    Пора уже вводить технологию позволяющую добавлять цифровую подпись к частям страницы.

    Типа человек текст написал, фотку сделал, картинку нарисовал, подписался под ними. И когда ты просматриваешь интернет, включаешь белый список того кому доверяешь. Весь остальной хлам просто не видешь.

    Ну и конечно было бы круто такие вещи обязать оформлять в тэг «nonhuman» и ставить плашку — «нечеловечески сгенерированный контент».

    Если поймали за читерство — административную ответственность таким Олегам, 5000 гривен за засирание интернета. А хостеру 50 тыс, чтобы не расслаблялся. Вот это была бы история успеха.

    До этого было не пройти, а скоро столько нагенерят, что реально отношений 100 к 1 будет, не продерёшься.


    1. mochila007 Автор
      30.09.2022 16:25

      Рутинную работу с текстами уже давно стоит передать в руки нейросетям. Человек способен на большее, чем просто придумывать рерайты к текстам, создавать заголовки к статьям или описания к товарам в маркетплейсах.


      1. hbn3
        30.09.2022 16:29
        +3

        Человек способен на большее, чем просто придумывать рерайты к текстам
        Деньги за враньё собирать?

        На фотке какая-то синтетическая кофта в полоску, ваш бот врёт:
        Кардиган в клетку. Из шерсти мериноса

        Или на другой фотке, где сидит в каком-то висящем серо-буро-малиновом балахоне:
        Не такой яркий как на фото, более темно-зелёный
        Не в обтяг как на моделе
        Зато написано хорошо, ласково. А то что соврал, это не главное.


        1. mochila007 Автор
          30.09.2022 16:40
          -1

          Если вы будете обучать нейросеть обманывать, то она научится обманывать. Мы же идём другой дорогой и перед обучением проводится подробный анализ данных. Например, при обучении нейросети для генерации заголовка мы выбирали самые кликабельные варианты. Эти данные брались на поведении миллионов пользователей на протяжении нескольких лет.

          Если думаете, что миллионы занимались враньём и пытались как-то повлиять на метрики, то да, наша нейросеть тоже обманывает. Но она будет полезна тем миллионам, которые читают контент в интернете.


          1. hbn3
            30.09.2022 16:45

            то да, наша нейросеть тоже обманывает
            Не мы такие, жизнь такая.
            Но она будет полезна тем миллионам, которые читают контент в интернете.
            Чем полезна?


            1. mochila007 Автор
              30.09.2022 16:55

              Представим, что вы автор статей в каком-то интернет-издании. Вы пишете новостные тексты. Как создать заголовок так, чтобы он был в ТОП-е поисковой выдачи Яндекс и Google и относился к тексту, но на создание не тратить более 5 секунд? Достаточно вставить текст и за 1 секунду получите к нему заголовок, который получит высокий CTR.

              Другой сценарий - работаете копирайтером или рерайтером. Произошло громкое событие, например, выход нового iPhone. Конкуренты вас опередили и уже опубликовали статьи. Но как создать свой уникальный текст на эту же тему, которая подходит тематике интернет-издания? Достаточно просто вставить исходный текст и бот придумает рерайт к нему всего за 3-10 секунд. Сможет ли человек за это время написать текст на 1000+ символов? Нет, а нейросеть сможет.

              Экономит время? Экономит... Подчеркну, что речь не идёт о замене людей. Это лишь помощник, как стиральная машина, посудомойка, пылесос дома.


              1. hbn3
                30.09.2022 17:03

                Вопрос был

                Но она будет полезна тем миллионам, которые читают контент в интернете.
                Чем полезна?

                А вы мне рассказываете как она поможет копирайтерам или рерайтерам горы говна быстро генерить.

                Я не сомневаюсь что сгенерит.

                И это не лично на вас наезд, таких как вы миллион и словами про всё хорошее вас не остановить.

                Вопрос в том что делать и как результаты их высеров поделить на ноль. В своё время спамеров по почте почти победили, вот и вас тоже победят.


              1. imageman
                01.10.2022 20:55

                Пылесос? Нет, это скорее громкий клаксон, который "перекричит" соседнюю машину на перекрестке. И включают такой клаксон все кому ни попадя в любое время суток. :-(


  1. sunsexsurf
    30.09.2022 16:51

    а можно подробнее про архитектуру и то, с чем пришлось столкнуться при сборе датасетов, ну и прочие технические интересности?


    1. mochila007 Автор
      30.09.2022 17:07

      Подробно не могу из-за соглашения NDA, но вот список используемых предобученных моделей:  ruGPT-3, ruT5, BERT, ROBERT, CLIP. Все можно найти в HuggingFace и зафайнтюнить на своих данных, предварительно написав код для файн-тюнинга.

      Проблемы при сборе датасетов - это отсутствие датасетов. Например, для обучения модели рерайтов текста не просто по предложениям, а по всему тексту, пришлось заморочиться и создать десятки тысяч пар текстов, а это финансово и времязатратно. Иногда на сбор датасетов уходило больше времени, чем на сам код и обучение моделей. Второй проблемой в датасетах является типичная задача определения качественных данных. Для этого разработаны собственные метрики для фильтрации текстовых данных по признаку "плохой" и "хороший" под конкретную задачу.

      Ряд технических деталей из-за того же NDA не могу раскрыть, но на курсах Python-разработки о некоторых часто упоминается.


  1. vtal007
    03.10.2022 10:34

    Поскажите. Допустим у меня есть заголовок, заголовки второго уровня (собрал через вордстат, например).
    хочу целую статью? можно ли реализовать этот через бота? и как