Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Чем рерайт отличается от парафраз

В широком смысле перефразирование текста означает переписать текст так, чтобы новый текст отличался от старого по написанию, но был идентичен по смыслу. При этом в идеале новый текст должен выглядеть естественно и по стилю не отличаться от оригинала, иначе мы перейдем в задачу style transfer.

Огромное количество работ посвящено непосредственно задаче парафразинга для русского языка на уровне предложений. Есть множество датасетов, таких как:

  • Paraphraser Plus

  • корпус парафраз, собранных Давидом Дале;

  • корпус парафраз из новостных заголовков, собранный Екатериной Пронозой;

  • корпус парафраз-заголовков, собранный командой Вадима Гудкова.

    И это далеко не весь перечень.

На базе этих корпусов есть также обученные модели в том числе на основе ruT5 и ruGPT3 (например, несколько моделей находятся в библиотеке russian_paraphrases, или например мультитасковая модель). Все эти модели довольно неплохо справляются с задачей перефразирования. Но всё равно есть проблемы с искажением смысла, где-то подобраны антонимы вместо синонимов, бывают некорректные конструкции при генерации и многое другое.

Кажется, что задача перефразирования спокойно переносится с уровня предложения на уровень текстов. Ведь что мешает просто разбить текст по предложениям и запустить парафразер? Рассмотрим пример:

Оригинал: На столе перед девушкой стоит прекрасная бутылка риохи. Она медленно пьет красную жидкость из бокала.

Генерация на уровне предложений (использована модель cointegrated/rut5-base-multitask Давида Далли):

  • На столе перед девушкой стоит прекрасная бутылка Риохи.

  • В столе перед девушкой стоит прекрасная бутылка риохи.

  • Для девушки перед столом стоит прекрасная бутылка раохи.

  • Она медленно пьет красную жидкость из бокала.

  • Он медленно пьет красную жидкость из бокала.

  • Она медленно пьет красную пищу из бокала.

Генерация на уровне параграфа:

  • Девушка сидит за столом и с удовольствием пьет красное вино из бокала.

  • На столе перед девушкой стоит восхитительная бутылка риохи, и девушка медленно пьет ее из бокала.

  • На столе стоит прекрасная бутылка риохи, она медленно пьет красную жидкость из бокала.

Мы видим, что в рамках одного предложения можно найти корректный парафраз. Однако, если объединить таким образом предложения, особенно в которых детали переписаны некорректно, связность текста будет утеряна. В то время как генерация на уровне параграфа позволяет объединять предложения или, учитывая контекст, дать понимание модели, что красная жидкость — это вино.

С точки зрения лингвистики происходит переход с уровня семантики на уровень прагматики, когда контекст увеличен и влияет на значение текущего предложения. Парафразер смотрит лишь на лексические и грамматические признаки слов, но обработка текста целиком ​​охватывает помимо чистой семантики такие явления как импликатура, диалоговые акты, релевантность, связи между предложениями. Если мы скармливаем модели текст по кусочкам, мы теряем огромное количество информации и возможность обучить модель учитывать контекст и дискурсивные особенности языка.

Поэтому в работе мы умышленно ставили задачу сделать сервис, который работает с текстами более одного предложения. Наша модель рерайтера умеет переписывать текст другими словами, сохраняет смысл исходного текста и при этом работает с последовательностями разной длины и доменов. Так, нами тестировались тексты новостей, художественной литературы, комментарии из социальных сетей, как совсем короткими (около 10 символов), так и длинными (около 2000 символов).

Как мы обучали и на чём

Для обучения мы специально выбирали тексты как разной длины, так и из разных доменов, так как для качественного работающего сервиса нам необходимо было учитывать различные тексты с прицелом на разнообразие целевых задач (контент сайтов, новости, отзывы, диалоги и многое другое).

Данные для обучения можно разделить на блоки:

  • уровень текстов:

    • готовые произведения разных авторов, переведённые с одних языков на другие #худлит;

    • back translation текстов разных доменов (в статье Давида справедливо описан потенциал автоматического перевода, мы взяли несколько текстов, перевели их моделью https://huggingface.co/Helsinki-NLP/opus-mt-en-ru и отфильтровали по Bertscore и Rouge-L)  #отзывы/комментарии  #разговорное;

    • тексты, размеченные вручную нашими редакторами #худлит #новости #отзывы/комментарии.

  • уровень предложений:

    • tapaco (русскоязычная часть, отфильтрованная по длинам) #разговорное;

    • ParaphraserPlus (отфильтрованные предложения по Bertscore и длине) #новости;

    • предложения разных авторов, переведённые  с одних языков на другие языки (выравнивали предложения и фильтровали по автоматическим метрикам)  #худлит.

Лайфхаки сбора данных для рерайтинга:

  • Так как мы хотим получить решение для рерайтинга, а не суммаризации или симплификации (упрощение текстов, подробнее для русского можно почитать тут), нам очень важна длина текстов. Хороший хинт в этом случае, это обучать пары (оригинальный текст → целевой текст) в обе стороны! В таком случае модель не обучится всегда делать текст короче или наоборот длиннее. При этом количество примеров в обучении у вас увеличится.

  • Переводы позволяют получить тексты разных доменов. В простых случаях фильтруются автоматическими метриками.  

  • Очень часто текст всё равно при переводе или какой-либо автоматической обработке текстов искажается. Мы советуем перепроверять разметку, если у вас есть возможность, с помощью краудсорсинга – чтобы потом использовать данные, например для классификатора. Часть данных, особенно парафраз, мы тщательно проверяли на несоответствия. В том числе классические случаи в датасетах типа, «Я съела сыр» → «Я поел сыр», когда меняются род или местоимения, хотя смысл действия по сути тот же.

Всего собранных и отфильтрованных данных — около 7000 примеров. На полученном корпусе с помощью модели ruT5-large мы обучили наш рерайтер.

Классификатор

В процессе сбора данных, экспериментов с парафразами и рерайтом, а также краудсорсинговой оценки пар [оригинальный текст - сгенерированный] мы получили около 11 тысяч примеров для бинарной классификации. Обучив на этих данных Roberta-large, мы получили модель-ранжировщик, которая решает задачу детекта парафраз. Благодаря данной модели в демо-рерайте можно выбрать из множества сгенерированных кандидатов наиболее релевантный вариант.

На тестовом сете из разных текстовых доменов (брались тексты из социальных медиа (SocMedia), литературы (Literature), новостей (News) и отзывов (Reviews), а также отфильтрованные перефразированные предложения) мы замерили сгенерированные рерайтером примеры. Генерировали методом random sampling (параметры генерации top_p=0.90, temperature=0.95, repetition penalty=1.5), из пяти примеров классификатором выбирался лучший. 

Для пар [оригинальный текст - сгенерированный текст] мы посчитали автоматические метрики:

  • Mean Bleu — средняя оценка по всем текстам метрики BLEU (BLEU-1).

  • Mean Rouge — средняя оценка по всем текстам метрики ROUGE(ROUGE-L).

  • Bert score — средняя оценка по всем текстам метрики BertScore.

  • Mean LABSE score – средняя оценка по всем текстам метрики LABSE.

  • Sentence repeat — процент предложений, схожих с оригинальным текстом.

BERTscore

Rouge-L

Bleu

LABSE

Sentence repeat

0.77

0.42

0.15

0.852

0.019

Каким образом производилась человеческая оценка рерайтера?

Для человеческой оценки рерайтера мы просили краудсорсеров оценить следующие параметры текста, получившегося в результате работы модели:

Интерфейс задания для оценки задачи рерайтинга
Интерфейс задания для оценки задачи рерайтинга

Grammar — грамматичность текста с точки зрения правил русского языка (орфография, пунктуация, согласование).

Originality — есть ли повторы в сгенерированном тексте, насколько текст оригинальный по сравнению с исходным.

Meaning — верно ли передан смысл исходного текста, если нет, то почему.

Полученная человеческая оценка модели с разным типом выбора кандидата (среднее по текстам разных доменов): 

Метод ранжирования

Grammar

Meaning

Originality

классификатор

0.92

0.64

0.92

bertscore

0.92

0.74

0.87

Оценка по различным доменам (способ ранжирования — bertscore):

Metric

Reviews

Literature

SocMedia

News

Grammar

0.94

0.81

0.95

1.0

Originality

0.16

0.05

0.2

0.11

Meaning

0.77

0.54

0.77

0.88

Как попробовать рерайтер в действии?

Демо Рерайтера, а также Суммаризатора текстов доступны в виде AI Service  — деплоя, развёрнутого на платформе SberCloud ML Space.
Что это значит? Это бесплатные, развёрнутые в открытый доступ демо с привычным интерфейсом SWAGGER и возможностью отправки запросов по REST API. 

Выбор в интерфейсе AI Services сервиса Рерайт.
Выбор в интерфейсе AI Services сервиса Рерайт.

Для использования демо сервисов необходимо перейти в каталог AI Services на cайте SberCloud и выбрать «Рерайтер» или «Суммаризатор» — по кнопке «Подключить» появится доступ в интерфейс Swagger, с которым можно взаимодействовать. Вы также можете получитьтестовый доступ к платформе ML Space  для запуска промышленных версий сервисов и всей подборки ruGPT-3 & family, включая эксклюзивные ruDALL-E, ruGPT-3 и ruCLIP, на высокопроизводительной инфраструктуре SberCloud.

Базовое использование модели в AI Service подразумевает работу с уже обученной моделью в режиме инференса. Модель умеет переписывать переданный текст. На вход подаётся оригинальный текст с настраиваемыми параметрами генерации, рерайтер генерирует кандидатов, выбирает лучшего и возвращает финальный результат.

Чтобы в интерфейсе Swagger попробовать сервис 
нажмите на кнопку “Try it out”
Чтобы в интерфейсе Swagger попробовать сервис нажмите на кнопку “Try it out”
Напишите в открывшемся поле текст. Также можно указать параметры. Далее нажмите Execute.
Напишите в открывшемся поле текст. Также можно указать параметры. Далее нажмите Execute.
Если всё прошло успешно, вы увидите код 200 и результат ниже.
Если всё прошло успешно, вы увидите код 200 и результат ниже.

Входные параметры инференса для рерайтера:

  • text — оригинальный текст для переписывания;

  • temperature — параметр температуры текста для генерации;

  • top_k — параметр top_k текста для генерации;

  • top_p — параметр top_p текста для генерации;

  • num_return_sequences — количество примеров, из которых выбирается лучший рерайт, по умолчанию 5;

  • range_mode — выбор метода ранжирования.

Для более разнообразных примеров можно варьировать параметры top_p, top_k, temperature. Чем больше примеров вы зададите в параметре num_return_sequences, тем больше шансов, что один из вариантов ранжирования выберет наиболее успешный.

Выходные параметры инференса для рерайтера выглядят следующим образом — возвращается словарь с полями:

  • predictions_all — все перефразированные варианты текста, которые проходят внутренние проверки;

  • prediction_best — лучший сгенерированный вариант по методам ранжирования (bertscore, классификатор);

  • origin — оригинальный текст.

Примеры рерайта

Запрос:
Текст: «Режим нерабочих дней, по заключениям экспертов, может прервать цепочку заражений коронавирусом.»
Параметры: temperature: 0.9, top_k: 50, top_p: 0.7, range_mode: bertscore.

Результат

Все результаты (predictions_all): "По прогнозам экспертов, нерабочие дни могут прервать цепочку заражений коронавирусом.", "Эксперты: Режим нерабочих дней может остановить цепочку заражений коронавирусом.",

"Власти рассчитывают остановить цепочку заражений коронавирусом в России.", "Эксперт назвал возможные причины отмены режима нерабочих дней.", "Эксперты полагают, что режим нерабочих дней может прервать цепочку заражений коронавирусом.";

Лучшие результаты (prediction_best): 'bertscore' – 'По прогнозам экспертов, нерабочие дни могут прервать цепочку заражений коронавирусом.'

Запрос:
Текст: «Я так хочу на свою работу, так её люблю!»
Параметры: num_return_sequences: 10.

Результат

Все результаты (predictions_all): 'Я так хочу быть на своем месте, такая она мне нравится!', 'Я так хочу работать, люблю!', 'Я так хочу на работу, я её люблю!', 'Я так хочу на работу, я ее люблю!', 'Я так хочу на свою работу, я её люблю!', 'Я так хочу, чтобы моя работа была моей работой ', 'Я так хочу на свою работу, что безумно её люблю!', 'Я так хочу на свою работу, я её очень люблю!', 'Я так хочу на свою работу, что меня это не останавливает!', 'Я так хочу на свою работу, мне её не хватает!'; 

Лучшие результаты (prediction_best): 'bertscore' – 'Я так хочу на работу, я её люблю!', 'classifier' – 'Я так хочу на свою работу, я её очень люблю!'

В заключение

Мы провели множество экспериментов с нашими генеративными моделями, которые показали, что их можно использовать для решения практических задач. 

Напомним про преимущества наших полученных продуктов:

  1. созданы на основе наших последних разработок и экспериментов с генеративными моделями;

  2. сервисы умеют обрабатывать тексты из разных доменов, подходят для разных целевых заказчиков и кейсов;

  3. в период бета-версии демоверсиями сервисов можно пользоваться бесплатно в маркетплейсе AI Services.

Мы будем рады, если вы попробуете использовать наши демо-рерайтер и демо-суммаризатор и вернётесь к нам с фидбеком и предложениями по улучшению.

Комментарии (22)


  1. nerudo
    26.05.2022 11:01
    +6

    Весь интернет уже убит этими вашими рерайтами. Давайте теперь Достоевского туда загрузим.


    1. alenusch Автор
      26.05.2022 12:55
      +2

      С появлением генеративных моделей действительно выходит множество решений для задач копирайта и различной работы над текстами, в том числе потому, что на сервисы есть спрос, они облегчают жизнь людям, работающих с текстами.
      Со своей стороны, как авторы опенсорсных моделей ruGPT3, мы разумеется также развиваем данное направление и прототипы в области NLP. Внутри нашей компании есть запрос от коллег на такие сервисы, но мы рады поделиться с комьюнити нашими наработками. Сервисы Рерайта и Суммаризатора доступны сейчас в бета версии бесплатно, и комьюнити может тестировать их. Мы открыты к вашим идеям и будем рады вашему фидбеку. В том числе, например мыслям, как можно было бы улучшить обработку домена классических художественных текстов


      1. edo1h
        27.05.2022 02:20
        +1

        в том числе потому, что на сервисы есть спрос, они облегчают жизнь людям, работающих с текстами.

        на оборудование для угонов автомобилей тоже есть спрос, и оно тоже облегчает жизнь некоторым людям


      1. mentin
        27.05.2022 03:01

        А кому это помогает, были бы интересны примеры.

        А то моему больному воображению ничего кроме борьбы с диссернетом не приходит в голову. Но надеюсь есть и полезное применение.


        1. edo1h
          27.05.2022 04:36
          +1

          Но надеюсь есть и полезное применение.

          копирайтинг же. миллион статей в интернете от авторов, не представляющих о чём они пишут.
          и на хабре есть примеры.


          самое неприятное в этом (на пару с seo), что в потоке копирайтерского… гхм… продукта теряется стоящая информация.


        1. alenusch Автор
          27.05.2022 11:19

          Есть спрос от редакторов, копирайтеров, кто работает с текстами и у кого много однотипного monkey job
          Есть множество применений научных, ведь не секрет, что данные в наше время это золотая жила и основа всех ml систем. На чем обучали, то и выходит. С этой точки зрения рерайтеры и парафразеры очень помогают для аугментации данных или их также используют для различных трансформаций и адверсариальных атак на большие языковые модели, чтобы проверить их робастность


  1. pehat
    26.05.2022 11:49
    +2

    Отлично, если есть инструмент для перефразирования, значит, есть и инструмент для измерения идентичности двух перефразированных текстов. Как только его прикрутят к поисковикам - индустрия рерайтинга накроется медным тазом.


    1. alenusch Автор
      26.05.2022 12:24
      +2

      Есть множество метрик оценки сходства смысла пар текстов, например мерить через косинусную близость их эмбеддингов LaBSE https://huggingface.co/cointegrated/LaBSE-en-ru. В том числе в нашем сервисе есть классификатор, который также мерит сходство текстов, после чего выдает вариант наиболее приближенный к оригиналу.
      Подходить к задаче можно с разных сторон, но это естественное продолжение исследований в области автоматического парафраза и рерайта текста, а как следствие - развитие индустрии и бизнеса


  1. uhf
    26.05.2022 11:54
    +2

    Другими словами, Сбер предоставляет платный сервис для SEO-спамеров.


  1. FIZIK-TECHNIK
    26.05.2022 15:17
    +1

    Полезная штука для борьбы с тупостью программы Антиплагиат, которая ссылку на самого себя считает плагиатом. А еще мне нравится фича, когда Антиплагиат указывает "неизвестный источник", при этом снижая процентность оригинала.


    1. SerjV
      27.05.2022 01:45

      Эта же мысль возникла еще после прочтения заголовка статьи, а уж когда саму статью прочёл...


  1. NumLock
    26.05.2022 15:47
    +1

    Рерайт-сервис это золотая жила при правильном использовании. Большинство не усваивает информацию только из-за того, что она написана "неправильными" словами. Мозг отказывается воспринимать информацию, где над каждым словом надо думать что оно означает. Это одна из основных причин прокрастинации. Адаптирование информации можно использовать везде. В высокоразвитом обществе, к которому люди стремятся, это будет незаменимом помощником для быстрого восприятия информации. А чем личность больше "вооружена" информации, тем успешнее она в обществе. Следовательно и более эффективно общество.
    Счастье - это когда тебя понимают(с).


    1. FreeRusland
      26.05.2022 18:42
      +2

      Прям с ваших слов волшебная пилюля. Был оригинальный текст, смысл сложно понять, много слов неизвестно человеку, а тут раз и простыми словами якобы доступно изложит и суть не потеряет. :-D

      Вместо изучения значений новых, непонятных слов и саморазвития, проще объявить эти слова "неправильными" (где-то уже видел подобное), Эллочка-людоедка была всё-таки гением, человек-рерайт-сервис потенциальный прям))) про причину прокрастинации тоже весёлый вывод получается.

      Плюс мало иметь много информации, необходимо её ещё уметь понимать/осмысливать и уметь правильно применять, придётся и для этого сервисы придумывать? Может пора списывать человека уже тогда, зачем он в таких цепочках? :-D

      "Следовательно и более эффективно общество." цели рерайта весьма прозаичней всё-таки...


      1. NumLock
        26.05.2022 20:47

        Прям с ваших слов волшебная пилюля. Был оригинальный текст, смысл сложно понять, много слов неизвестно человеку, а тут раз и простыми словами якобы доступно изложит и суть не потеряет. :-D

        Проведите эксперимент. Найдите глубоко профильную книгу по любой специальности с большим изобилием терминов. Откройте где нибудь в середине. Почитайте минут 10. Попробуйте "переварить" прочитанное.
        В принципе рерайт-сервис не что то нечто новое. Есть серии книжек "для дураков" "за 24 часа" и т.д которые использовали подобные трюки. Здесь разговор о том, что АИ это будет делать по индивидуальному заказу из любого текста. При чём его можно будет профилировать на объём знаний слов индивидуума. На что натренирована его внутренняя мозговая сетка.

        Вместо изучения значений новых, непонятных слов и саморазвития, проще объявить эти слова "неправильными" (где-то уже видел подобное), Эллочка-людоедка была всё-таки гением, человек-рерайт-сервис потенциальный прям))) про причину прокрастинации тоже весёлый вывод получается.

        Любой выход из зоны комфорта вызывает негативные чувства. Что является одной из причин прокрастинации. На изучение новых терминов требуется мозговая активность. Надо потратить ресурсы. Если термины не в обиходе человека, то новость пройдёт мимо ушей. Рекламщики и пиарщики хорошо об этом знают. Обьём используемых слов у человека ограничен.

        Плюс мало иметь много информации, необходимо её ещё уметь понимать/осмысливать и уметь правильно применять, придётся и для этого сервисы придумывать?

        Смысл даже не том, что Вы перечислили. Важна скорость восприятия информации. Чем быстрее она будет воспринята, тем больше возможностей. В одной части мира это деньги. Время - деньги (с). В другой - положение в иерархии с получением привилегий. Кто раньше встаёт - того и тапки(с).

        Может пора списывать человека уже тогда, зачем он в таких цепочках? :-D

        Человечество давно использует механизмы для передвижения на большие расстояния. Никто человека на механизмы пока не заменил.

        "Следовательно и более эффективно общество." цели рерайта весьма прозаичней всё-таки...

        Отличная черта успешных людей заключается в том, что они видят возможности там где никто об этом даже и не думал. Наверное это из-за того, что они когда то не пропустили полезную информацию мимо своих ушей.


        1. FreeRusland
          26.05.2022 21:57

          Проведите эксперимент. Найдите глубоко профильную книгу по любой
          специальности с большим изобилием терминов. Откройте где нибудь в
          середине. Почитайте минут 10. Попробуйте "переварить" прочитанное.

          И часто в жизни возникает такая потребность?

          Простите, но теряем логическую цепочку. В статье явно прописаны цели данного сервиса, "Рерайтинг используется, чтобы избежать обвинений в нарушении авторского права. Услуга востребована в связи с лавинообразным ростом в интернете числа
          новых сайтов и потребностью в наполнении контентом уже имеющихся.", Википедия. Это не про высокие цели или обучение людей, это просто для быстрого и безопасного извлечения прибыли, где качество явно не на первых местах. Вряд ли в сегодняшнем виде его получится так использовать как Вы предлагаете. Ещё более непонятным станет текст, так как подбор синонимов для сложных слов будет менее эффективным, значит и качество ниже, исходя из приведённых в статье примеров. Скорость восприятия информации и рерайтинг-сервис думаю из разных сфер. Много сайтов, лишь бы наполнить, не просто найти оригинальный и адекватный контент. А донесение информации в доступном виде, больше про преподавателей, которые получают сразу обратную связь от обучаемого.

          Любой выход из зоны комфорта вызывает негативные чувства. Что является
          одной из причин прокрастинации. На изучение новых терминов требуется
          мозговая активность. Надо потратить ресурсы. Если термины не в обиходе
          человека, то новость пройдёт мимо ушей. Рекламщики и пиарщики хорошо об
          этом знают. Обьём используемых слов у человека ограничен.

          Про выход из зоны комфорта, наверное стоит добавить мотивации и дело пойдёт веселее. Устранить все негативные чувства разве возможно/нужно? А рекламщики явно не прогоняют в эфире огромные тексты или сложные термины. Зачем они массам и за цену эфирного времени?

          Человечество давно использует механизмы для передвижения на большие расстояния. Никто человека на механизмы пока не заменил.

          Лошадь заменена была более современными транспортными средствами, инструментами скажем так для передвижения. Вот если человек сам не может принять и освоить информацию, то наверное его как лошадей в определённой сфере стоит заменить на сервис вымышленный пока вами, который будет это делать намного эффективней.

          Отличная черта успешных людей заключается в том, что они видят
          возможности там где никто об этом даже и не думал. Наверное это из-за
          того, что они когда то не пропустили полезную информацию мимо своих
          ушей.

          А не пропустили и увидели возможность, так как имели интерес/мотив ранее, что и помогло им путём постоянных размышлений на эту тему осваивать материал самостоятельно с помощью имеющихся инструментов. Рерайт-сервис явно пока не про это.


          1. NumLock
            26.05.2022 23:19

            Простите, но теряем логическую цепочку. В статье явно прописаны цели данного сервиса, "Рерайтинг используется, чтобы избежать обвинений в нарушении авторского права. Услуга востребована в связи с лавинообразным ростом в интернете числа новых сайтов и потребностью в наполнении контентом уже имеющихся.", Википедия. Это не про высокие цели или обучение людей, это просто для быстрого и безопасного извлечения прибыли, где качество явно не на первых местах.

            В принципе это небольшое лукавство. Это так видят авторы статьи или журналисты у которых были позаимствованы эти мысли. Рерайт сервис это новая технология соизмеримая с распознаванием изображений с помощью глубокого обучения. Эта технология приносит деньги за счёт большого спроса. К примеру если динамическая реклама принесёт рост прибыли на 10% больше других, то она обязательно будет проплачена. Если политик получит из-за этого сервиса перевес в те же 10% голосов, он обязательно заплатит. И так далее. Конечно появятся и "пустые" интернет страницы и сервис по обману индивидуальности дипломных и научных работ. Если это приносит легальные деньги, почему бы и нет?

            И часто в жизни возникает такая потребность?

            Всё зависит чем человек занимается. По моему у программистов это чуть ли не каждый день.

            Про выход из зоны комфорта, наверное стоит добавить мотивации и дело пойдёт веселее. Устранить все негативные чувства разве возможно/нужно?

            В нашем мире всё стоит денег или ресурсов. Тут уж что дороже мотивация или проплаченый сервис.

            А рекламщики явно не прогоняют в эфире огромные тексты или сложные термины. Зачем они массам и за цену эфирного времени?

            Не задумывались почему? Дело даже не в эфирном времени. Есть реклама созданная бездарными компаниями, которая не "цепляет". Оторванная от контекста потребителя. Рерайт сервис как раз сможет исправить эту проблему. А с учётом форумов, чатов и соц, сетей - это золотое дно.

            Вот если человек сам не может принять и освоить информацию, то наверное его как лошадей в определённой сфере стоит заменить на сервис вымышленный пока вами, который будет это делать намного эффективней.

            Именно полезная информация. Читая новости на телефоне никто же не думает в это время о том как он работает, как происходит связь между телефоном и провайдером. Какая частота и какой протокол используется, и т.д и т.п. Это всё информация. Человечество давно эволюционировало от пещерного общинного строя до сложного профлированого общества. Соответственно для донесения информации до более широкого круга требуется информационные агентства переводящие профильный язык от одной группы лиц к другой. К примеру научно-популярные журналы. Сеть журналистов, переводящие научный язык в обиходный для широких масс. Сейчас АИ будет делать тоже самое, но в более близкой форме к каждому индивидууму.

            А не пропустили и увидели возможность, так как имели интерес/мотив ранее, что и помогло им путём постоянных размышлений на эту тему осваивать материал самостоятельно с помощью имеющихся инструментов. Рерайт-сервис явно пока не про это.

            С Ваших слов получается Цукерберг, Брин, Бейзос, Маск ещё в утробе матери думали как бизнес получше состряпать, который они выстроили сейчас. Похоже на конспирологию. Думаю, они в своём понимании идеи видели более грандиозную картину, чем другие. И воплощали её в жизнь как художник рисующий картину на холсте. А чтобы представить такую картину, требуется информация полученная от других источников. И самое главное воспринятая. Рерайт сервис как раз упрощает этот процесс.

            ......

            Рерайт сервис будет не только упрощать усвоение информации но и воспитывать с определённым видением мира. Так как у некоторых обязательно появится соблазн использовать его в политике. А там где политика, т.е установление своих правил - там и деньги.


            1. FreeRusland
              27.05.2022 00:01

              В данной статье у технологии явно другие цели, возможности и вероятные перспективы в обозримом будущем, сейчас результат явно не тот. Помочь лучше понять вряд ли получится с помощью рерайт-сервиса или проще будет вникать самому. А упрощение (сокращение?) вроде к суммаризатору.


              1. NumLock
                27.05.2022 00:57

                Используется рекуррентная сетка. Написать которую сможет любой мидл программист знакомый с АИ фреймворком. Тем более уже не с нуля, так как на гитхабе уже есть исходники. Скорее всего бум таких сервисов не за горами. Менее пары лет. Главное чтобы не тормозили эту идею как дипфейк.


              1. alenusch Автор
                27.05.2022 11:23
                +1

                Для упрощения текстов есть инструменты симплификации! Суммаризатор выделяет главное в тексте, а симплификатор упрощает текст, делает его более читаемым, повышает так называемые метрики readability.
                Можно почитать например, вот тут https://www.dialog-21.ru/evaluation/2021/rusimplesenteval/ для русского языка было даже соревнование таких систем


        1. DaneSoul
          27.05.2022 05:00

          Найдите глубоко профильную книгу по любой специальности с большим изобилием терминов. Откройте где нибудь в середине. Почитайте минут 10. Попробуйте «переварить» прочитанное.
          Профильная книга по специальности предполагает, что человек ее изучающий имеет определенную базу в этой специальности, которая позволяет понимать написанное. И эта база не только знание терминологии, но и понимание того, что она описывает.
          Заменив терминологию простыми словами при таком рерайте можно получить совершенно не верный смысл, или в теории верный, но все равно не понятный, так как без базы в специальности не понятна сама суть описываемого.
          Есть серии книжек «для дураков» «за 24 часа» и т.д которые использовали подобные трюки.
          Эти книги изначально пишутся для аудитории начинающих, и основная их задача не термины перефразировать, а кратко объяснить суть от самых основ. И умение объяснять просто сложные вещи — это отдельный педагогический навык, который рерайтом не заменишь.


  1. alexeihei
    26.05.2022 18:38

    Ну для второстепенных задач точно подойдет. Опять же, нужно смотреть на реакцию ПС, как выше было сказано.


  1. Markscheider
    27.05.2022 15:45
    +1

    Раз в полгода (или чаще, если требуется по работе) забиваю в гугле "синонимайзер", открываю пяток сервисов, заливаю туда один текст, потом смотрю - во что его превратили алгоритмы. Закуриваю, выпиваю кофе и с удовольствием осознаю, что роботы-редакторы не скоро заменят кожаных мешков. Ибо обработанный текст вообще ни на что-то вменяемое не похож, и даже творения школоло-копирайтеров по сравнению с ним - шедевр.

    Вышесказанное не относится к описаным в статьям алгоритмам и моделям. Возможно, Сбер придумал что-то более совершенное и я скоро лишусь работы... :)