Появление промышленных генераторов литературного контента (ГЛК) связано с успехами в создании алгоритмов синтеза и обработки текстовой информации на основе методов ИИ. После многих десятилетий научных исследований, в начале 2010-х гг. почти одновременно несколько конкурирующих исследовательских групп вывели на рынок свои первые промышленные системы ГЛК. Сегодня же использование роботов в финансовой журналистике уже никого не удивляет.

Одним из лидеров в этом секторе является американская компания Narrative Science (см. на ХАБРе за 2011 г.). Её первый коммерчески успешный ГЛК получил название Quill. Сама компания была создана в 2010 г. в рамках эксперимента Северо-Западного университета (США) по машинной трансформации отчетов о бейсбольных матчах в статьи традиционного формата, привычные для спортивной прессы. В 2011 г. ей удалось привлечь первые $6 млн. инвестиций для изучения технологий машинного написания статей. В 2013 г. привлекли еще $11,5 млн. на продолжение работ. В 2017 г. программные версии Quill уже были способны генерировать новостные статьи, финансовые отчеты компаний и даже заголовки статей без участия человека.

В 2020 г. году компания вывела на рынок новый продукт под названием Lexio. Любопытно, что если Quill превращал данные пользователя в «Ваш любимый дэшборд», то Lexio, наоборот, «…больше не заставит Вас продираться через дэшборды и вникать в таблицы». Это связано с тем, что, как выяснилось, дэшборды уже порядком поднадоели клиентам, и они хотят читать обычный «человеческий» текст. Оба продукта пользуются популярностью, т.к. их производительность многократно превышает возможности человека.

Narrative Science предоставляет свои ГЛК в аренду главным образом корпоративным клиентам, которым необходимо генерировать финансовые отчеты объемом 10-15 страниц на основе актуальной информации. Как правило, подготовка такого отчета человеком-специалистом занимает 2-3 недели. Производительность Quill и Lexio, при прочих очевидных преимуществах, составляет миллионы слов в день. Постоянными клиентами Narrative Science являются Forbes, Credit Suisse, Groupon, T. Rowe Price, ASAA и еще около 70 компаний.

Стоимость генерации текста с помощью продуктов Narrative Science зависит от типа статьи, который, в свою очередь, базируется на интерпретации конкретного набора данных. Компанией получено 45 патентов США на изобретения систем и методов ГЛК, и еще 45 патентных заявок находятся в стадии рассмотрения. Основная часть НИОКР была выполнена при грантовой поддержке Национального научного фонда США.

Следующая технология, которую разработала для себя компания Washington Post, получила название Heliograf. За последние годы опубликованы десятки тысяч статей, написанных с помощью этого ГЛК. Heliograf способен генерировать новостные, финансовые и подобные им отчеты, и даже посты для социальных медиа. Услуги по использованию технологии Heliograf компания Washington Post предоставляет через специализированную платформу Arc Publishing. Руководитель информационного подразделения компании сообщил в прессе, что доходность от использования Heliograf в годовом исчислении составляет (умопомрачительные) 60% - 80%.

Еще одну технологию Wordsmith (в буквальном переводе – «словесная кузница»), созданную компанией Automated Insight, успешно осваивает The Associated Press (АР) – одна из старейших новостных сетей США. По сообщениям самой АР, производительность Wordsmith также является очень высокой. Тем не менее, этот генератор пока не может работать в полностью автономном режиме. Для получения нужного результата оператор должен:

- ввести исходные данные в программу и задать ей несколько информационных «опорных точек»;

- составить (или выбрать готовый) шаблон статьи;

- проверить и отредактировать предварительный вариант вёрстки текста;

- прямо из приложения отправить статью в публикацию.

Таким образом, оператор, по сути, должен создать свои правила, шаблон статьи и некоторые опорные точки. В результате такой полу-ручной работы удается получить довольно высокое качество текста. Приложение Wordsmith способно работать на двадцати языках и продолжает быстро развиваться. Инвесторами компании Automated Insight стали крупные игроки рынка, включая Microsoft, Yahoo!, Samsung, Comcast, и другие.

Стоимость программного обеспечения ГЛК в среднем пока достаточно высока. Однако с выходом на рынок множества конкурентных разработок цены на такие продукты неизбежно снижаются. Судя по темпам внедрения научных разработок в этой сфере, в скором времени ГЛК бут доступны в такой же степени, как современные текстовые редакторы MS Office или Adobe Acrobat.

Прочие крупные игроки рынка финансовой информации также раскрыли сведения об использовании роботов. В частности, оказалось, что уже почти треть публикаций медиагиганта Bloomberg News готовится с использованием собственной системы ИИ, получившей название Cyborg. Так же, как Wordsmith, эта система используется репортерами при подготовке тысяч корпоративных финансовых отчетов, помогая Bloomberg News в нелегкой конкурентной борьбе с агентством Reuters, а также с новыми участниками информационной гонки – продвинутыми хедж-фондами, которые также используют системы на базе ИИ для поставки свежих новостей и аналитики своим клиентам.

Наконец, компания Forbes недавно сообщила, что тестирует собственную систему Bertie, которая помогает журналистам с написанием черновых вариантов и шаблонов статей.

Влияние ГЛК на фондовый рынок

Количественная оценка степени воздействия ГЛК на фондовый рынок представляет большой научный интерес. Собственно, как таковой, эффект этого воздействия был обнаружен после того, как с помощью ГЛК была кратно увеличен охват финансовой аналитикой компаний, которым до появления ГЛК банально не хватало внимания бизнес-прессы. Например, одна только новостная сеть AP, используя программную платформу Wordsmith, увеличила покрытие с 370 обычно публикуемых квартальных отчетов достаточно крупных фирм, до 4 тыс. отчетов, включая прочие фирмы среднего и малого бизнеса. Естественно, что это произошло не мгновенно – процесс расширения покрытия продолжался поэтапно с начала 2014 г. до конца 2015 г. Кроме этого важно, что в сети АР все статьи синхронно перепечатываются множеством партнеров, что существенно усиливает эффект их публикации.

Безусловно, все эти фирмы не были новыми, но детальная информация о результатах их деятельности, наконец, попала в руки инвесторов, биржевых аналитиков и консультантов, которые раньше не имели ее перед глазами в нужное время и в нужном объеме. В итоге, как подтвердили углубленные статистические исследования, ценные бумаги фирм, получивших с помощью ГЛК доступ в бизнес-прессу, значительно улучшили биржевые показатели ликвидности и объемов торговли.

Нельзя не отметить, что ранее проводились подобные исследования степени влияния обычных средств массовой информации, включая бизнес-прессу, на поведение инвесторов и фондовый рынок [1]. Также проводились исследования отдельных аспектов такого воздействия, например, влияние на быстроту раскрытия цены бумаг [2].

Для исследования влияния ГЛК были специально отобраны 2268 публичных фирм, которые до 2014 г. вообще не фигурировали в регулярной бизнес-прессе [3]. Авторы исследования выдвинули гипотезу о том, что медиа покрытие должно увеличить объемы торговли ценными бумагами (оборот) как за счет дополнительного привлечения внимания инвесторов, так и за счет снижения издержек на обработку информации. Идея здесь заключалась в том, что самостоятельное извлечение информации слишком трудоемко, поэтому массовый инвестор не идет на такие затраты и работает с узким кругом известных ему ценных бумаг. Поэтому больший поток информации должен был привлечь больше внимания к бумагам фирм, попавших в выборку.

Оказалось, что объемы торговли ценными бумагами фирм выросли в среднем на 11%, что очень существенно для фондового рынка. Этот рост происходил монотонно в течение нескольких кварталов. В то же время внедрение ГЛК не отразилось, например, на показателе быстроты раскрытия цены бумаг. В целом же исследование позволило получить представление о возможностях применения технологий ИИ и автоматизации в информационном посредничестве. Кроме того, быстрое внедрение ГЛК позволило преодолеть определенный кризис в бизнес-прессе, вызванный ростом издержек (особенно на оплату труда журналистов-аналитиков) и снижением доходности в отрасли, что привело к уходу с рынка ряда агентств. В связи с этим авторами исследования сделан вывод об очень хороших перспективах дальнейшего совершенствования алгоритмов генерации, расширения их использования и повышения качества.

Безусловно, ГЛК пока не способны создавать концептуальные статьи, интервью, большие литературные формы. Их рыночная ниша – короткие тематические статьи и (преимущественно) отчеты – новостные, биржевые, корпоративные финансовые, спортивные. Такие тексты машина генерирует на основе тщательно структурированных и подготовленных особым образом данных. Основное преимущество автоматизации в этой сфере – высокая производительность, достигающая миллионов слов в сутки, отсутствие грамматических ошибок и плагиата.

ГЛК и интеллектуальная собственность

Результаты интеллектуальной деятельности, созданные компаниями-разработчиками ГЛК в процессе НИОКР, и генерируемые далее в процессе их коммерческого использования следует рассматривать с двух точек зрения:

Во-первых, в процессе НИОКР разработаны принципиально новые разновидности интеллектуальной собственности, которые компании называют шаблонами и/или динамическими шаблонами статей (Templates, Dynamic Templates). Эти объекты защищены патентами на изобретения, товарными знаками, авторскими правами (АП), свидетельствами ноу-хау и не подлежат передаче клиентам ни при каких обстоятельствах, даже в тех случаях, когда они были созданы с участием клиентов.

Во-вторых, в процессе коммерческого использования ГЛК создается большое количество текстовых литературных произведений (статей, отчетов), являющихся по формальным признакам классическими объектами АП. Тем не менее, права на эти объекты заранее и беспрепятственно передаются клиентам, а сами объекты могут в дальнейшем использоваться по усмотрению последних, в том числе в пользу третьих лиц.

Итак, использование технологий ГЛК на рынке финансовой информации довольно неожиданно (даже для своих создателей) показало очень высокую эффективность. Отметим, что эта эффективность сейчас вполне обоснованно оценивается без учета существенных затрат, «утопленных» в НИОКР. Такой подход дает сверхнизкие оценки текущих затрат на единицу генерации контента. В связи с этим можно заранее предположить, что ГЛК позволят обеспечить финансовой аналитикой (и другими услугами, например, в сфере маркетинга) любое количество компаний.

Литература:

1.      Rogers J. L., Skinner D. J., Zechman S. L. The role of the media in disseminating insider-trading news // Review of Accounting Studies. 2016. Vol. 21. Pp. 711–739.

2.      Tetlock P. C. Does public financial news resolve asymmetric information? // Review of Financial Studies. 2010. 23 (9). Pp. 3520–3557.

3.      Blankespoor E., de Haan E., Zhu C. Capital market effects of media synthesis and dissemination: evidence from robo-journalism // Review of Accounting Studies. 2018. Vol. 23. Iss. 1. Pp. 1–36.

Комментарии (15)


  1. Aquahawk
    13.08.2021 07:18
    +1

    Спасибо за публикацию. Не думал что масштабы уже настолько чудовищные. Все-таки не правы были Кэмерон или Вачовски с идеями агрессивного нападения машин, а Винченцо Натали в своей кинокартине Куб. Человечество порождает такую бюрократию и такие информационные процессы что это информационное нечто способно творить полную дичь, а мы этого не замечаем, хотя оно из нас и состоит. А потребитель сего контента прекрасно изображён в Идиократии Майка Джаджа.


    1. vicvoronov Автор
      13.08.2021 10:24

      Спасибо! Да, масштабы впечатляющие. Но успокаивает то, что, как бы нам ни хотелось верить в ИИ, всё же эти тексты созданы автоматами (хотя и очень сложными), которые люди научили копировать самих себя. (и они полезны :)


      1. Aquahawk
        13.08.2021 11:00

        То что это автоматы как раз пугает больше. Это весьма примитивные алгоритмы, единсвенным критериями качества работы которых явлется облом теста Тьюринга и степень вызываемой эмоции. Те фирмы которые производят алгоритмы которые будут иметь более сильный социальный отклик будут в профите. И нигде в этом цикле эволюции не стоит достоверность, научность. Только подбор псевдодостоверности под широкую аудиторию. Сейчас примерно это же просиходит в яндекс дзене, только там тексты генерирую кожаные мешки, и остаётся только гадать, что будет если оно автоматизируется. А оно уже вот-вот.


  1. lumaxy
    13.08.2021 08:54

    Интересно, а для русского языка есть что-то похожее?


    1. vicvoronov Автор
      13.08.2021 10:28

      О промышленных версиях официальной информации не было, но на разных конференциях доводилось слышать, что подобные штуки у нас тоже делают. Может быть, "инсайдеры" что-то подскажут - буду рад.


    1. Aquahawk
      13.08.2021 11:03

      Балабоба же. Вот попробовал первую попавшуюся бредовую фразу воткнуть, а оно неплохо так продолжило

      https://yandex.ru/lab/yalm/share?id=a98c05525f524975f9cf16505ef946efcc3a9437f2ef82067a385c29e50021a7


      1. Aquahawk
        13.08.2021 11:08

        Продолжил кормить ему на вход его же вывод, и каждый раз он дописывает новый кусок.

        Производительность приложений складывается из скорости процессора и оперативной памяти, а также из производительности жесткого диска. Поэтому очень часто пользователи задумываются о том, как увеличить оперативную память. О том, как это сделать, мы и поговорим в этой статье. Существует два способа увеличить ОЗУ персонального компьютера: с помощью чистой установки новой планки или путем увеличения объема уже существующей. Так что же лучше? Чистая установка позволяет без риска потерять установленные программы и файлы очистить системный блок от пыли и грязи, и, конечно, увеличить объем оперативной памяти. Этот способ работает исключительно при наличии свободного слота в материнской плате компьютера. Для начала установите новую плату, затем соберите системный блок и подключите все необходимые устройства. После этого можно начинать установку операционной системы. Когда операционная система будет установлена, необходимо произвести перезагрузку компьютера и подключить новые модули. Увеличение ОЗУ путем добавления дополнительной планки Второй вариант более трудоемкий, но он подразумевает не только увеличение оперативки, но и увеличение самого жесткого диска, чтобы освободить место для установленных программ. В этом случае тоже нужно установить новую планку, а затем подключить к материнской плате новый жесткий. При этом старый должен быть отключен. Подключите новый модуль и включите компьютер. Затем установите операционную систему, после чего произведите перезагрузку. По завершении установки ОС откройте меню «Пуск» и кликните на пункте «Управление компьютером». Зайдите в раздел «Управление дисками», выберите нужный и нажмите на нем правой кнопкой мыши. Выберите пункт «Сжать том». В новом диалоговом окне укажите размер сжимаемого раздела, для которого вы хотите увеличить ОЗУ. Нажмите на кнопку «Сжать» и дождитесь завершения.

        Имхо, с точки зрения человека не понимающего устройства компьютера книжка по апгрейду и этот текст будут мало отличимы. Правда подобные тексты иногда и люди пишут, но автоматизация этого просто поражает.


        1. Aquahawk
          13.08.2021 11:13

          Что-то прям запал, мне кажется толи его на дзене обучали, толи дзен из него состоит.

          Начал с фразы: Купил лучший рамный внедорожник, рассказываю все тонкости

          Купил лучший рамный внедорожник, рассказываю все тонкости Вот и я стал обладателем самого лучшего внедорожника в мире. По сравнению со штатными Нивами, УАЗ, Крузаками и прочими паркетниками, он практически настоящий джип, с которым не стыдно на дороге показаться. Но обо всём по порядку. У меня уже были УАЗы, но этот – пожалуй, самый лучший из них Вот такой он, мой новый УАЗик! Машина просто великолепна. Да-да, именно великолепна, с большой буквы. Забирал я его из салона в начале ноября, так что снега на улице практически не было. А вот когда он выпал в декабре и ударил чуть ли не метровым слоем, то машина сразу преобразилась, стало всё белым бело, и дорога, и машина, и настроение. Теперь она не просто белая, а снежная, да и не одна, а целая вата белого снега. В общем, после того, как я с ним прокатился, все окружающие люди решили, что я или сумасшедший, или очень богатый человек. Так вот, о чём это я... Да, машинка просто потрясающая, и я очень доволен своим выбором. Это, пожалуй, лучший вариант полноприводной машины в этом классе. Все остальные мне как-то не пришлись по душе, несмотря на то, что они все современные, на платформе нового Патриота, и с большим комфортом. А УАЗ, по сути, это тот же джип 80-х годов, только с автоматом, который всё ещё ездит. Он просто прекрасен, особенно на бездорожье! Да и салон у него хоть и скромный, но это с лихвой компенсируется его проходимостью. Я просто не могу им нарадоваться! И кстати, у него ещё и проходимость не хуже, чем у современных внедорожников, не знаю, как в других комплектациях, но в максимальной комплектации с лебедкой и шноркелем, он действительно неплохо себя чувствует на бездорожье. Да, машина не новая, и пробег уже под 100 тысяч, но и за цену нового автомобиля я считаю, что это идеальный вариант. Не так давно я решил переделать штатный сигнал на другую конфигурацию, а именно, на трёхлучевой. Долго искал фирму, которая бы мне его установила. В итоге нашёл на сайте этой фирмы. Мне понравилось, что у них есть и доставка, и установка. Кстати, после переделки звук стал намного приятнее. Рекомендую всем!

          Это же прям статья из дзена.


          1. vicvoronov Автор
            13.08.2021 11:30

            Да, это как раз "маркетинговое" направление! И работает машина как часы. Чему учат - то и получается!

            Вывод: значит, это направление (для нас) более актуально ...


      1. lumaxy
        13.08.2021 11:26

        Я подразумевал немного другую задачу - не "сочини текст, похожий на осмысленный", а "вот табличка с данными, расскажи мне про неё". Кажется, что автор статьи про это писал


        1. Aquahawk
          13.08.2021 11:31

          Ну так а каков критерий качества? Чтобы слушающий поверил. Не мытьём так катанием машина подберёт не правильную форму подачи материала а то, на что вы среагируете, то, что посчитаете правильным.


          1. lumaxy
            13.08.2021 11:42

            Мы говорим о разных задачах - Балабоба неспособна, например, на основании нескольких отчётов о прибылях и убытках написать текст, корректно описывающий финансовое состояния компании. При чем тут "поверил", когда - вместо массива цифровых данных предоставить текст, который объясняет, что эти цифры означают.


            1. Aquahawk
              13.08.2021 12:00

              Никакие алгоритмы и нейросети сегодня не могут создать

              корректно описывающий финансовое состояния компании

              который объясняет, что эти цифры означают.

              Всё что они сделают, это такой текст, что у читателя возникнет указанное ощущение. И этого можно достичь с нулевой корректностью. Это следствие самого современного подхода к обучению сетей сегодня.


              1. lumaxy
                13.08.2021 13:42

                Поправьте, если я ошибаюсь, но автор статьи приводит конкретные примеры обратного. Было бы странно. если бы Forbes, или Сredit Suisse платили за создание текстов, которые только вызывают ощущение, но на самом деле содержат какую-то нерелевантную дичь.


              1. vicvoronov Автор
                14.08.2021 11:54

                Интересное моё наблюдение (могу, конечно, ошибаться) состоит в том, что когда я просматриваю тексты патентов на изобретения (всё в открытом доступе есть), полученных этими компаниями, я не вижу в них упоминаний об использовании нейросетей вообще (!). Здесь сразу возникает вопрос - а на чем же они работают? А, наверное, это и есть их ноу-хау. Закрыто всё. Системы-то промышленные, конкуренция очень сильная ...