OpenAI выпустила генератор текста GPT-2, который сама считает опасным / forpes.ru

Главная
OpenAI выпустила генератор текста GPT-2, который сама считает опасным

OpenAI выпустила генератор текста GPT-2, который сама считает опасным +14

11.11.2019 11:57

AnnieBronson 22 6600 Источник

OpenAI опубликовала финальную модель генератора текста GPT-2 — «жуткого» ИИ, которого исследователи считали слишком опасным для выпуска. Его анонсировали в феврале, но тогда OpenAI ограничилась выпуском менее мощной его версии: в компании опасались, что модель может превратиться в средство распространения дезинформации. Вместо этого компания решила выпустить его в четырёх частях в течение восьми месяцев.

«Из-за нашей озабоченности по поводу вредоносного применения технологии мы не выпускаем обученную модель. В качестве эксперимента мы вместо этого выпускаем гораздо меньшую модель», — писали в OpenAI в феврале.

GPT-2 использует машинное обучение для генерации нового текста на основе уже написанного. Вы можете напечатать несколько предложений о чём угодно, и ИИ на их основе напишет какой-нибудь связный текст, который будет близок по смыслу.

Возможности генератора зависят от параметров, на которых обучалась модель. Чем больше параметров, тем она «умнее». Первоначально OpenAI выпустила генератор с 124 млн параметров, затем последовали релизы с 355 и 774 млн. Каждый новый выпуск показал значительное улучшение возможностей по сравнению с предыдущими. Полная модель содержит 1,5 миллиарда параметров. В ходе обучения GPT-2 проанализовал классические романы Джорджа Оруэлла и создал свою научно-фантастическую книгу о Китае. Как пишут в OpenAI, сгенерированный моделью текст люди находят убедительным.

«Люди считают результаты GPT-2 убедительными. По результатам опроса наших коллег из Корнеллского университета, люди дали генератору «оценку достоверности 6,91 из 10».

Наряду с полноразмерной моделью GPT-2 OpenAI также выпустила алгоритм поиска искусственно написанного текста. Однако, по признанию самих исследователей, детектор не так хорош, как генератор. В сегодняшнем посте в блоге OpenAI заявляет:

«Мы разработали детектор, который показывает частоту обнаружения искусственного текста в ~95% случаев. Мы считаем, это недостаточно высокая точность. [Этот детектор] необходимо совмещать с подходами, основанными на метаданных, и человеческим мнением, чтобы он был более эффективным. Мы выпускаем эту модель, чтобы помочь исследованиям в области обнаружения синтетического текста».

Тем не менее, пока что, как заявляют в OpenAI, исследователи не видели убедительных доказательств злоупотребления генераторами текстов, хотя и признают, что не могут знать обо всех угрозах. Чтобы минимизировать риск, они постарались сделать GPT-2 максимально непредвзятым, исследовав генератор на наличие каких-либо гендерных, расовых и религиозных предубеждений.

Как сообщили в OpenAI, генератор доступен для скачивания на GitHub. Исследователи надеются, что те разработчики, которые будут использовать модель, помогут компании её усовершенствовать.

«Пожалуйста, дайте нам знать, если вы проводите исследования или работаете над приложениями GPT-2. Нам особенно интересно пообщаться и, возможно, поработать с теми, кто учится выявлять возможные случаи злонамеренного использования ИИ и разрабатывать защиту от них, а также определять степень предвзятости модели и разрабатывать меры по её смягчению», — отметили исследователи.

Комментарии (22)

FromArcanum
11.11.2019 15:02
#20872140
+5
Сам текст то не сгенерирован, случаем?
1. tvr
  11.11.2019 15:31
  #20872284
  +2
  Хуже — сам текст заявления OpenAI сгенерирован, как и код GPT-2.
1. Apxuej
  11.11.2019 15:51
  #20872442
  Is not this text generated by any chance?? I've seen it in action several times, and some of the pages I've seen have a slightly different version that I've used. In any case, it comes out perfectly and you should read it when you go back to make your own copy.
  
  A more useful resource to check out is the «Sticky» page on the left. This one is a bit dated, but it's pretty fun and the images, all of which are pretty cool and have a lot of depth.
  
  You can also check out «The Art of Magic» by Matt Caffrey and «The…

razielvamp
11.11.2019 15:32
#20872292
+1
В чем опасность ии автонабирателя текста? Время текстонабирателей итак не самое дорогое.
Конечно задосить статьями новостные сайты без ИИ сложновато, но вбрасывать фейковые новости вполне реально и без новейших технологий
1. Tych0n
  11.11.2019 15:45
  #20872390
  В удобстве использования и сравнительно никаких затратах. Мгновенно зафорсить тему политики перед выборами — потом разберутся конечно, но в моменте позволит сманипуливать кем-то. Нагенерировать отзывов на свою продукцию в долгую по расписанию или наоборот сразу после выхода на рынок — повысит продажи, даже если делать отзывы нейтральными. Всё это усложняет поиск достоверной информации.

Fenzales
11.11.2019 15:50
#20872440
Есть чудесный сабреддит, на котором весь контент генерируется обученной на реальных сабреддитах GPT2. Иногда получается довольно смешно, особенно когда они придумывают заголовки и ссылки на несуществующие новости.
1. Lsh
  11.11.2019 16:07
  #20872536
  +1
  «My girlfriend's vagina turned into a black hole and now I can't get to sleep.» о_О

Wizard_of_light
11.11.2019 15:59
#20872498
+1
GPT-2 проанализовал классические романы Джорджа Оруэлла и создал свою научно-фантастическую книгу

Фанфики на самиздате скоро будут выходить ~~лучше~~ чаще?

Zangasta
11.11.2019 16:01
#20872520
Ну, вот мы и дожили до словопомола.

В словомельницу вводится общая канва рассказа и поступает в ее большой банк памяти — много больше, чем даже папочкин, — где наугад подбирается первое слово. Это называют «открыть козырь». Или первое слово задает ей программист. Однако, когда машина подбирает второе слово, она должна выбрать такое, которое соответствовало бы атмосфере и так далее, и так далее. Введи в машину одну и ту же канву рассказа и сотню разных слов — по одному за раз, конечно, — и она напишет сто совершенно разных романов. На самом деле все, безусловно, гораздо сложнее для твоего, сынок, понимания, но работает она именно таким образом.

Серебряные яйцеглавы (с) — Фриц Ройтер Лейбер 1958 год
1. Apxuej
  11.11.2019 16:12
  #20872554
  Всё что я знаю о том как работает эта сеть подсказывает мне: если ввести скажем кратное описание сюжета, то сейчас сетка способна только продолжить данный ей текст. А что у нас часто начинается с краткого описания сюжета и имеет форму текста? Думаю самое близкое — это статья-обзор на данное произведение. То есть от сетки можно ожидать не рассказ, а отзыв на не существующий рассказ с описанным нами сюжетом)
1. Sychuan
  11.11.2019 20:15
  #20873680
  Это придумали гораздо раньше
  
  Заголовок спойлера
  Каждому известно, как трудно изучать науки и искусства по общепринятой методе; между тем благодаря его изобретению самый невежественный человек с помощью умеренных затрат и небольших физических усилий может писать книги по философии, поэзии, политике, праву, математике и богословию при полном отсутствии эрудиции и таланта. Затем он подвел меня к раме, по бокам которой рядами стояли все его ученики. Рама эта имела двадцать квадратных футов и помещалась посредине комнаты. Поверхность ее состояла из множества деревянных дощечек, каждая величиною в игральную кость, одни побольше, другие поменьше. Все они были сцеплены между собой тонкими проволоками. Со всех сторон каждой дощечки приклеено было по кусочку бумаги, и на этих бумажках были написаны все слова их языка в различных наклонениях, временах и падежах, но без всякого порядка. Профессор попросил меня быть внимательнее, так как он собирался пустить в ход свою машину. По его команде каждый ученик взялся за железную рукоятку, которые в числе сорока были вставлены по краям рамы, и быстро повернул ее, после чего расположение слов совершенно изменилось. Тогда профессор приказал тридцати шести ученикам медленно читать образовавшиеся строки в том порядке, в каком они разместились в раме; если случалось, что три или четыре слова составляли часть фразы, ее диктовали остальным четырем ученикам, исполнявшим роль писцов. Это упражнение было повторено три или четыре раза, и машина была так устроена, что после каждого оборота слова принимали все новое расположение, по мере того как квадратики переворачивались с одной стороны на другую.
  Путешествия Гулливера

janvarev
11.11.2019 16:17
#20872578
Кому интересно — есть прекрасная статья DesertFlow GPT-2 нейросеть от OpenAI. Быстрый старт, которая буквально два дня назад была проапгрейжена с информацией о том, как быстро через интернет (в Google Colab) запустить полный вариант модели GPT-2 и с ней поиграться.

Интересно в GPT-2 то, что в ней обещали практически магию (внешняя статья на английском).
Пример магии из статьи
SYSTEM PROMPT (HUMAN-WRITTEN)
In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.

MODEL COMPLETION (MACHINE-WRITTEN, 10 TRIES)
The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.

Dr. Jorge Perez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Perez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.

Perez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Perez.

Perez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns.
1. Sychuan
  11.11.2019 20:18
  #20873688
  Ну сейчас довольно хорошо видно, что ОпенАи просто затеяла PR. Полная версия сети никаких особых чудес не демонстрирует.
1. iugov
  13.11.2019 15:44
  #20882128
  Спасибо за апдейт!

Nuwen
11.11.2019 16:46
#20872714
+1
Анекдоты этой программе можно скармливать, чтобы она новые смешные создавала?
1. Aldrog
  11.11.2019 18:23
  #20873218
  https://www.reddit.com/r/SubSimulatorGPT2/search?q=flair_name%3A%22jokes%22&restrict_sr=1
  1. Apxuej
    11.11.2019 18:53
    #20873372
    Почитал шутки, нашёл вот эту. Шутка сама по себе ничего (есть некий смысл), но вот от сгенерированных комментариев какой-то жутью веет, хотя на первый взгляд ничего особенного. Наверное, всё дело в повторении.

tandzan
11.11.2019 17:08
#20872812
+1
Вау, сегодняшняя помощь ребенку в написании реферата по философии приобретет привкус АйТи. Думаю, учительница не заметит подвоха.
1. namikiri
  11.11.2019 17:30
  #20872948
  Для начала надо обучить нейросеть на русских текстах, разве нет?
  1. to_climb
    11.11.2019 19:58
    #20873618
    Переводчик на трансформерах вам в помощь! Не end-to-end, конечно, но в целом в одной технологической парадигме.

Keynessian
11.11.2019 20:34
#20873754
Амазон и прочие онлайн магазины — теперь могут заполнить тонны говна написанного бредогенераторами, и в этих говнах рискуют потонуть нормальные книги. :(
А ещё эти бредогенераторы могут писать автоматические хвалебные (или наоборот хейтерские) комментарии для накруток рейтингов. :(

Бредогенератор + Дип-Фейк = автоматические говноблоггеры, в которых опять же рискуют потонуть нормальные блоггеры. :(

realbtr
12.11.2019 09:47
#20875402
Давайте скормим ему исходный код Linux и пусть он сгенерирует фейковые дистрибутивы