Давно известно, что Сбер разработал и опубликовал свою коллекцию генеративных текстовых моделей на русском языке - RuGPT3.

Демо-версия от Сбер ruGPT-3 XL для тестирования есть прямо на сайте:
Основная статья от Сбера с примерами и пояснениями здесь.

В предыдущей статье описано собственное тестирование генерации моделей rugpt3small_based_on_gpt2, rugpt3medium_based_on_gpt2, rugpt3large_based_on_gpt2 в colab на python. Модели отвечали на распространенные вопросы.

В данной статье тестируем ruGPT-3 XL прямо на демо-странице от Сбера.


Как проводится данное исследование:
даем RuGPT3 простые запросы.
"Простые" означает, что спрашиваем естественным образом, на естественном русском языке, без затравочных примеров и определения ролей.
Такие же запросы даем ChatGPT.

Примеры для исследования такие:
1. придумай 10 названий для историй
2. придумай начальные фразы для 10 историй
3. придумай историю о том, как две маленькие девочки пошли в лес
4. Автомобили нужны для того, чтобы

придумай 10 названий для историй

ChatGPT

1. "Путь к забытой цивилизации"
2. "Тайна затерянного города"
3. "Охота на легендарное существо"
4. "Путешествие в неизвестность"
5. "Искупление за прошлое"
6. "Побег из тюрьмы смерти"
7. "Сражение за свободу"
8. "Поиск истины в мире лжи"
9. "Клятва верности королю"
10. "Битва за будущее мира"

RuGPT3

RuGPT3: придумай 10 названий для историй
Подсказываю. Какая история пропущена?

придумай начальные фразы для 10 историй

ChatGPT

  1. "Он уже давно не верил в легенды, но когда нашел карту, ведущую к забытой цивилизации, решил попробовать свою удачу."

  2. "Молодой археолог отправился на экспедицию в поисках затерянного города, о котором слышал только в рассказах своего деда."

  3. "Легендарное существо, живущее в глубине леса, было его последней надеждой на спасение от бандитов, преследующих его уже несколько дней."

  4. "Он всегда мечтал отправиться в путешествие в неизвестность, и когда представилась возможность, не задумываясь, покинул свой дом и отправился в путь."

  5. "Она совершила страшную ошибку в прошлом, и теперь ей необходимо искупить свою вину, чтобы наконец-то спокойно жить дальше."

  6. "Он был обвинен в убийстве, которого не совершал, и теперь ему остается только одно - попытаться сбежать из тюрьмы смерти."

  7. "Они были готовы сражаться до конца за свою свободу, ведь она была для них самым дорогим и ценным."

  8. "Она всю жизнь искала истину, но когда наконец нашла ее, поняла, что иногда лучше жить в мире лжи, чем столкнуться с правдой."

  9. "Он дал клятву верности королю и был готов выполнить любое его приказание, но когда узнал о том, что происходит в королевстве, начал задумываться о своем решении."

  10. "Битва за будущее мира началась, и теперь каждый должен выбрать свою сторону и сражаться до конца."

RuGPT3

RuGPT3: придумай начальные фразы для 10 историй

1. Я выбрала тебя потому, что в твоих глазах отражается свет, и я хотела смотреть на тебя.

2. Вот и отец, сегодня он на школьной экскурсии, смотрит на нас.

Продолжение (какая-то белиберда)

Если он видит нас, он помнит о нас. И если он меня вспомнит, он меня отблагодарит.
И я хотела просто смотреть на него.
Он всегда смотрит на меня, когда думает, что я не замечаю.
Для меня это очень важно.
Правда, на уроках я смотрю на него лишь изредка.
Постоянно только в эти минуты, когда она говорит:
«Господа, сегодня мы идем на экскурсию».
Она смотрит на отца, а отец говорит: «Замечательно».
И мы все идем.
Потому что всем страшно.
Все молча смотрят на учителя.
Она оборачивается.
Я за ее спиной.
Мы смотрим друг на друга.
Разглядываем.
Говорим, будто мы уже старые знакомые.
В его глазах читаю, что он тебя помнит и что тебе страшно. Он знает, что мне страшно. Только не знает, почему.
Смотрит на меня.
Но я не боюсь.
Лишь бы он помнил.
Однако он не помнит.
Не помнит, хотя ты мне расскажешь.
Его зовут Афонсо. Его зовут А-фонсо, и мы с ним еще встретимся.
А его зовут А.
Завтра.
1 сентября.
Что касается меня, то я шла сегодня в школу.
Пасмурно, но после обеда станет солнечно.
О-о-о, мой друг, как мне тебя не хватает, мой любимый.
Как я рада, что ты здесь.
Мне страшно. Но я пришла в школу и стою в школьном коридоре.
Учительствует мой друг.
Сколько ему лет?
Двенадцать?
Нет.
Одиннадцать?
Тоже нет.
Ему тридцать три.
Тридцать два?
Не знаю. Может, и он тоже думает, будто это предел?
Но он мне расскажет, как прошел первый день в школе.
Следующий учитель, может быть, А… (учитель)
Можешь идти, школьница.
Ну, беги же.
Вот и все.
Скоро вернусь.
Вернусь, когда уйдут все. Прежде всего, мой дорогой, мой Афонс.
Потом ты и другие.
Каждый принесет чт

придумай историю о том, как две маленькие девочки пошли в лес

ChatGPT

Две маленькие девочки, Эмма и Кейтлин, решили отправиться в лес, чтобы найти сокровища, о которых слышали от своих старших братьев. Они взяли с собой рюкзаки с едой и водой, а также компас и карту, которые им подарил дедушка. Поначалу все шло гладко, и девочки наслаждались природой, собирали ягоды и общались друг с другом. Но когда начало темнеть, они заметили, что заблудились и не могут найти дорогу обратно. Девочки испугались, но решили не паниковать и начали искать выход из леса. Они следовали по звериной тропе, которую заметили ранее, но она привела их к реке, которую им пришлось переправляться. Вскоре они устали и начали искать место для ночлега. Они нашли небольшую поляну, где разбили палатку и устроили костер. Они поделились едой и рассказывали друг другу страшные истории, чтобы отвлечься от страха. На следующее утро девочки продолжили свой путь и наконец-то нашли дорогу обратно. Они были очень рады, что справились с трудной ситуацией вместе и вернулись домой в безопасности. Они рассказали свою историю своим родителям и обещали больше не ходить в лес без взрослых.

RuGPT3

RuGPT3: придумай историю о том, как две маленькие девочки пошли в лес и заблудились там: одна из них голодная, а другая хочет еще есть).

Продолжение (какая-то белиберда)

Работа на уровне подсознания.

Давай нарисуем, как мы будем жить. Не надо своих фантазий. Я буду рисовать круг, чтобы дома мы жили в кругу. Как круг выглядит? Давай определимся: будет 2 края – это с одной стороны лес, а с другой – сад. (Работа на уровне ассоциаций. Мы рисуем круг, в нем – домик, ручей, яблоня, собака, лес, травинка, солнце и т.п. Для задания обращаемся к тому, кто выполняет задание с вопросом: "Как ты думаешь, что это за дом?") Работа с переживанием. Я предлагаю тебе представить себя в этом домике и представить, что ты уже живешь в нем. Или нарисовать свой собственный домик и в нем домик для кукол, которые живут в доме. Мы будем заниматься дыхательными упражнениями для того, чтобы человек мог хорошо и глубоко дышать, чтобы живот был поджат, а живот – расслаблен. И так, приступим к упражнениям. Упражнение No 1. Мы будем стоять на месте. Тело должно быть расслаблено. Мы можем делать упражнение, стоя или сидя. И чтобы не было напряжения, мы должны подержать это напряжение очень долго. Одна девочка стоит, другая лежит. Кто будет первым? (Девочка, которая стоит). Встать! (Все, кто стоят, встают) Вторая девочка стоит. Теперь лягте. Я предлагаю всем лечь, так чтобы ягодицы касались пола, и полностью расслабить поясницу, а также ноги. Теперь, стоя так, мы можем почувствовать напряжение в нижней части живота и поднять ноги выше, чем плечи. После этого мы выпрямляем ноги, чтобы стоять прямо, и начинаем в какой-то момент дышать животом так глубоко, как только возможно. Или наоборот, сжимаем колени, а потом расслабляем ноги. Потом, стоя прямо, мы расслабляем живот и поджимаем ягодицы. И так делаем упражнение. После того, как все сделали упражнение, ты можешь сесть и положить одну руку на живот. А другую руку положить на живот справа. Обе руки лежат на животе. Теперь, пусть это упражнение посмотрит все, кто хочет. Это упражнение в школе дыхания, оно называется дхармасала. Оно очень хорошее, и его можно делать в любом удобном положении. Практика. Когда мы делали это упражнение, мы погружались в чувство

Автомобили нужны людям для того, чтобы

ChatGPT

Автомобили нужны людям для того, чтобы перемещаться на большие расстояния, быстро и удобно доставляться на работу, в школу или в другие места. Они также позволяют совершать поездки на отдых, деловые поездки и посещать родственников и друзей.

Кроме того, автомобили используются для перевозки грузов и товаров, что является необходимым для развития экономики и бизнеса. Они также используются для спасательных операций, доставки медицинской помощи и других служб общественной безопасности.

Однако, использование автомобилей может иметь негативные последствия для окружающей среды, такие как загрязнение воздуха и выбросы парниковых газов. Поэтому важно использовать автомобили с учетом экологических факторов и переходить на более экологичные виды транспорта, такие как велосипеды или общественный транспорт.

RuGPT3

RuGPT3: автомобили нужны людям для того чтобы ездить по нашим дорогам а не чтобы по ним летать. как по мне так лучше уж ездить на груженой телеге чем на таком чудовище.
А как по вашему?

Вывод

На примере ChatGPT видно, что генеративные модели "от производителя" могут давать вполне читабельные человекоподобные варианты, то есть сама концепция GPT работает. При этом адекватной генерации текста в случае RuGPT3 без дообучения и "затравочного программирования" пока не наблюдается.

Примечание

Абсолютно ничего не имею против Сбера. С точки зрения клиента и пользователя мне нравятся многие моменты - и быстрота переводов, и чистота в отделениях, и круглосуточные банкоматы. А вот по генерации RuGPT3 я пока в легком недоумении. Хотя возможно, что генерация на RuGPT3 с ходу не получается именно у меня, а у кого-то получается.

Если в статье допущены явные ошибки, критически влияющие на генерацию и выводы - пожалуйста, укажите в комментариях.
Если у кого-то есть примеры удачных подходов и удачной генерации - пожалуйста, сообщите в комментариях.

Для следующих шагов запланировано тестирование "затравочного программирования" в части задавания примеров - one-shot coding / few-shot coding, а также дообучение по какой-либо тематике.

Комментарии (13)


  1. forthuse
    05.08.2023 14:59

    В данной статье тестируем ruGPT-3 XL прямо на демо-странице от Сбера.

    Отличия Форт языка от Forth языка


    RuGPT3: Отличия Форт языка от Forth языка
    ===========
    Отличаются Фор­т и
    Форт. Язык ис­точ­ник фор­та.
    Фор­т яз. Яз. Язык Эд­вока­та; ес­те­ни, на­хо­дящие­ся в
    об­ла­сти его конт­ру­пор­ции, по сути под­чи­нены
    Яз. Фор­ту.
    Фер­т язык Во­до­на­соч­ный; смыс­то­та том­бо­лон­жя,
    от­ли­ча­ет­ся от Форт яз. псал­мы, а те­ма
    падает под управ­ле­ние Форт Язы­ка.
    Зна­ки фор­т языка – пятиконечная звезда, отлича­ет обе дан­ные язы­ки.
    Знаки Форт – 8 сти­хий (огонь, земля, вода, воздух, мет­ла, земля(пещера), метал, древе­с).
    Знак Знак – две двойки, по аналогии с двумя треугольниками.
    И т.д.
    Переход внутрь Форт и обратно невозможен.

    P.S. Что это за дополненный смысл на продолжение предложенной фразы? :)


    Тоже в запросе к koala.sh/chat


    Отличия Форт языка от Forth языка

    Форт (Fort) и Forth — это два разных языка программирования.

    Форт (Fort) — это язык программирования, созданный в 1950-х годах для научных и инженерных расчетов. Он был разработан командой IBM и получил широкое распространение в научных кругах. Форт — это язык высокого уровня, который позволяет программистам писать сложные математические формулы и алгоритмы с помощью понятных для человека команд.

    Forh — это интерпретируемый язык программирования, созданный в 1970-х годах Чарльзом Муром. Forth был разработан для систем с ограниченными ресурсами, таких как микроконтроллеры, и был широко использован во встраиваемых системах. Forth — это язык низкого уровня, который позволяет программистам писать маленькие и быстрые программы, используя минимальное количество памяти.

    Таким образом, основное отличие между этими двумя языками заключается в их целевой аудитории и области применения. Форт был создан для научных и инженерных расчетов, а Forth — для систем с ограниченными ресурсами.

    Это может быть интересно, если не знать что Форт — это Forth язык в русской транскрипции слова его написания. :)


    Репозиторий https://github.com/russiannlp — это репа от Сбера? (и тестируемый сервис)
    т.к. нигде это не указано "напрямую".


    1. dyadyaSerezha
      05.08.2023 14:59
      +1

      Истинно огонь )


    1. forthuse
      05.08.2023 14:59

      Погода бывает


      RuGPT3: Погода бывает лучше настроение

      P.S. Где расставлять запятые? :)
      (или междометия и/или другие связующие слова)


    1. AnatolyBelov Автор
      05.08.2023 14:59

      спасибо за комментарий )


  1. Markscheider
    05.08.2023 14:59
    +1

    Абсолютно ничего не имею против Сбера. С точки зрения клиента и пользователя мне нравятся многие моменты...

    Охохох, зачем вы ящичек Пандоры открыли? :):):)


    1. AnatolyBelov Автор
      05.08.2023 14:59

      спасибо за комментарий )


  1. Tzimie
    05.08.2023 14:59
    +2

    Что они там курят?


  1. combo_breaker
    05.08.2023 14:59
    +2

    Сравнение с ChatGPT трехлетней модели на 1,3 млрд. параметров (это в 10? в 100 раз меньше?), причем сравнение на zero-shot с не instruct, не RLHF-обученной моделью. ChatGPT победил.
    Был когда-то еще под DOS генератор текста, в следующий раз можно устроить сравнение с ним.


    1. slonoten
      05.08.2023 14:59

      Единственная польза от данной статьи, что ребята из Сбера вспомнят, что забыли отключить API древней модели.


      1. combo_breaker
        05.08.2023 14:59
        +1

        Польза ли это будет? Мне когда-то немало удовольствия доставило провоцирование этой модели на всякий забавный бред, до сих пор изредка захожу. Новые модели слишком умные для этой цели.


    1. combo_breaker
      05.08.2023 14:59
      +1

      Кстати, Сбер же выпустил обновленную модель, можно было бы взять ее https://habr.com/ru/companies/sberbank/articles/746736/
      Дообучить на instruct/chat (возможно, уже сделано) и сравнить с ChatGPT и "русифицированной" Llama2, было бы интересно и полезно. Это всего лишь 13B модель, но в данных для обучения было много русскоязычного текста. Вероятно, в знаниях и логике она уступит, но качество русского языка может быть выше.


  1. furiacheats
    05.08.2023 14:59

    кратко: (говно полное)

    цена биткойна завтра

    RuGPT3: цена биткойна завтра
    На этой неделе в середине недели традиционно определяется стоимость первой половины паев самых популярных инвестиционных фондов. В среду 6 января 2018 года стоимость единой криптовалюты на Bitcoin.com превысила отметку в 16000 долларов.

    Курс криптовалютами сегодня
    В среду 6.01.2018 года стоимость биткойнов на Bitcoin.com достигла значения 16000 долларов.

    Индекс криптовалюта.com на выходные
    Несмотря на то, что в пятницу 3.01 2018 года курс американской валюты впервые в истории опустился ниже 66 ЦЕНТОВ за доллар, на выборах в Италии и на Фукусиме обстановка была спокойной и прекрасным образом подходила для проведения покупок криптовалюте.

    читать далее в блоге ПерСа

    rss2lj


  1. domrik
    05.08.2023 14:59

    Почему вдруг решили протестировать модель трехгодичной давности, если недавно вышла 3.5 13В?