Я не испытываю ненависти ни к корпоративным блогам, как таковым, ни к большим языковым моделям в целом. А вот к мусорному контенту, созданному левой пяткой ради ссылок на сайт или телеграм-канал - испытываю, и еще как. И как раз вот тут встретились два одиночества - ленивые копирайтеры мусоропроизводители и генеративные сети. Получилась, как вы понимаете, вовсе не конфетка.

Долго работая с LLM и GPT, неизбежно начинаешь замечать характерные паттерны, обороты, формулировки, характерные для генеративного контента. Наткнувшись на очередную очевидно генеративную статью и убедившись, что из таких статей у компании состоит весь блог, я решила исследовать это дело подробнее и желательно - автоматически.

За подробностями, результатами, ужасом и даже кодом на VB.NET приглашаю под кат!


Безмозголитератор

Итак, представим, что вы... ммм, копирайтер? Да нет, вы же не пишете текст руками и головой. Может, Оператор Нейросети? Нееет, не пойдет, вы же не умеете и не хотите хоть немножко постараться и сделать хорошо. Может, вы хотя бы котик и у вас лапки? Тоже нет, вы не милый и не пушистый. Как же вас назвать? А давайте спросим у GPT!

Это Playground OpenAi, он довольно удобен для отладки запросов
Это Playground OpenAi, он довольно удобен для отладки запросов

Ладно, сойдет. Для краткости будем писать БМЛ. Человек вы не очень хороший, но кушать все-таки хотите. Почему-то вас еще и берут на работу (платят мало, так что можно устроиться сразу во много мест, ведь кроме Левой Пятки у вас есть еще много частей тела, для серьезной работы не предназначенных).

В общем, сидите, ковыряете в носу. Прилетает задача "написать статью в блог про смену работы на Хабр". Вы не айтишник, понятия не имеете, что там и как, да и работать не хочется. Хорошо, что есть LLM, думаете вы, пусть вкалывают роботы!

Начнем! "Напиши статью о том, как искать новую работу тестировщиком"
Начнем! "Напиши статью о том, как искать новую работу тестировщиком"

Ага, что-то пишет! Но как будто бы введение коротковато, да и где-то краем уха вы слышали, что начинать надо обязательно с какой-нибудь истории, чтобы, понимаешь, зацепило!

"Добавь побольше чего-нибудь во введение, начни с какой-нибудь прикольной истории..."
"Добавь побольше чего-нибудь во введение, начни с какой-нибудь прикольной истории..."

Вооот, так гораздо лучше. Кстати, разметка-то Markdown, удобно вставлять на Хабр!

Оп, и готово!
Оп, и готово!

Но как-то маловато текста! За такое дадут разве что миску риса, а вы - БМЛ Заслуженный Повелитель Нейросетей и Мастер Копирайтинга - заслуживаете куда большего. Пусть роботы вкалывают активнее!

"Шаг 1 распиши подробнее, где-нибудь так страницы на две"
"Шаг 1 распиши подробнее, где-нибудь так страницы на две"

Отлично, отлично! Две секунды, а уже так много знаков! И вроде всё по делу, слова такие знакомые, программистские... А, мы вроде пишем про тестировщика? Пффф, да какая разница! Повторяем процедуру для других шагов, и статья готова.

Постойте-ка. Чего-то не хватает. Точно, нужна же картинка, Васян говорил на прошлой пьянке, что это повышает... Эх, не вспомнить. Но что-то повышает точно.

"Нарисуй картинку к статье про поиск работы тестировщиком"
"Нарисуй картинку к статье про поиск работы тестировщиком"

Вот, теперь отлично! Вы создали прекрасный пост за 5 минут, выглядит совсем, как настоящий, и при этом - совсем не устали, да голова тоже особенно не пригодилась.

Особенности GPT-стиля...

Попробуем посмотреть, что выделяет такие статьи.

  1. Очень, очень большое количество воды и общих рассуждений. А что вы хотели получить, если попросили написать "что-нибудь" одной строчкой?

  2. Если есть "истории" или "примеры", они шаблонны и характерны.
    "Когда-то где-то там-то кто-то столкнулся с большой проблемой, но он не унывал, а благодаря своим лучшим качествам что-то сделал, и стало хорошо. Этот кто-то вдохновился и стало еще лучше! Вот так благодаря всему хорошему стало совсем хорошо. Конец."

  3. Относительно небольшие абзацы, обычно с заголовком - "шаги", "этапы", "преимущества и недостатки". В целом - много структуры и мало текста.

  4. Списки, обязательно списки. Заголовок, пара предложений общими словами, список из 3-5 пунктов, каждый пункт в духе:
    "Сделать бочку: Делать бочку позволяет вам лучше погрузиться в интернет среду"
    "Изучить мурчание: Изучение мурчания помогает вам быть хорошим котом"

  5. Характерные речевые обороты и слова: "важно учитывать", "убедитесь, что", "существует множество", "рассмотрите возможность", "общайтесь, посещайте, участвуйте". Обтекаемые формулировки, повелительное наклонение. В общем-то эти обороты не уникальны для любых текстов, но тут их количество просто зашкаливает.

... и как их искать

Вообще, способов можно придумать много и разных. Мне в первую очередь бросается в глаза аномально большое количество двоеточий и пунктов списков, а подсчитать их плотность в среднем на статью - совсем несложно.

Еще идеи:

  1. Можно посчитать среднюю длину пункта списка и разброс длины от средней, у нейронки разброс небольшой, у людей - больше.

  2. Можно составить словарь характерных слов, и наоборот, слов, которые практически не встречаются в генерации. Если специально не попросить, нейронка слово "жопа" не напишет.

  3. Можно посчитать концентрацию повелительных глаголов, как я уже писала, у GPT4 по каким-то причинам их заметный избыток.

  4. Наконец, можно попросить GPT саму оценить статью с точки зрения генеративности, как увидите ниже, это неплохо работает.

Парсим и анализируем Хабр

Откроем DevTools в любимом браузере и походим по страничкам какой-нибудь компании. Для примера возьмем сам Хабр.

kek v2
kek v2

Удобно, что текущий интерфейс - SPA, который загружает список статей и сами статьи через API, где они доступны в приятночитаемом JSON. Легко находим нужный запрос, он имеет вид:

habr.com/kek/v2/articles/?company=habr&fl=ru&hl=ru&page=1&perPage=20

Проверяем - оно
Проверяем - оно

Внутри нас интересует узел "publicationIds", внутри которого - список идентификаторов статей. Таким же образом находим адрес, отдающий статьи целиком:

habr.com/kek/v2/articles/1

Для автоматизации этого дела напишем программку на VB.NET. Почему на нем? А я странная, мне нравится когда-то давным-давно начинала с бейсика, потом VB6, потом VB.NET, в котором синтаксического сахара и плюшевости долгое время было больше, чем в C#, да как-то так и прижилось.

Парсинг тривиален. HttpClient, Newtonsoft.Json для разбора JSON, Textify для преобразования HTML в plain text.

Парсинг
Парсинг

Комментировать особенно нечего. Последние две строчки - доли двоеточий и звездочек (в начале элемента списка после преобразования в текст).

Кроме таких простейших подсчетов, попробуем просто спросить GPT-4o, похожа ли статья на генеративную или нет, используя вот такой запрос:

"Оцени, написана ли статья человеком или GPT. Напиши только одно число от 0 до 100, где 0 - статья точно написана человеком. 100 - статья точно написана GPT."

Проверим, что результат - число от 0 до 100, если нет - спросим еще раз. Если не получилось за 5 раз - ну что же, не судьба, идем дальше. В конце сохраним полученные цифры в файл CSV.

Остаток кода
Остаток кода

Анализируем результаты

"Плохой" корпоративный блог
"Плохой" корпоративный блог

Сначала откроем получившиеся таблички и посмотрим глазами. Вот пример "плохого" корпоративного блога, в котором все или практически все статьи нагенерированы нейронкой. При этом их кто-то читает, хотя рейтинг плавает от нуля до десяти.

Средняя доля двоеточий: 0.28%
Средняя доля звездочек: 0.26%
Средняя оценка GPTшности с помощью самой GPT - 85% и очень равномерна.

"Хороший" корпоративный блог
"Хороший" корпоративный блог

К счастью, не все владельцы корпоративных блогов такие халтурщики, во многие из них статьи пишут живые авторы и эти блоги интересно читать, что легко заметить по оценкам - средняя: 70.

Средняя доля двоеточий: 0.25%
Средняя доля звездочек: 0.05%, в пять раз меньше
Средняя оценка GPTшности с помощью самой GPT - 40% и сильно плавает.

Я человек и тоже люблю двоеточия
Я человек и тоже люблю двоеточия

Доля двоеточий оказалась не так интересна, хотя и заметен больший разброс в "человеческом" блоге.

Я GPT и я люблю списки
Я GPT и я люблю списки

А вот со звездочками, они же - пункты списка, всё нагляднее. Любит GPT списки!

Красиво!
Красиво!

Зато GPT прекрасно опознает свое же творчество!

Такие дела

"Почему же наш блог не любят? Наверное, конкуренты минусуют!"
"Почему же наш блог не любят? Наверное, конкуренты минусуют!"

Мне кажется, всё довольно наглядно. Предлагайте или пробуйте свои метрики и признаки в комментариях.

Что с этим делать?

Если вы компания - владелец корпоративного блога - НЕ ПИШИТЕ в блог подобный мусор! Безмозголитератора выгоните на мороз! У ваших статей низкий рейтинг - не потому, что блог не раскручен, не потому что конкуренты минусуют, а потому, что вместо статей - мусор. Который портит Хабр, Интернет и вашу репутацию.

Если вы читатель - не плюсуйте статьи, состоящие из воды и генеративного мусора, гоните и насмехайтесь над БМЛами! Не победим - хоть согреемся...

https://ufile.io/ninb90pf - исходники, вдруг кому нужны.

Комментарии (102)


  1. Exosphere
    18.05.2024 18:26
    +7

    Для чистоты эксперимента - какая доля генеративного контента в блоге компании Хабр? Вот прямо табличку киньте в ответный комментарий.


    1. Bluewolf Автор
      18.05.2024 18:26
      +16

      сsv - https://ufile.io/cw2jyyw1

      Собственно, методы оценки генеративности отдельно взятой статьи - не очень надежные, нельзя говорить именно о доле генеративного контента. GPT при оценке генеративности неплохо так ошибается в плюс. А вот о качестве блога в целом - вполне можно...


      1. Exosphere
        18.05.2024 18:26
        +6

        Я вам могу сказать: в блоге Хабра абсолютно ноль генеративного контента. Мы (авторы блога) не используем нейронки даже для проверки текста.


        1. kt97679
          18.05.2024 18:26
          +4

          Может кто-то из авторов блога тщательно замаскировавшийся робот?


          1. Exosphere
            18.05.2024 18:26
            +12

            Нас раскусили


            1. Imaginarium
              18.05.2024 18:26
              +12

              Это всего лишь означает, что авторы этого блога пишут неотличимо от нейросетей в среднем. Причём, с точки зрения довольно негативных признаков (автора статьи раздражает их наличие а тексте). Не знаю, порадоваться за авторов или пожалеть их)


              1. Exosphere
                18.05.2024 18:26

                У пользователей, к счастью, другое мнение.


                1. sshikov
                  18.05.2024 18:26
                  +6

                  Понятно что мнение реально разное, но и такое есть. К сожалению, довольно часто впечатление от статей (а особенно новостей) публикуемых сотрудниками Хабра именно что неотличимо от продукта нейросетей. Ну т.е. может оно и написано человеком, а результат тот же. И я даже подозреваю, почему - по той же причине, по которой статьи обычных авторов (на интересную автору тему, которую он знает хорошо) отличаются от статей корпоративных блогов, у авторов которых нет темы, и которые (авторы) по сути т.н. копирайтеры.


                1. FanatPHP
                  18.05.2024 18:26
                  +13

                  У каких пользователей? У прикормленных корпоративных аккаунтов, которые выводят в топ любой шлак?

                  Есть такой анекдот

                  Родился малыш. Семья умиляется, и все предсказывают ему будущее.
                  Мать: Вырастет, станет учёным. Глазки какие умненькие!
                  Отец: Hет - военным! Ишь, какой боевой!
                  Дошла очередь до бабушки: Политиком будет
                  Все хором: Почему?
                  Смотрите, обосрался, а как головку держит!

                  Вы уж извините, но, что в этой теме, что в других, вам только и остаётся, что старательно головку держать. Но людей-то за идиотов держать не надо.


                  1. Exosphere
                    18.05.2024 18:26
                    +1

                    Я написала конкретно про наш блог Хабра, который мы и обсуждаем. К нему есть претензии - излагайте.


                    1. FanatPHP
                      18.05.2024 18:26
                      +2

                      Виноват, потерял контекст треда, писал в контексте поста. В котором всё очень и очень печально. Если говорить про корпблог Хабра, то лично мне он скучноват.


            1. rPman
              18.05.2024 18:26
              +1

              @Exosphere, подскажите, как вы сделали спойлер? в wysiwyg его нет а в markdown тег spoiler не работает.


              1. Exosphere
                18.05.2024 18:26
                +2

                Как и всё, выбрала с помощью слэша в визивиге (причём с мобильника делала даже)


                1. rPman
                  18.05.2024 18:26
                  +19

                  спасибо, отвратительный UI у хабра


                  1. ImagineTables
                    18.05.2024 18:26
                    +3

                    Самое невежливое спасибо, которое я видел ))

                    @Exosphere Рацпредложение: сделайте в режиме мрак-дауна иконку «вопросительный знак в кружочке», при нажатии на которую открывается Habr-flavored md cheat-sheet. Я такое видел на редите.

                    Иконка должна быть внизу текстового поля, где её ожидаешь увидеть при написании текста, а не в диалоге выбора M/W, где НЕ ожидаешь. Логично, что справка нужна при написании, а не при выборе режима, не так ли?


                    1. rPman
                      18.05.2024 18:26
                      +5

                      вообще я о другом:

                      типовой пример использования (так было раньше на многих форумах) если я хочу ответить человеку с цитатой, я выделяю нужный мне кусок текста и нажимаю ответить.

                      Тут мне нужно выделить текст, скопировать его (в linux не обязательно) затем нажать кнопку +, затем выбрать цитировать, затем во вставленный в окно редактирования вставить текст

                      Если что, привожу пример как это реализовано на qna хабра (т.е. ранее), я вставляю текст (я ведь могу его вставить из другого места или написать сам), выделяю его в редакторе и нажимаю кнопку - сделать из выделенного текста уитату, спойлер и т.п. Это логично (понятно с первого раза), однообразно, удобно (выделил и нажал 1 кнопку, либо две если выбрать тип кода).

                      Зачем нужно было создавать НОВЫЙ редактор, который сложнее, больше действий, не логичный (почему жирность или код можно сделать выделив его). Плюс я раздражен на самого себя, что не смотря на мой не малый опыт, я не догадался, я видел кнопку + и нажимал ее но не заметил в ней цитирование и воспринял ее как механизм оформления текста заголовками и списками. Именно это и есть то что показывает что UI отвратителен.

                      p.s.

                      Важно: тег <spoiler> не входит в базовый синтаксис markdown, поэтому должен быть отбит пустыми строками от контента.

                      выглядит как баг, из которого сделали фичу, это плохая практика, так же показывает на отсутствие UI дизайнера и грамотные тесты.


                      1. Cerberuser
                        18.05.2024 18:26
                        +1

                        выглядит как баг, из которого сделали фичу

                        Проблема в спецификации Markdown, по идее. Дело в том, что, если текст не отбит пустой строкой от HTML - с точки зрения Markdown он считается частью этого HTML и как Markdown не парсится.


              1. Squoworode
                18.05.2024 18:26

                в wysiwyg его нет

                Почему же нет?


              1. Dolios
                18.05.2024 18:26
                +2

                https://habr.com/ru/docs/help/markdown/

                Спойлер в markdown

                Работает вроде


                1. rPman
                  18.05.2024 18:26

                  многократно проверял
                  проверка
                  вот такой текст:
                  <spoiler title="Заголовок спойлера">проверка</spoiler>


                  1. Cerberuser
                    18.05.2024 18:26
                    +6

                    Прямо по ссылке:

                    Важно: тег <spoiler> не входит в базовый синтаксис markdown, поэтому должен быть отбит пустыми строками от контента.


                    1. Dolios
                      18.05.2024 18:26
                      +10

                      Если ничего не помогло, прочтите уже, наконец, документацию (с)


        1. Bluewolf Автор
          18.05.2024 18:26
          +3

          Нисколько не спорю и ещё раз скажу, что надёжное определение генеративности отдельных статей теми простыми методами, что есть в статье - невозможно. Они позволяют лишь увидеть откровенный трешняк, когда весь блог состоит из генеративного контента.


          1. Exosphere
            18.05.2024 18:26
            +11

            "Откровенный трешняк" часто видно невооружённым глазом :-) Поскольку я разгребаю тучи статей в модераторской песочнице, могу вам для коллекции добавить ещё два критерия, которые вызывают большую настороженность и характерны для нейронок:

            1. В тексте непременно повторяется один и тот же тезис, но немного другими словами (бывает, что и три раза) - это очень характерно.

            2. Всегда даётся базовое определение или введение. Особенно смешно читать определение чего-то совсем простого типа "тестирование - это...", "подбор персонала - это..."

            Отклоняем очень много такого. Есть те, кто использует более толково. Но, конечно, ничего пока не доказуемо, просто как правило общий уровень статей тоже ниже нуля.


            1. achekalin
              18.05.2024 18:26
              +12

              В тексте непременно повторяется один и тот же тезис, но немного другими словами

              Это мой любимый критерий понять, что текст написан т.н. "редактором Хабра". Рад бы ошибиться, но пока критерий 100% работает - и, что "приятно", Хабр верен себе, такой шрот не удаляет и авторам на вид, "очевидно", не ставит.

              Понимаю, что "другого Хабра у меня для вас нет", и что хиты не пахнут, но испанский стыд испытываю. Впрочем, я, конечно, помню, что Хабр - ресурс частный, и сделан ради больших денег, а не ради удобства какого-то чтения каких-то там посетителей.

              P.S. Должен сказать, что комментариев сотрудников Хабра на Хабре особо не много встречаю. Ощущается так, что те, кто надо, решили, что, запилив некие правила, они сделали саморегулирующееся сообщество, где народ сам разберется (на ссамом деле - нет) и можно особо не вкладываться, а просто стричь купоны. Несмотря на косяки с логикой работы кармы, на нестыковки в применении правил, на моменты, явно влияющие на жизнь комьюнити (и это я еще политическую составляющую не беру) - сам хабр в лице ответственных сотрудников) либо забивает болт скромно игнорит проблему, лиьо отвечает обтекаемо, либо расчехляет плюсомет (пользуясь терминами Фидо), причем не осоьо погружаясь, и весьма непредсказуемо. Ваш и комментарии лично мне удивительны и упоминанием про модерацию на регулярной основе (Вы точно из Хабра!?), и, вообще, самим фактом комментов со стороны полевого работника компании. Развитие правил, отслеживание их применения, тюнинг логики кармы - всё это прячется за "туманом кармы" по одной причине, что так проще недоработки скрывать, т.е. с целью затруднить аудит. Там же (примерно нигде) борьза с ботами, а также борьба за качество контента, ну и извечный ответ в стиле "все равны, но некоторые равнее" в отношении джинсы корпблогов и нетленки редакторов.

              Может, не всё потеряно, и старый добрый Хабр вернется?


              1. Exosphere
                18.05.2024 18:26
                +3

                 упоминанием про модерацию на регулярной основе

                Она всегда была, есть и будет. Наш отдел по работе с пользователями на регулярной основе работает со статьями, песочницей, пользователями - некоторый контент мы оцениваем и проверяем до публикации, даём редакторские советы (правда, увы, пока довольно медленно, потому что поток большой).

                 "все равны, но некоторые равнее" в отношении джинсы корпблогов и нетленки редакторов

                Над этим мы и наши коллеги из комм. службы работаем - у нас постоянно проходит обучение корп. клиентов и мы прямо по пунктам разбираем "бесячие" ошибки, но вы же понимаете, что многие всё равно сделают по-своему и формально что-то сделать трудно.

                С редакторами пообщаемся, передадим замечания.

                Вы точно из Хабра!?

                Точно, 9 лет в Хабре.

                полевого работника компании

                Так вижу

                Модератор отбирает статьи новых авторов из Песочницы


                1. OBIEESupport
                  18.05.2024 18:26

                  Народ! Так нельзя издеваться над корпоративным контентом. Учить писать взрослого технаря, это как забивать плоскогубцами железнодорожный костыль. То-то из песочницы выпадают потом статьи "Особенности животноводства процессорного времени", или уж совсем яркий пример "Как украсть сметаны у виртуального кота".

                  Автор, хороший вы человек, но есть такая наука о текстах, как текстология. И ни одним, даже сверхмощным и сверхсильным алгоритмом не пересилить как коллективное бессознательное редакции, так и отдельных авторов-переводчиков. С кармой за 200 можно самому учить любую GPT думать о тексте правильно )).


                1. Flammmable
                  18.05.2024 18:26
                  +9

                  Она всегда была, есть и будет. Наш отдел по работе с пользователями на регулярной основе работает со статьями, песочницей, пользователями - некоторый контент мы оцениваем и проверяем до публикации, даём редакторские советы

                  О, кстати, вопрос. Я всегда (ну, последние 8 статей) пользуюсь услугами платного корректора. Он невероятный педант и расставляет не только забытые запятые, но и неразрывные пробелы, тире вместо дефисов, знаки "Минус" вместо тире и так далее.

                  Но есть ощущение, что после публикации на статьи регулярно НАБИГАЕТ штатный хабровский корректор, который вносит свои правки, не всегда по делу. Он, например, обожает штатные списки, но они не всегда хорошо смотрятся в тексте и некоторые списки я сознательно делаю при помощи 1) и перевода на новую строку.

                  Так ли это? Если да, как этого избежать? Как сделать так, чтобы статью не "улучшали" после публикации?


                  1. garus_ru
                    18.05.2024 18:26
                    +9

                    Я всегда (ну, последние 8 статей) пользуюсь услугами платного корректора

                    Огромное, человеческое вам СПАСИБО!

                    От читателя.


                    1. Flammmable
                      18.05.2024 18:26

                      На здоровье :)

                      Подписывайтесь, ставьте лайки, оставляйте ваши комментарии ))))


                      1. MaFrance351
                        18.05.2024 18:26
                        +1

                        Аналогично поддерживаю. У вас очень крутой материал, спасибо за статьи.


                      1. Flammmable
                        18.05.2024 18:26
                        +1

                        Спасибо, спасибо ))) Вдвойне приятно слышать это от вас. Имитировать работу базовой станции - это какая-то магия!

                        На неделе готовлюсь опубликовать очередную статью ;)


                  1. Exosphere
                    18.05.2024 18:26
                    +1

                    Списки исправляет модератор, не корректор. Из соображений общего стиля верстки. Чтобы не улучшали, можно просто сказать мне. Записала, не будем :-)


                    1. Flammmable
                      18.05.2024 18:26
                      +7

                      Это, на самом деле, круто, что у модерации Хабра есть ресурсы на корректуру, а не только на вычищение вопиющих нарушений.

                      Но именно в моём случае это некоторое количество раз прям шокировало. Например. Мой корректор рекомендует делать из перечисления "во-первых ... во-вторых ... в-третьих" квазисписок при помощи переходов на новую строку, но в том же абзаце.

                      Представляете моё удивление, когда в статье все переходны на новую строку были заменены на начала новых абзацев? ))))) Нажав в очередной раз F5 и увидев изменения на экране, я чуть не сделал "Пффффффф" отпитым чаем в монитор.


                      1. Exosphere
                        18.05.2024 18:26
                        +1

                        Принято!


            1. sshikov
              18.05.2024 18:26

              бывает, что и три раза

              Вообще, когда меня учили делать презентации, как раз рекомендовали повторять тезисы. Т.е. минимум пару раз, чтобы лучше дошло и запомнилось. Так что три - это не так уж и много :) А два по некоторым критериям считается полезным.


              1. Exosphere
                18.05.2024 18:26
                +2

                Повторять тезисы - это не писать три раза определение или, например, пояснение формулы. Жаль, я такое не скринила - встречу, сохраню.


                1. sshikov
                  18.05.2024 18:26

                  Ну я согласен, без текста это не особо имеет смысл.


            1. Newbilius
              18.05.2024 18:26

              Под пункт 1 попадает львиная доля американского научпопа с 90х по настоящее время)


            1. VT100
              18.05.2024 18:26
              +2

              ЧатГопоты может позволить (позволял?) себе такую мякотку, как "взаимоисключающие параграфы". Хотя, я и в официальном документе человечьего "поверенного" такое встретил однажды.


        1. feelamee
          18.05.2024 18:26

          так на картинке и показано вроде бы, что блог хабра хороший. Так что авторы котики)

          Что, к сожалению, не могу сказать о других корпоративных блогах


    1. TimurTukaev
      18.05.2024 18:26

      там ребята норм пишут, задроты в лучшем смысле этого слова)


  1. R0bur
    18.05.2024 18:26
    +7

    Было бы хорошо, если бы Хабр автоматически с помощью подобной программы проверял статьи и ставил соответствующий маркер. Хотя начнётся очередное противостояние брони и снаряда...


    1. baldr
      18.05.2024 18:26
      +17

      Проблема в том, что сам хабр не очень заинтересован в этом. Им - чем больше статей - тем лучше. Любого качества. Даже 3 просмотра - это 3 просмотра.

      Копроративные блоги - это вообще неприкасаемые, поскольку они приносят деньги. Любая трэш-статья на тему типа "Дорожная карта основных HR-исследований" будет набирать свои 3 плюса и висеть годами.

      Заинтересованы в этом мы с вами - читатели. Но наши возможности влиять на это довольно ограничены. Увидели вы такую статью в ленте - вы пропустите и не будете заходить чтобы поставить минус. Через пару лет кто-нибудь напишет плагин для браузера чтобы автоматически помечать такие статьи..


      1. MountainGoat
        18.05.2024 18:26
        +6

        чем больше статей - тем лучше. Любого качества.

        Не в перспективе. Сначала всё вроде ОК: контент крутится, просмотр мутится. Потом вдруг появляется конкурент с качественным отбором контента, и публика резко начинает валить. И тут уже поздняк чинить у себя, потому что репутация "мусоропровода" закрепилась надолго.


        1. Fahrain
          18.05.2024 18:26
          +8

          А потом конкурент внедряет подобное и у себя и цикл уходит на следующий круг.


        1. maxzh83
          18.05.2024 18:26
          +2

          Потом вдруг появляется конкурент с качественным отбором контента

          Да даже без конкурента. Я уже давно на хабре новости (которые тоже спорного качества) стал читать сильно чаще чем статьи. Просто потому, что процентов 80% статей это беспросветное уныние. И судя по кол-ву просмотров у статей, я такой не один.


    1. Exosphere
      18.05.2024 18:26
      +13

      Мы внимательно следим за инструментами такого рода, и все они, уж простите за лексику, лажовые. И этот инструмент также может показать тренд, но не даст точности. И, например, примет за генеративный контент очень «занаученную» статью.

      Или, например, я страшно люблю списки в статьях. Использую недуром. Получается, этот признак есть?


      1. R0bur
        18.05.2024 18:26
        +3

        Да, согласен, выбор хорошей оценочной методики - непростая задача. Что, в общем-то, признаёт и автор этой статьи. Ведь, как я понял, сеть GPT4 не всегда честно отвечает на прямой вопрос: "Ты писала эту статью? Да или нет?!". Но есть же методики, по которым устанавливают авторство текстов (Пушкин или Некрасов и т. п.)...


        1. Exosphere
          18.05.2024 18:26
          +1

          Есть экспертные методики, они ручные, без API, их не подключить к потоку статей. А вручную даже просто подозрительный объём - очень много. Конечно, инструмент очень хочется и важность его пока будет расти. Но вообще ничего достойного (как, например, у антиплагиатов разных).


      1. sshikov
        18.05.2024 18:26
        +1

         очень «занаученную» статью.

        А кто-то любит такие статьи? Как по мне, значительная доля таких статей - это антинаучный бред опровергателей физики, аэродинамики, что там у нас еще опровергали? Я не хочу сказать, что они не нужны, но они выбиваются из общего стиля.

        Ну чтоб далеко не ходить: "Дорожная карта основных HR-исследований" - уже упоминали. Этот корпоративный блог характерен тем, что там числится с десяток (по-моему штук 13) авторов (при том что про компанию написано, что в ней менее 10 человек ;), но при этом стиль всех без исключения статей - ну прямо бюрократический 10 из 10. И одинаковый.


        1. SystemOutPrintln
          18.05.2024 18:26
          +1

          Согласен. Эта "дорожная карта" выглядит как сугубо бюрократический документ, предназначенный не для того, чтобы его читали, а чтобы был.


    1. ImagineTables
      18.05.2024 18:26
      +5

      Для начала, неплохо бы было ввести новое основание для минуса «Патамушта чатбот».


  1. R0bur
    18.05.2024 18:26
    +2

    Для автоматизации этого дела напишем программку на VB.NET. Почему на нем? А я когда-то давным-давно начинала с бейсика, потом VB6, потом VB.NET, в котором синтаксического сахара и плюшевости долгое время было больше, чем в C#,

    Я бы ещё использовал уникальную для VB "сахарную" конструкцию With...End With:

    With textWriter
    	.Write (...)
    	.Write (...)
    	...
    End With
    

    Но такую толковую программу я бы не написал.


    1. DortanMors
      18.05.2024 18:26
      +5

      Ничего она не уникальна, в Kotlin, например, множество инструментов для работы с контекстом (переопределение джавовского this)


    1. kmeaw
      18.05.2024 18:26
      +2

      Точно такая же есть в js (хотя некоторые хотят, чтобы её не было):
      with (textWriter) { write(...); }


      1. R0bur
        18.05.2024 18:26
        +3

        Вообще-то не точно такая же. Что в Вашем примере произойдёт, если наряду с методом textWriter.write (...) в область видимости попадёт функция write (...)? А в конструкции VB этот вопрос разрешён однозначно: если в теле конструкции With ... End With перед именем стоит точка, то будет задействован метод или свойство объекта, а если точки нет — переменная или функция. В каком ещё языке программирования есть такое наглядное и элегантное решение?


      1. acsent1
        18.05.2024 18:26

        на MDN "with" помечено как deprecated


  1. ildarin
    18.05.2024 18:26
    +1

    Куча уже есть решений для оценки "генеративности" контента. Сам не пользовал, но вот ссылка на гугл поиск. Первая вроде как даже даёт апи и фри юз. Хотя там только ингл. Но, думаю, если поковыряться - можно что-то найти.


    1. Exosphere
      18.05.2024 18:26
      +2

      Ищем, проверяем. Даже у меня есть несколько моих текстов разного формата (не только для Хабра), которые я скармливаю сервисам, + два текста на английском языке (тоже моих), которые позволяют оценить модель. Доходит до смешного: у некоторых сервисов две идентичные попытки дают разный результат.


      1. VADemon
        18.05.2024 18:26

        Напомнило ИИ стартап (до нынешнего бума): умные электрические счетчики автоматически определяли потребителя дома, только по профилю потребления. Оказалось, там на аутсорсе сидели натренированные индусы :)


        1. MaFrance351
          18.05.2024 18:26

          Вспомнилось что-то:

          https://habr.com/ru/companies/regionsoft/news/547764/


  1. vagon333
    18.05.2024 18:26
    +3

    Любит GPT списки!

    Критерий от фонаря.

    Я тоже структурирую всю выдаваемую информацию и люблю списки.
    Посмотрел в зеркало - совсе не похож на GPT.


    1. MaFrance351
      18.05.2024 18:26
      +9

      А вот обилие маркированных списков из одного элемента - довольно характерный признак.


    1. Jeshua
      18.05.2024 18:26
      +6

      Нормальный критерий. Он означает "GPT любит списки статистически значимо больше, чем средний человек". Возможно, вы не средний человек. Я практически в каждом запросе добавляю "Постарайся обойтись без списков". Это работает.


    1. DrArgentum
      18.05.2024 18:26

      согласен, я тоже люблю перечислять все через списке, легче так объяснять что за чем идет, или основные моменты чего-либо.


      1. Jeshua
        18.05.2024 18:26
        +2

        Когда я пишу списки, они выглядят как нормальные предложения, часто в пассивном залоге, как принято в русскоязычной традиции со времен Эйлера. Они могут быть в повелительном наклонении, если я пишу инструкцию. Иногда они выглядят просто как перечни свойств. Они естественные.

        Списки от ИИ выглядят так:

        Именное словосочетание жирным шрифтом, двоеточие или тире, сложное предложение с большой буквы в present simple (только по-русски).

        1.       Временный характер проектов: Проекты имеют четко определенное начало и конец, что отличает их от операционной деятельности, которая носит постоянный характер.

        2.       Уникальность результатов: Каждый проект направлен на создание уникального продукта, услуги или результата, что делает его уникальным и отличным от других проектов и процессов.

        Этот стиль узнается сразу же, никаких лингвистических анализаторов не надо. Лично у меня он вызывает эффект зловещей долины - вроде всё правильно написано, но веет мертвечиной.


  1. ganqqwerty
    18.05.2024 18:26
    +9

    Мне интересно, какие последствия будут от того, что такого контента в инете станет 99%?

    В области обучения нейронок - придется быть очень консервативными в выборе материалов для обучения. А в социальной среде, наверное, произойдет возврат к личным рекомендациям и небольшим сообществам со строгой проверкой участников?


    1. gmtd
      18.05.2024 18:26
      +7

      За последние 15 лет низкоквалифицированного и инфоцыганского технического контента в сети стало 99%
      Если нейронки вклинятся, общий уровень инета должен повыситься.
      Чисто математически


      1. ganqqwerty
        18.05.2024 18:26
        +11

        дык они ж на нем и учатся


    1. acsent1
      18.05.2024 18:26
      +2

      Люди все меньше и меньше будут читать лонгриды


    1. sunsexsurf
      18.05.2024 18:26

      Где-то была шутка про то, что одни модели генерят посты, другие - пишут под ними комментарии. Поэтому люди все реже будут что-то писать публичное и комментировать, Чего роботам мешать? ))


      1. rPman
        18.05.2024 18:26
        +2

        Это не шутка а огромная проблема будущего.

        Если повредить главное что есть у человеческого социума - возможность к общению (замещение живого - не живым, контролируемым, т.е. однобоким и фильтруемым) можно получить его деградацию.