В последние годы искусственный интеллект (ИИ) сделал значительные шаги вперед, особенно в области создания текстов. Сегодня ИИ способен писать статьи, сообщения и даже художественные произведения, которые на первый взгляд трудно отличить от работ человека. Однако существуют определенные признаки, методы и инструменты, которые могут помочь распознать текст, написанный ИИ. В этой статье мы рассмотрим основные признаки ИИ-текста, методы его распознавания и доступные инструменты для этой цели.
Повторяемость и шаблонность
Одним из наиболее явных признаков текста, созданного искусственным интеллектом, является его повторяемость и шаблонность. Искусственный интеллект, обученный на больших объемах данных, имеет тенденцию использовать повторяющиеся фразы и структуры предложений. Это связано с тем, что ИИ модели, такие как GPT-3, GPT-4 или ChatGPT-4o (Hа российском рынке GigaChat, YandexGPT), обучаются на текстах из интернета, книг и других источников, где встречаются определенные лексические и синтаксические шаблоны. Поэтому тексты, сгенерированные ИИ, могут казаться механическими и однообразными.
Эта повторяемость может проявляться в использовании одних и тех же слов и выражений, а также в схожих структурах предложений. Например, ИИ может часто повторять слова и фразы, такие как "в заключение", "однако" и "в результате". Эти фразы часто встречаются в текстах, которые ИИ использовал для обучения, и поэтому они становятся частью его арсенала.
Пример:
«Зимой идет снег. Летом светит солнце. Осенью опадают листья. Весной цветут цветы.»
Повторяемость очевидна, так как ИИ может создавать тексты по заранее определенным шаблонам, что делает их предсказуемыми.
Дополнительно, ИИ может повторять определенные стилистические приемы, такие как одинаковая длина предложений или использование однотипных слов и выражений. Например, если ИИ обучался на новостных статьях, он может часто использовать вводные фразы вроде "согласно источникам" или "в соответствии с данными". Эти шаблоны делают текст предсказуемым и менее живым.
ИИ также может повторять одни и те же идеи и темы в разных частях текста. Например, в эссе об экологии ИИ может многократно упоминать важность сохранения лесов, используя одинаковые аргументы и примеры. Это повторение делает текст монотонным и скучным.
Пример:
Важно отметить, что в результате использования новых технологий, однако, возникают новые возможности и вызовы. Важно подчеркнуть, что новые технологии предоставляют много возможностей, но и создают вызовы. Технологические инновации открывают двери для новых возможностей, но также вызывают определенные вызовы.
Здесь можно заметить, что одно и то же утверждение повторяется с небольшими вариациями, что является явным признаком шаблонного мышления ИИ.
Для читателя такие тексты могут казаться менее увлекательными и информативными, поскольку повторение и шаблонность создают ощущение, что текст не приносит ничего нового. Это особенно заметно в длинных текстах, где разнообразие формулировок и идей имеет большое значение для удержания внимания аудитории.
Отсутствие глубины и оригинальности
Тексты, написанные ИИ, часто страдают от недостатка глубины и оригинальности. Искусственный интеллект, несмотря на свою способность обрабатывать большие объемы данных и генерировать связные тексты, не обладает личным опытом, эмоциональной вовлеченностью и критическим мышлением, которые характерны для человеческого творчества. Это приводит к созданию поверхностных и предсказуемых текстов, лишенных уникальных взглядов и глубокого анализа.
ИИ обучается на текстах, которые были созданы людьми, и использует эти данные для генерации новых текстов. Однако он не способен к оригинальному мышлению или творческому осмыслению информации. Вместо этого ИИ комбинирует и воспроизводит уже существующие идеи и формулировки, что приводит к созданию текстов, которые могут казаться банальными и однообразными.
Пример:
Спорт полезен для здоровья. Он помогает поддерживать физическую форму и улучшает настроение. Регулярные занятия спортом снижают риск развития многих заболеваний.
Это утверждение является общим и банальным. Оно не предлагает нового или глубокого анализа и может быть найдено в бесчисленных других источниках.
ИИ также может испытывать трудности с созданием уникальных и запоминающихся метафор, аналогий и других литературных приемов, которые делают текст ярким и интересным. В то время как человек может использовать личные воспоминания, эмоциональные переживания и творческое воображение для написания текста ИИ ограничен статистическими моделями и шаблонами, которые были заложены в него при обучении.
Структурные ошибки и нелогичности
Несмотря на впечатляющие достижения в области искусственного интеллекта, тексты, созданные ИИ, могут содержать структурные ошибки и нелогичности. Эти ошибки могут проявляться по-разному, начиная от странных переходов между предложениями и абзацами до использования неправильных местоимений и включения неверных фактов.
ИИ генерирует текст, основываясь на вероятностных моделях, предсказывая наиболее вероятное следующее слово или фразу. Однако, такие модели не всегда способны понять и учитывать сложные контексты и связи между частями текста, что приводит к нелогичностям. Например, ИИ может переключиться с одной темы на другую без корректного перехода, что делает текст трудным для восприятия и понимания.
Пример:
Компания Apple была основана в 1976 году. Сегодня она является лидером в производстве мобильных телефонов, и многие люди используют их продукты для просмотра видео на YouTube, что показывает, что спорт важен для здоровья.
В этом примере переход от обсуждения компании Apple к спорту и физической активности является нелогичным и сбивающим с толку.
Избыточное использование ключевых слов
Одним из очевидных признаков текста, написанного искусственным интеллектом, является избыточное использование ключевых слов. Это особенно характерно для текстов, созданных с целью улучшения видимости в поисковых системах (SEO). ИИ-модели, обученные на SEO-текстах, могут чрезмерно использовать ключевые слова, чтобы повысить рейтинг страницы в поисковой выдаче. Однако это приводит к созданию текста, который выглядит неестественно.
Искусственный интеллект часто повторяет ключевые слова и фразы с высокой частотой, поскольку алгоритмы, на которых он основан, обучаются на огромных массивах данных, включающих тексты с оптимизацией под поисковые системы. Это приводит к тому, что ИИ пытается имитировать успешные шаблоны, но без учета естественного течения языка и стиля. В результате текст теряет свою плавность и становится избыточно насыщенным одними и теми же словами и фразами.
Пример:
Продажа автомобилей в Москве — это выгодное предложение. Если вас интересует продажа автомобилей в Москве, то вы обратились по адресу, так как продажа автомобилей в Москве — это то, что мы делаем лучше всего.
В этом примере ключевая фраза "продажа автомобилей в Москве" повторяется многократно, что делает текст неестественным и трудным для восприятия.
Избыточное использование ключевых слов может привести к так называемому "keyword stuffing" — практике, когда ключевые слова вставляются в текст настолько часто, что это нарушает его читаемость и логику. Поисковые системы, такие как Google, уже давно борются с этим явлением и накладывают на сайты определенные санкции в виде снижения их рейтинга в поисковой выдаче. Хотя ИИ, обученный на устаревших или неправильно оптимизированных данных, может продолжать генерировать тексты с избыточным количеством ключевых слов.
Кроме того, тексты, насыщенные ключевыми словами, могут потерять смысл и связность, поскольку ИИ старается вставить ключевые слова в каждое предложение, даже если это неуместно. Это приводит к фрагментации текста и снижению его общей информативности и полезности для читателя.
Пример:
Купить одежду онлайн легко и удобно. Когда вы покупаете одежду онлайн, вы можете выбирать из широкого ассортимента. Покупка одежды онлайн также позволяет сравнивать цены. Одежда онлайн доступна в любое время. Купить одежду онлайн можно на нашем сайте.
Повторение фразы "купить одежду онлайн" делает текст однообразным и скучным.
Избыточное использование ключевых слов также может мешать пониманию основного посыла текста. Вместо того чтобы сосредоточиться на главной идее или аргументе, читатель вынужден постоянно сталкиваться с повторяющимися фразами, что отвлекает и раздражает.
Пример:
Путешествия по Европе предлагают уникальные возможности. Путешествия по Европе позволяют увидеть разнообразие культур. Путешествия по Европе — это шанс посетить исторические места. Путешествия по Европе — это незабываемые впечатления. Путешествия по Европе — это комфорт и удобство.
Здесь повторение фразы "путешествия по Европе" затрудняет восприятие и мешает сконцентрироваться на информации.
Для распознавания избыточного использования ключевых слов можно использовать автоматизированные инструменты анализа текста. Такие инструменты оценивают частотность употребления ключевых слов и сравнивают её с общей длиной текста, что позволяет выявить случаи "keyword stuffing".
Таким образом, избыточное использование ключевых слов является важным признаком текстов, созданных ИИ, особенно в контексте SEO. Обращая внимание на частотность ключевых фраз и их естественность в тексте, можно лучше понять, был ли текст создан искусственным интеллектом, и оценить его качество и удобочитаемость.
Заключение
Распознавание текста, созданного искусственным интеллектом, требует внимательного анализа и понимания характерных признаков, которые отличают его от текста, написанного человеком. Основные признаки включают повторяемость и шаблонность, отсутствие глубины и оригинальности, структурные ошибки и нелогичности, а также избыточное использование ключевых слов.
Эти особенности возникают из-за ограничений ИИ в понимании контекста, творческом мышлении и способности к критическому анализу. Несмотря на значительные достижения в области машинного обучения, искусственный интеллект пока не может полностью воспроизвести сложность и нюансы человеческой речи.
Понимание этих признаков важно для различных сфер, включая журналистику, образование и цифровую грамотность. Это позволяет не только выявлять искусственно созданные тексты, но и оценивать их качество и надежность. В дальнейшем, по мере развития технологий ИИ, навыки распознавания таких текстов будут становиться все более актуальными и востребованными.
Комментарии (21)
JastixXXX
23.05.2024 22:04+1Если бы все так просто было...
На русском то может быть и можно этими методами отличить, а вот на английском тот же ChatGPT выдает крайне достойные результаты. Ну я имею в виду в плане структуры и читаемости. Полезность содержимого там когда как.
При чем больше всего нервируют подобного рода генерированные тексты в "художественном" чтиве, когда написано много, а по факту вода и вода. Читаешь такое, вот уже преодолен рубеж половины, а к сути так и не перешли. И не знаешь что делать дальше - продолжать чтение с шансом потратить время впустую, или бросить это занятие.
Radisto
23.05.2024 22:04+5Не владею английским в достаточной степени, но в русском языке нейросети строят фразы иной раз странно. Видел художественный текст, сгенерированный таким образом: фразеологизмы и устойчивые словосочетания были спутаны, сливались со схожими. Знаете, когда сложно понять, что не так, но остаётся стойкое ощущение, что писавший это - иностранец или несколько не в себе. Но для этого надо быть носителем языка. Текст нейросети на английском надо вычитывать англоязычному.
Traveller0968
23.05.2024 22:04+1Полагаю что скоро нейросети будут привлекать для распознавания того кто писал текст, нейросеть или человек, следующая итерация будет в стороне человека, ученый, журналист, .... дебил, шизофреник... :)
piton369
23.05.2024 22:04+2Вообще уже есть)) Погуглив нашёл пяток)) И с картинками вроде тоже есть сервисы))
riv9231
23.05.2024 22:04У больших моделей, по моему, часто тексты более толковые чем у людей. Но понять что этот ИИ-текст, все равно можно, теперь текст уж очень логично разложен по полочкам, рассуждения идут, в неком ритме. Когда много общаешься с моделью возникает впечатление начитанности. Но воды llm-модели и вправду любят добавлять, причем зачастую там, где очевидно этого не требуется. Например, после написания тривиального скрипта, модель будет разжевывать и объяснять его ещё более тривиальные и абсолютно очевидные части, типа тут мы пингуем goole (ping 8.8.8.8).
ABRogov
23.05.2024 22:04+2Лично для меня вопрос воды в таких текстах остается загадкой, я бы ожидал обратного, то есть абсолютно сухой текст только с тем что спросили (как в анекдоте про "купи хлеба, если будут яйца возьми десяток"). Неужели нельзя сделать тумблер
"с газом/без газа", с водой/без воды?Sipaha
23.05.2024 22:04+2Неужели нельзя сделать тумблер
"с газом/без газа", с водой/без воды?Можно просто попросить писать суше/влажнее. Нейронки очень хорошо работают с уточнениями.
Думаю что все попытки обнаружить авторство ИИ обречены конечном счете на провал. Да, есть сейчас признаки, за которые можно зацепиться (и то с вероятностью далекой от 100%), но прогресс не стоит на месте и все эти признаки в скором времени будут сглажены и нормализованы.
atues
23.05.2024 22:04+9Пост размещен в том числе в хабах Java и Python. Как бы предполагается либо код, либо ссылки на репы. Не нашел. Сдается, что это творчество ГоПоТы (GPT). Работайте, натаскивайте, проверяйте. Пока минусую, извиняйте
matacob
23.05.2024 22:04+4Ирония в том, что эта статья сама под половину перечисленных пунктов подходит.
positroid
23.05.2024 22:04+1https://arxiv.org/abs/2403.19148
Есть же уже программные средства по определению сгенерированного текста. Ирония в том, что уже сейчас они определяют только 39.5% текстов верно. Если добавить некоторые уловки в виде опечаток / ошибок - точность падает до 22%.
При этом написанные людьми тексты определяются верно как человеческие тоже только в 67% случаев.
Aizz
23.05.2024 22:04Не только "Изображение создано мной с использованием ChatGPT-4o", но и весь текст, похоже, тоже.
papa_inura
23.05.2024 22:04Интересно, что в статьях часто говорят про ИИ, а вот комментаторы стараются использовать термин "нейронная сеть", что конечно куда точнее. Видимо в статьях "ИИ" сразу даёт пинка рейтингу, продвигает в метриках или что там у вас работает. До ИИ современным нейронкам всё ещё довольно далеко.
eulampius
23.05.2024 22:04+1Представьте, что мы переместились во времени на 30 лет назад. И эта статья написана для учителей и называется "Как отличить хорошее сочинение от плохого" ))
patagonec
23.05.2024 22:04+1С какой целью вообще нужно распознавать "искусственный" текст?
В свете растущей производительности процессоров AI уже здесь и скорее всего он с нами уже навсегда.
Будущее за теми, кто первый создаст персонифицированное AI. Например, нетфликс технологично и явно по методичке с лёгкостью убили киноиндустрию. Очевидно, далее они или их конкуренты поставят себе целью войти в мир глубже и заменить человеческое окружение на чат с AI-ботом. AI станет полноценным и удобным собеседником на постоянной основе. Зачем смотреть новости в тв или интернете, если их может интересно и доступным языком рассказать и показать AI? Зачем смотреть фильм с нелюбимым актером, если его можно заменить на приятного? AI не будет раздражать тем, что не нравится пользователю, вплоть до генерации абсолютного фейка. И каждый будет жить в своём липовом мире сладкого сиропа. Даже сейчас многие не могут оторваться от бесконечного скроллинга в соцсетях. Страшно подумать, что будет, когда весь контент, получаемый конкретным пользователем, станет контроллировать AI. Это хищные вещи века. И "распознавалочкой" здесь ничего не решить.
mracobes281
23.05.2024 22:04Статья устареет месяца через 3.
Всё сказанное скоро станет неактуально для современных нейронок. Очень быстро развитие идет, гляньте на генераторы картинок. Так же и текст будет не отличить. Имеются ввиду актуальные топовые модели, а не дегродские пародии
NightShad0w
Для того, чтобы распознать текст, сгенерированный нейронной сетью, сперва необходимо как появились тексты. Первые тексты появились на заре веков и являлись продуктом развития цивилизации. Как мы увидим далее, некоторые тексты могут быть менее полезны, чем другие. Чтобы распознать сгенерированный текст нужно всего лишь раз в день прикладывать к затылку чайную ложку простой советской ...