Детекторы ИИ ошибаются, и это сильно бьёт по студентам / forpes.ru

Главная
Детекторы ИИ ошибаются, и это сильно бьёт по студентам

Детекторы ИИ ошибаются, и это сильно бьёт по студентам +17

29.10.2024 08:34

PatientZero 11 4200 Источник

В начале пандемии Мойра Олмстед ненадолго покинула колледж, чтобы выйти замуж, после чего готова была вернуться к занятиям. Несколько месяцев подряд она выкраивала время между работой на полную ставку и уходом за младенцем для участия в программе со свободным графиком, позволявшей обучаться удалённо. На седьмом месяце беременности вторым ребёнком в 2023 году Олмстед поступила на онлайн-курсы педагогики в Центральном методистском университете.

В начале осеннего семестра Олмстед отправила письменное домашнее задание по курсу, один из трёх конспектов по прочитанному, которые нужно было писать каждую неделю. Вскоре после этого она ей пришла оценка: ноль. Обратившись к своему преподавателю, она узнала, что инструмент выявления ИИ определил её работу как сгенерированную искусственным интеллектом. По словам преподавателя, одно из её заданий уже было помечено таким же образом ранее.

Для 24-летней Олмстед это обвинение стало огромным ударом. Кроме того, оно угрожало её дальнейшей учёбе в университете. «Я была потрясена, ведь у меня могли забрать плоды моих трудов за то, чего я не делала», — рассказывает она.

Олмстед обсудила это обвинение со своим преподавателем и с куратором, заявив, что у неё расстройство аутистического спектра и что она пишет в шаблонной манере, из-за чего тексты ошибочно можно принять за сгенерированные ИИ. В конечном итоге её оценку исправили, но предварительно она получила строгое предупреждение: если на её работу снова пожалуется программа, то преподаватель отреагирует на неё так же, как на плагиат.

Olmsted shows a student's written assignment that was flagged as likely written by AI. — Олмстед показывает задание, которое программа посчитала с большой вероятностью сгенерированным ИИ

Два года назад ChatGPT компании OpenAI сделал генеративный ИИ популярным среди широкой публики, поэтому образовательные учреждения вынуждены были стремительно адаптироваться к новым условиям. Сегодня преподаватели используют новые инструменты для распознавания, помогающие находить предложения, абзацы или даже целые работы, сгенерированные искусственным интеллектом. Согласно опросу, проведённому в марте Центром демократии и технологий среди более чем 450 наставников, примерно две трети преподавателей регулярно используют программы для проверки на ИИ.

Лучшие детекторы сгенерированных ИИ текстов имеют высокую точность, но и они не защищены от ошибок. Мы протестировали два самых популярных сервиса, GPTZero и Copyleaks, на случайной выборке из 500 эссе для поступления в колледж, отправленных в Техасский университет A&M летом 2022 года, вскоре после выпуска ChatGPT; по сути, это гарантировало, что они не были сгенерированы ИИ. Эссе были получены после запроса публичных данных, то есть они не содержались в датасетах, на которых обучались ИИ-инструменты. Мы обнаружили, что сервисы ошибочно пометили 1-2% эссе как написанные ИИ с большой вероятностью, в некоторых случаях утверждая это почти со стопроцентной уверенностью.

Даже такая малая доля ошибок может быстро накапливаться с учётом большого количества ежегодных заданий; для студентов, работы которых были ошибочно помечены как сгенерированные, это может иметь катастрофические последствия. Как и в случае с обвинениями в обычном жульничестве и плагиате, студенты, использующие для выполнения домашних заданий ИИ, должны переделывать их; при этом им снижают оценки и могут установить испытательный срок.

Наиболее подвержены ошибочным обвинениям студенты, пишущие в обобщённой манере или из-за своей нейроотличности, как в случае Олмстед, или потому, что английский для них неродной язык, или просто потому, что они приучились использовать более прямолинейные формулировки и сухой стиль. Исследование, проведённое в 2023 году Стэнфордским университетом, показало, что инструменты для выявления ИИ «почти идеально» справлялись с проверкой эссе, написанных учениками восьмых классов, родившихся в США, но пометили как подозрительные больше половины эссе, написанных учениками, для которых английский был не родным. Недавно компания OpenAI заявила, что отказалась от выпуска инструмента для выявления сгенерированных ИИ текстов в том числе и потому, что он может негативно повлиять на определённые группы населения, в частности, и на студентов, для которых английский стал вторым языком.

Мы также выяснили, что сервисы выявления ИИ иногда можно обмануть при помощи автоматизированных инструментов, предназначенных для того, чтобы выдавать тексты ИИ за написанные человеком. Это может привести к гонке вооружений и столкновению двух технологий, нанеся урон доверию между преподавателями и студентами, но не принося при этом никакой пользы обучению.

Утверждается, что популярный инструмент обнаружения ИИ Turnitin, который применялся для проверки работы Мойры Олмстед, при анализе предложений имеет 4% ложноположительных срабатываний. Компания Turnitin отказалась предоставить свой сервис для тестирования. В посте за 2023 год Вандербильтский университет (один из множества крупных образовательных учреждений, отказавшихся от сервиса Turnitin из-за проблем с точностью) заявил, что сотни студенческих работ ежегодно могли бы ошибочно определены как частично написанные ИИ.

Владеющий несколькими языками студент Кен Сахиб, проживший бóльшую часть детства в Италии, сообщил нам, что был «опустошён», когда получил ноль за домашнее задание с конспектом по курсу «Введение в сети» Колледжа Беркли в Нью-Йорке. Когда Сахиб обратился к преподавателю с вопросом, тот ответил: «Все проверенные мной инструменты выдали один и тот же результат: эти ответы сгенерированы ИИ. Вы точно знали, что делали».

Сахим рассказал нам, что в конечном итоге ему удалось пройти курс, но этот инцидент нанёс урон его взаимоотношениям с преподавателем. «После этого он почти со мной не разговаривал», — сообщил Кен. Преподаватель не ответил на нашу просьбу прокомментировать ситуацию.

Хотя многие преподаватели отказались от детекторов ИИ и попытались встроить ИИ в учебный процесс , многие колледжи и школы по-прежнему применяют эти инструменты. По данным компании PitchBook, с 2019 года стартапы, занимающиеся распознаванием ИИ, привлекли инвестиций на 28 миллионов долларов, и основная часть средств была получена после выпуска ChatGPT. PitchBook выяснила, что стартапы, занимающиеся распознаванием дипфейков и проверяющие на наличие сгенерированных ИИ текстов, изображений, аудио и видео, получили в 2023 году более 300 миллионов долларов, что на 65 миллионов больше, чем в предыдущем году.

В результате этого в учебных классах и аудиториях создалась атмосфера страха и паранойи, связанных с возможностью ложных обвинений. Студентам сегодня приходится предпринимать различные действия, чтобы доказать подлинность своих работ, и этот процесс негативно влияет на обучение. Кроме того, многие опасаются использовать ИИ-сервисы, помогающие в написании и проверке орфографии из-за того, что они могут вызвать срабатывание детекторов ИИ.

Вице-президент Turnitin по ИИ Эрик Вонг заявил, что компания намеренно увеличивает выборку недостаточно представленных в датасете групп. По его словам, внутренние тесты показали, что модель Turnitin не обвиняет ложно студентов с неродным английским языком и что общая доля ложноположительных срабатываний для всех документов ниже 1%, а с каждым релизом этот показатель снижается. Turnitin не выполняет обучение конкретно на данных нейроотличных студентов и не имеет доступа к медицинским данным для оценки такой классификации.

Сооснователь и генеральный директор Copyleaks Элон Ямин заявляет, что технологии компании точны на 99%. «Мы предельно чётко заявляем учебным заведениям, что уверенности на 100% нет, и что инструменты должны использоваться для выявления тенденций в работах студентов. Это своего рода жёлтая карточка и возможность глубже изучить вопрос и общаться со студентами», — утверждает он.

«У любого инструмента распознавания ИИ есть свои слепые пятна», — говорит основатель и генеральный директор GPTZero Эдвард Тиан. Он заявляет, что его компания предпринимает серьёзные усилия для устранения перекосов, и в особенности в случае студентов, для которых английский не является родным языком, а также чётко указывает уровень неопределённости в оценке письменных работ инструментом.

Тиан основал GPTZero в начале 2023 года. К июлю этого года его стартап имел четыре миллиона пользователей (год назад их количество составляло один миллион) и недавно получил 10 миллионов долларов от инвесторов, в том числе и от брата генерального директора OpenAI Джека Альтмана. «Последний семестр был самым активным. Это показывает, что проблема не исчезла, а видоизменилась. Год назад люди чаще всего задавали вопрос, ИИ ли это. Сегодня же преподаватели точно знают, что ИИ используется в учёбе. Вопрос в том, что с этим делать», — рассказывает Тиан.

Процентную долю использования ИИ в образовательных учреждениях определить сложно. В одном из тестов мы проанализировали отдельное множество из 305 эссе, отправленных Техасскому университету A&M летом 2023 года, уже после выпуска ChatGPT, и выяснили, что те же детекторы ИИ пометили примерно 9% работ как сгенерированные искусственным интеллектом.

Детекторы текстов ИИ обычно обращают внимание на степень сложности слов. «Если выбор слов обобщён и стереотипен, то повышается вероятность того, что детекторы ИИ пометят её», — рассказывает профессор биомедицинской data science Стэнфордского университета Джеймс Зоу.

Например, сервис распознавания ИИ QuillBot отмечает, что «сгенерированный ИИ контент с большей долей вероятности будет содержать повторяющиеся слова, неуклюжие формулировки, а сам текст будет неестественным и отрывистым». GPTZero также учитывает критерий burstiness, измеряющий варьирование сложности текста в документе. Компания считает, что в отличие от ИИ, «люди склонны часто менять конструкции предложений и выбор слов на протяжении документа».

Компании, занимающиеся распознаванием ИИ, подчёркивают, что их сервисы следует воспринимать не как судью, присяжного и палача, а как пример данных, помогающий преподавателям.

По словам Ямина, большинство работающих с Copyleaks образовательных учреждений сегодня предоставляют студентам доступ к этому сервису, «чтобы они могли проверить себя» и узнать собственные оценки похожести на ИИ. Turnitin работает над сервисом, который поможет студентам демонстрировать процесс написания домашних заданий.

«Студенты хотят доказать, что делают задания самостоятельно, и быть уверенными, что к ним не возникнет никаких вопросов. А преподавателям нужно больше информации, чтобы понять, как же студент пришёл к готовому результату», — рассказывает директор по разработке продуктов Turnitin Энни Чечителли.

Когда сервис распознавания ИИ обвинил работу Мойры Олмстед, она начала одержимо стремиться к тому, чтобы новых обвинений не возникло. Она записывала экран своего ноутбука при написании домашних заданий. Она работала в Google Docs, чтобы отслеживать изменения и создать цифровые доказательства. Она даже попыталась изменить свой вокабуляр и синтаксис. «Я очень нервничаю из-за того, что прошла такой путь, но меня снова могут обвинить в использовании ИИ. Ставка очень высока», — рассказывает Олмстед, которая должна выпуститься следующей весной.

Нейтан Мендоса, изучающий химические технологии в Калифорнийском университете в Сан-Диего, использует GPTZero для предварительной проверки своих работ. Он говорит, что бóльшую часть времени выполнения задания он тратит на изменение формулировок, чтобы избежать ошибочных обвинений; при этом, по его мнению, текст становится хуже. Другие студенты выполняют этот процесс, используя различные сервисы так называемой «гуманизации ИИ», которые полностью переписывают тексты, чтобы обойти детекторы ИИ.

Мы протестировали сервис Hix Bypass на написанном человеком эссе, которое GPTZero ошибочно определил как сгенерированное ИИ со степенью уверенности 98,1%: после изменения текста сервисом степень уверенности снизилась до 5,3%.

Страх быть ошибочно обвинёнными детекторами ИИ заставляет студентов задуматься об использовании популярных онлайн-инструментов, помогающих в написании текстов. Стартап Grammarly, оценивавшийся в 2021 году в 13 миллиардов долларов, помогает студентам во всём, от базовой проверки орфографии до предложений об изменении структуры текста. Но есть у него и опции полного автоматического переписывания текста под определённые критерии.

Мы выяснили, что использование Grammarly для «улучшение» эссе с целью «повышения его научности» превращает его из написанного человеком на 100% в написанное ИИ на 100%. Однако проверка орфографии и рекомендации по грамматике Grammarly практически не делают документы больше похожими на написанные ИИ.

Студентка Флоридского юго-западного государственного колледжа Кейтлин Абельяр сообщает, что она удалила со своего компьютера программы с функциями Grammarly. Студентка Университета Северной Джорджии Марли Стивенс в прошлом году опубликовала в TikTok вирусное видео о своём наказании за то, что её эссе Turnitin распознал как сгенерированное ИИ. Стивенс заявила, что ей установили учебный испытательный срок после того, как на дисциплинарных слушаниях её обвинили в мошенничестве. Она утверждала, что написала работу самостоятельно, пользуясь только стандартными функциями проверки орфографии и грамматики Grammarly.

«Она была ответственной студенткой, использовавшей Grammarly надлежащим образом, и её обвинило стороннее приложение», — заявила глава отдела обучения Grammarly Дженни Максвелл. Этот инцидент заставил Grammarly разработать для студентов инструмент распознавания, определяющий, был ли текст введён, вставлен из другого источника или написан моделью ИИ. «Можно сказать, что это ваш страховой полис», — говорит Максвелл.

Некоторые преподаватели и студенты считают, что существующая система неустойчива, потому что она создаёт напряжение по обе стороны преподавательского стола и потому что от ИИ уже никуда не деться.

«Нравится вам это или нет, но искусственный интеллект будет частью нашего будущего. Нельзя рассматривать его как нечто недопустимое в классе и противодействовать его использованию студентами», — считает профессор английского языка Мэрилендского университета Адам Ллойд.

Вместо того, чтобы пользоваться Turnitin, доступного на факультете его вуза, Ллойд предпочитает задействовать свою интуицию. «Я знаю, как пишут мои студенты, и если у меня возникают подозрения, мы можем открыто их обсудить, а не обвинять людей автоматически».

Комментарии (11)

TerrorDroid
29.10.2024 08:56
#27482396
Проблема даже не в кривых детекторах ИИ или иного (вроде тестов на наркотики и т.д.), это симптом, а не причина. Проблема в том, что люди которые эти «детекторы» применяют наделены всеми полномочиями и никакой ответственностью, что нонсенс для адекватных органичных отношений в жизни и обществе. Стоило бы пару десятков людей и организация поставить на серьёзные деньги, или даже уголовные сроки, за их ничем необоснованные и незапруфанные обвинения других в использовании Х по результатам использования всяких детекторов и тестов, то очень быстр бы отбило бы желание ничего не делать и прогонять чужие результаты через безответственную хуяк-хуяк-автоматику.
1. rqdkmndh
  29.10.2024 08:56
  #27484272
  Совершенно с вами согласен! Именно отсутствие ответственности порождает такие перекосы.
1. old_bear
  29.10.2024 08:56
  #27486934
  Отсутствие ответственности - это тоже симптом.
  
  Причина заключается в том, что в современном обществе мерой успеха любой деятельности является рост дохода, которую эта деятельность приносит. А добиться этого можно ровно двумя способами. Либо продавать больше результатов этой деятельности, что ограничено конечным размером рынка. Либо снижать себестоимость, пусть даже в ущерб качеству, что ограничено моральными принципами и, немного, действующим законодательством.
  А вот моральные принципы то как раз и не ограничены в своём падении, позволяя уменьшать себестоимость без оглядки на качество результата. Вроде "ну да, какая-то там отдельно взятая аутистка пострадала, но зато мы добились снижения себестоимости проверок на Х процентов при сохранении 0.99* (* подсчитано нашими непредвзятыми специалистами) достоверности результатов". И в большинстве случаев первая часть фразы и вовсе не интересна верхнеэтажному руководству.
  Что касается ограничений со стороны законодательства, то для решения этой небольшой проблемы юридический отдел есть. В крайнем случае особо упёртым можно заплатить немного денег, по решению верховного суда через 10 лет тяжб.
  
  Ну да, планета засирается, самолёты иногда неожиданно падают, отдельные люди ноют в СМИ о поломанной судьбе или просто кончают жизнь самоубийством из-за, например, ложных обвинений в краже почтовых денег. Но зато в целом какой прогресс! /s
  
  Так что весь этот ИИ - это просто инструмент в достижении новых сияющих вершин того, что нынче считается успешным успехом. Чтобы что-то изменить, нужно изменить всеобщее представление о том, что является этим успехом. Осталось только придумать, как именно. Я имею в виду, кроме ядерной войны или прилёта Жнецов.
  1. Farongy
    29.10.2024 08:56
    #27489736
    Есть мнение, что бытие определяет сознание.

mr_domi_md
29.10.2024 08:56
#27482998
Я пробовал писать статьи с помощью ИИ. Максимум на что способна нейросеть - помочь с формулированием идеи текста, причем в большей степени это касается технических или околотехнических статей. Художественная литература у ИИ не получается пока что - слова есть, а "души" нет, не цепляет.

А вот то, что преподаватели полагаются на ИИ в оценках студентов, это конкретно пугает. Выходит, что преподаватель сам не читает эссэ, а потоком отсеивает тех, кому ИИ огульно поставил ноль.
1. newintellimouse
  29.10.2024 08:56
  #27483258
  А вот воду в коммерческие предложения ИИ льёт хорошо, проверено.
  
  А с другой стороны он хорошо эту воду из КП отжимает, оставляя суть.
  
  В итоге с одной стороны в отделе продаж уменьшается нагрузка по поточной генерации бреда, а с другой стороны в отделе закупок уменьшается нагрузка по поточному распознаванию бреда.
  
  С прочим корпоративным булл-шитом тоже:
  
  любые списки превращаются в обоснованные большим количеством слов документы;
  
  любой большой документ, аналогично, превращается в компактный список без потери смысла (было бы что терять, впрочем).
1. dmbarsukov
  29.10.2024 08:56
  #27485506
  А с другой стороны, студенты за 2 минуты генерируют текст, и не пытаясь даже иногда его прочитать отправляют преподавателям на проверку, вынуждая их тратить кучу времени на чтение бреда, и попыток обосновать оценку бреда.
  1. michael_v89
    29.10.2024 08:56
    #27490300
    Может быть надо подумать о том, что сам метод проверки неправильный, потому и результат соответствующий? Сочинения за деньги и раньше писали.

michael_v89
29.10.2024 08:56
#27490278
Когда до преподавателей наконец-то дойдет, что математически невозможно создать бесконечное количество уникальных и хороших текстов на заданную тему? После некоторого количества они будут либо похожие, либо плохие, либо далеко от темы. Чем больше текстов пишут студенты, тем больше их попадает в программы антиплагиата, тем меньше шансов у следующих студентов написать текст, который не похож ни на один из них.
1. San_tit
  29.10.2024 08:56
  #27493318
  До кого-то дошло, до кого-то нет.
  
  Лично мне приносили на защиту мои же лабораторные работы (мной же и выложенные в свое время) практически 1 в 1 , очевидно, что сложно сделать сильно уникальный отчёт. И нередко вполне успешно защищали его.
  
  Так что Для разрешения вопроса с "списал работу" давно применяется защита этой работы, где компетентному преподавателю не составит труда разобраться освоен ли материал или нет.
  
  Сложность, вероятно, возникает в областях, где текст -- это и есть самоцель (журналистика, например). Но тут, пожалуй, не детектирование вообще может быть критерием, ибо журналиста который пишет как ИИ вряд-ли можно называть высококлассным
  1. michael_v89
    29.10.2024 08:56
    #27495120
    Олмстед поступила на онлайн-курсы педагогики в Центральном методистском университете.
    В начале осеннего семестра Олмстед отправила письменное домашнее задание по курсу, один из трёх конспектов по прочитанному, которые нужно было писать каждую неделю.
    
    Тут не говорится про защиту, надо было только написать. Если нужно защищать, непонятно зачем вообще сдавать работу письменно, и тем более проверять на уникальность и ИИ, можно защитить просто с черновика.