Исследовательская группа Копенгагенского университета сообщила о результатах тестирования новой нейросети Ghostwriter. Разработанный учеными алгоритм искусственного интеллекта анализирует тексты письменных работ, которые сдают учителям школьники, чтобы установить авторство и выявить тех, кто прибегает к услугам текстовых бирж.
Проблема с заказными работами в Дании обостряется с каждым годом: сейчас, когда в интернете появились специализированные платформы для подбора исполнителя, систему пытается обмануть все больше и больше школьников. Существующие решения — например, сервис Lectio — распознают только прямой плагиат. Несколько лет назад сотрудники Копенгагенского университета стали работать над технологиями для более тщательной проверки подлинности работ.
Чтобы научить нейросеть выделять базовые черты авторского стиля, исследователи использовали 130 000 работ от 10 000 студентов из архивов университета. При анализе текста Ghostwriter учитывает такие характеристики, как сложность лексики, структура предложений, синонимы, которым отдается предпочтение (скажем, ex. или e.g. для обозначения примеров). Для сопоставления привлекаются письменные работы, которые ученик сдавал в прошлом. На данный момент программа выявляет тексты, написанные чужими руками, с точностью в 90%.
У критиков разработки вызывает беспокойство тот факт, что при текущем уровне точности регулярно будут возникать ошибки первого рода — иными словами, жертвами несовершенства системы могут стать добросовестные школьники. Однако создатели нейросети намерены принять меры, чтобы предотвратить ложные обвинения. Помимо стилистических характеристик текста будут учитываться и другие факторы, например, сроки, в которые была сдана работа. На основании всей информации о том, насколько стиль написания и сопутствующие обстоятельства отличаются от сложившегося индивидуального стандарта, система будет рассчитывать процент вероятности подлога.
«Полагаю, вполне разумно предположить, что через некоторое время нейросеть начнет применяться при обучении старших классов. Но прежде чем это случится, необходимо обсудить этические проблемы, связанные с внедрением технологии. Результаты, которые выдает система, должны не рассматриваться в изоляции, а подтверждать и обосновывать подозрения в нечестности ученика», — комментирует Стефан Лоренцен, аспирант университета, задействованный в проекте.
Авторы выражают надежду, что со временем разработка найдет применение и за стенами школ. В частности, она может оказаться полезна в криминалистике для установления авторства анонимных текстов или выявления фальшивых документов. Кроме того, разработчики также пробовали использовать ее для анализа твиттеров знаменитостей, определяя, какие из них ведутся PR-командами.
Комментарии (20)
Andrey_Dolg
31.05.2019 12:43Да уж, и как теперь дети будут учится нанимать исполнителей, для своих нужд. Вроде и хорошо, но что-то видится очень недальновидным, такое вмешательство. Может и для компаний такой алгоритм сделать, чтобы видеть тех кто на аутсорс проекты отдаёт. =)
hoobastank
31.05.2019 16:31Может и для компаний такой алгоритм сделать, чтобы видеть тех кто на аутсорс проекты отдаёт.
Недавно видел работу по восстановлению фото человека по записи его голоса.
Определение страны по исходному коду — это будет что-то новенькое.
Хотя code convention сильно мешают, но отдельные регионы могут иметь отпечатки своих «школ» программирования, включая специфический плохой английский в названиях методов/классов/переменных и в комментариях.
hoobastank
31.05.2019 13:48+1Ключ к успеху — долговременное сотрудничество с постоянным автором.
p_fox
31.05.2019 13:56А что, самостоятельное изучение материала и написание работы уже не является ключем к успеху?!
RegisterWindowClassExA
31.05.2019 14:00+1Если Вы хотите стать филологом — определенно является. Если хотите в IT, то Наташу Ростову и прочих лучше передать в аутсорсинг.
Barbaresk
02.06.2019 14:24+1Вот, кстати, да. Когда в универе учился, писал проги на заказ. А потом в какой-то момент до меня дошло, что можно не только писать на заказ, но и самому заказывать то, что мне ну вот вообще не нужно, а-ля бдз по менеджменту, рефераты по философии и прочее. В итоге освободилось время на более важные предметы, типо сетей, матана и программирования.
hoobastank
31.05.2019 14:01Является, конечно. Но, судя по факту существования проблемы, которую решает данная исследовательская группа, далеко не для всех.
RegisterWindowClassExA
31.05.2019 15:42+1И да, это грязно и низко с моей стороны, но… КлючОм к успеху :)))
p_fox
31.05.2019 21:24Посыпаю голову пеплом.
Это не мой родной язык, но я стараюсь.RegisterWindowClassExA
01.06.2019 11:22Да нет, это я хотел намекнуть, что самостоятельное изучение материала не является ключом/ключем к успеху, я и сам прежде чем написать коммент проверил правописание в ворде :) Похоже, я ужалил сам себя :)
RegisterWindowClassExA
01.06.2019 11:23+1Вообще я знал много крутых спецов, которые не дружили с орфографией ну совсем.
RegisterWindowClassExA
31.05.2019 14:03Тенденция дурная. Глупый ИИ будет оценивать людей… Отсеивать соискателей, и прочее. А потом опять окажется, что этот ИИ оценивал текстуры, а не образы.
Особенно в школе, где человек развивается, и стиль изложения у него меняется.SergeyMax
31.05.2019 14:40Я как-то раз взял полистать дипломную работу одного автора. Дак там первым пунктом шло введение: какой-то корявый текст, на каждой фразе глаз запинается, рандомно раскиданные знаки препинания. Затем идёт абсолютно гладкая вторая страница, аккуратные запятые, нормально построенные фразы, разбивка по абзацам, и в общем-то совершенно нормальное повествование. И так дальше до самого конца работы, до раздела «Выводы», где опять вырвиглазный малосвязный текст. Насчёт авторского объёма работы у меня почему-то никаких сомнений не возникло.
hippohood
31.05.2019 14:19Плохая и опасная идея. Совершенно невинные ученики будут попадать под подозрение. Некоторые с нестандартным или непростоянным стилем постоянно будут иметь проблемы. И 90% это вообще ужасно низкий показатель.
Причём эта система может только высказать подозрение, но не предоставить доказательства. Поэтому плохие парни останутся без наказания, а хорошие будут часто под подозрением без всякой причины
A1054
02.06.2019 16:18100%.
Я из статьи вынес, что 10% школьников подвергнутся незаслуженным репрессиям.
Про ex. и e.g. смех один, если и остальные критерии такие же, то срок жизни этой программули невелик.
ivan19631224
31.05.2019 14:34А потом на другой стороне появятся ИИ, который будет преобразовывать работы, подделывая авторский стиль школьника.
Zdomb
31.05.2019 18:26Опять лечат следствие, а не причину.
Вместо увеличения заинтересованности школьников в получении знаний ужесточают правила «учёбы»… Люди…
suharik
Эх… сложно нынче студентам заработать на домашках. Я в свое время расчетки по гидравлике делал, много работ прошло через мой шаблон за неполных 2 года, пока не спалился на слове «коэффицент». Авторский, мать его, стиль )
aml
Я в универе делал генератор решений, который из одной программы, которую надо было сдавать, делал десятки измененных до неузнаваемости, и их потом мои одногруппники сдавали одному и тому же преподу — ни разу не спалились. Менялось оформление кода, порядок блоков, стиль имен, названия файлов и т.д. Мне лично это принесло кучу пользы, а вот им — сомневаюсь.