Владение английским языком принято оценивать по системе CERF (Common European Reference Framework), состоящей из шести уровней, где уровень A1 – начинающие, а уровень С2 – профессионально владеющие иностранным языком. Международный уровень С2 часто позиционируется как “уровень образованного носителя”, и получение соответствующего сертификата зачастую является либо заветной мечтой, либо предметом гордости преподавателя-лингвиста.
Однако я не встречала в научной литературе доказательства полного соответствия уровня С2 уровню владения английским как родным. На самом деле, среди ученых нет единого мнения о том, возможно ли вообще изучающим язык достичь уровня, идентичного владению языком как родным (вот две статьи с практически одинаковым названием и противоположными выводами [1; 2]). Проведя небольшой опрос в одной из соцсетей, я увидела, что большинство моих коллег-преподавателей английского в глубине души все-таки считают, что «между уровнем носителя и уровнем С2 – бездна». Хотя были и те, кто выбрал вариант, что С2 – это действительно уровень образованного носителя.
Так есть разница или нет? Я решила разобраться, рассмотрев для начала всего лишь один аспект владения языком – письменную речь. О своем эксперименте, в котором не обошлось без искусственного интеллекта, я и хочу рассказать.
Вначале я создала опрос на Google Forms и предложила 17 русскоговорящим коллегам следующий челлендж: определить, написан ли английский текст носителем языка (британцем) или русскоязычным автором с уровнем английского С1-С2. Всего было 20 текстов. К исследованию приглашались эксперты с большим опытом проверки студенческих эссе и чтения оригинальных текстов, но, тем не менее, задача оказалась не из простых. Подсчитав вручную метрики, получаем: Accuracy = 0.6617; Precision = 0.6627; Recall = 0.6588; F1 = 0.66. Замечу, что этот опрос я также предлагала коренным британцам (пока только троим), и предварительный результат примерно тот же.
На этом можно было бы остановиться, сделав успокаивающий вывод о том, что разницы между носителями и продвинутыми пользователями в написании текстов нет, поскольку эксперты не смогли ее обнаружить.
Но что-то заставило меня попытаться копнуть глубже, применив свои скромные знания в Deep Learning. Так появилась модель бинарного классификатора на основе XLM-Roberta, которая научилась отличать тексты, написанные носителями, от эссе русскоговорящих авторов уровня С1-С2. Расскажу подробнее.
Первым этапом было создание базы текстов. Коллеги, готовящие к международным экзаменам продвинутых студентов (зачастую являющихся учителями), пожертвовали на науку 160 сочинений в полуофициальном газетном стиле (в жанрах статьи, эссе, обзора и письма). Их я поделила на обучающую, тестовую и валидационную выборки в пропорции 70% : 15% : 15%, как это и принято делать.
Для базы текстов носителей я решила использовать готовый датасет, подготовленный в Кембридже [3]. Взяла за основу 160 текстов из тех, что используют при оценке навыка чтения на международном кембриджском экзамене CPE (Cambridge Proficiency Exam). Мне казалось, что это должны быть аутентичные тексты, но что-то пошло не так. Использование текстов обучающей базы Cambridge English Readability Dataset (2016) дало очень низкий результат (Accuracy = 0,57).
И снова можно было бы предположить, что дело в отсутствии разницы между текстами и, следовательно, уровнями владения языком. Но более пристальное изучение текстов Кембриджского датасета показало, что в них встречаются слова, которые Кембриджским словарем [4] маркируются как устаревшие (например, “brouhaha”). Когда именно были написаны экзаменационные тексты – авторы датасета не указывают, но, вероятно, это было примерно в 90-е годы прошлого века. Также можно предположить, что тексты редактировались под формат экзамена или же писались специально для него. Помимо всего прочего, в большинстве текстов встречаются ошибки в оформлении – такие, как отсутствие пробелов и знаков препинания между заголовком и текстом, «склеенные» предложения (без пробелов между ними), а также отсутствие апострофов (e.g. “concert-goers experience”). Безусловно, все это могло явиться помехой для обучения нейросети.
Убедившись в несовершенстве кембриджских наработок, мой внутренний перфекционист попросил меня постараться получше и собственноручно собрать базу текстов, написанных носителями. Что я и сделала, использовав онлайн сайты известных британских изданий, таких, как The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других. При отборе текстов учитывалась жанровая специфика и объем текстов, с прицелом на то, что больше 512 токенов за раз модель не осилит все равно. Также решено было отказаться от заголовков, поскольку их наличие само по себе может стать маркером для модели.
И что же? Благодаря работе с базой результат вырос до Accuracy = 0.957. Впоследствии его удалось еще немного улучшить посредством разнообразных «танцев с бубном», и в результате модель работает с такими метриками: Accuracy = 0.9782; Precision = 1.0; Recall = 0.9583; F1 = 0.9787. И вот это уже становится интересным для меня как лингвиста.
Тот же опрос, который я предлагала коллегам-экспертам, я прогнала через свой классификатор. Он ошибся в одном тексте из 20 – носителя принял за не-носителя. Итого, Accuracy = 0.95; Precision = 1; Recall = 0.9; F1 = 0.947. К слову, ни один из респондентов-экспертов не прошел опрос с такой точностью.
Таким образом, AI классификатор справился с задачей бинарной классификации английских текстов по родному языку авторов гораздо лучше квалифицированных специалистов. Что позволяет сделать несколько любопытных выводов:
1) разница, которую мы искали, существует. При помощи возможностей искусственного интеллекта мы доказали, что англоязычный письменный текст, создаваемый носителями языка, по некоторым системным характеристикам, весьма вероятно, отличается от письма носителей русского языка, владеющих английским на уровне С1-С2 по системе CERF;
2) искусственный интеллект с гораздо более высокой точностью распознает эти отличия, по сравнению с экспертами-людьми.
Результаты исследования, кажется, дают пищу для размышлений.
Сразу оговорюсь, что своей работой мне совсем не хотелось бы провоцировать “native-speakerism”, поскольку я против дискриминации преподавателей по родному языку. Очень часто знание русского языка – большое преимущество преподавателя английского. Я, например, специализируюсь на постановке британского произношения, и после многочисленных стажировок в Великобритании убедилась, что редкий британец поставит русскому студенту британские звуки так, как это сделает профессиональный русскоговорящий фонетист, опираясь на родную артикуляционную базу студента и свой личный опыт постановки звуков.
Тем не менее, надо признать, что разница в создании письменных текстов, которую удалось достоверно обнаружить только с помощью ИИ, доказывает существование определенной «серой зоны» между уровнем С2 и английским как родным. И изучение этой серой зоны позволило бы, во-первых, улучшить понимание процессов создания письменных текстов на английском языке, а во-вторых, помогло бы как преподающим язык, так и изучающим его эффективнее развивать навыки письма.
И последнее размышление, которое напрашивается по итогам эксперимента: если эксперты-преподаватели не смогли отличить студента от носителя, а ИИ смог, не открывает ли это дверь в мир, где уровень владения людей, по крайней мере, некоторыми языковыми навыками будет определять не человек?
Ссылки:
1. Is it possible to achieve native-like competence in second language acquisition? – L.D.G. Martha Adriana Maza Calvino. – Tlatemoani. Revista Academica Investigacion, 2011, 9pp.
2. Is native-like competence possible in L2 acquisition? – Sylvina Montrul, Roumyana Slabakova. - Proceedings of the 25th BUCLD, 2001, 13 pp.
3. Menglin Xia, Ekaterina Kochmar and Ted Briscoe (2016). Text Readability Assessment for Second Language Learners. Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications.
4. Cambridge Dictionary Online https://dictionary.cambridge.org/
Комментарии (52)
iivvaall
00.00.0000 00:00+10Здравствуйте. Интересная тема. Интересно, правда ли нейронки могут определять носителей или нет. После прочтения осталось неудовлетворенное любопытство и желание покритиковать методическую сторону.
20 и 17 и даже 160 это очень маленькие цифры. Если оперируете датасетами такого размера, очень важно аккуратно тестировать статзначимость проверяемых гипотез. На датасетах такого размера большие метрики могут получиться чисто случайно.
У всех приведенных метрик (precision, recall, f1, accuracy) baseline в виде рандомного классификатора с ходу не ясен. Он зависит от баланса классов в выборке, а recall у рандома вообще произволен. Для беглого чтения неплохо было бы привести ROC AUC
Для ответа на вопрос, может или нет ИИ делать такую классификацию в принципе, можно не смотреть на величину эффекта, важна лишь стат значимость. И очень важна методическая сторона сбора датасета. Важно, чтобы датасеты собирались единообразно. Например, если в native части будут новости, а в second language -- сочинения на тему как я провел лето, остается сомнение, может оно научилось отличать сочинения от газетных статей, а не то, что от него хотели. Во втором эксперименте вы явно говорите, что источники разные. В эксперименте с google forms вообще не говорите как собирался датасет.
Без прояснения методологии ваши выводы вызывают недоверие. Лично для меня Ваша статья на вопрос, может ли ии распознавать носителя, не отвечает. К сожалению. Вопрос очень интересны.
sshikov
00.00.0000 00:00+2может ли ии распознавать носителя, не отвечает
По-моему тут все достаточно обычно для применения ML. Оно видит какие-то различия, но не может нам сказать, какие именно. Вполне возможно, что это именно различия уровня "новости vs сочинения". Ну или какие-то другие.
jayatsea Автор
00.00.0000 00:00Да, он видит какие-то различия. Мне бы очень хотелось посмотреть, какие именно. Заглянуть в этот "черный" (или "серый"?) ящик. Ведь в этом и есть ключ к разгадке.
"Вполне возможно, что это именно различия уровня "новости vs сочинения"." Думаю, что нет, так как я собирала датасет "с пристрастием". Жанрово-стилистические особенности и тематика текстов очень похожи.
sshikov
00.00.0000 00:00+1Думаю, что нет, так как я собирала датасет "с пристрастием".
Ну, поэтому и "какие-то другие" добавлено. Вы же при отборе тоже можете не обратить внимание на какие-то различия, которые нейросеть в состоянии обнаружить. Или просто у вас нет данных. Ну так, условно — возраст очевидно влияет как-то на используемый словарный запас, причем не факт, что не сильнее, чем образование. Ну и другие факторы очевидно могут найтись.
jayatsea Автор
00.00.0000 00:00Здравствуйте. Спасибо за интерес к теме и полезный комментарий.
Мне казалось, при работе с трансформерами датасет в 320 текстов считается достаточным (160 - это только часть носителей, столько же текстов не-носителей). Возможно, это не совсем достоверная информация, но модель обучилась и работает. Опрос в 20 текстов мне кажется тоже достаточным для языкового исследования. Может быть, вы считаете его не достаточным для проверки работы модели? Но ее эффективность изначально проверялась на тестовом наборе. Опрос делался, в первую очередь, для определения эффективности решения задачи человеком. И для чистоты эксперимента необходимо, чтобы один и тот же опрос прошел AI и контрольная группа. Довольно сложно замотивировать людей пройти опрос длиннее, чем в 20 текстов. Возможно, этим объясняется эта цифра. Тексты в опросе подбирались так же, как и для датасета (возможно, следовало это подробнее отметить в статье). Насчет 17 экспертов в контрольной группе - почему вы считаете, что этого мало? В любом случае, это улучшаемо. На данный момент я собрала данные от 30 человек.
Принимаю вашу рекомендацию относительно тестирования стат.значимости и ROC-кривой. Изучу этот вопрос, спасибо за рекомендацию.
Методика сбора текстов для датасета предполагала их стилистическое и жанровое единообразие. То, что источник сбора текстов носителей - журналы, а источник сбора текстов не-носителей - сочинения, не говорит о том, что они не могли быть написаны в одном стиле. Более того, я старалась подбирать темы журнальных статей в соответствии с темами сочинений, которые у меня были. То есть, не только стиль, но и тематика текстов подбиралась похожая. Мне самой очень интересно, чтобы AI "вник в суть" построения письменных текстов, а не схватил лишь какие-то поверхностные различия, поэтому этот методический момент я старалась отслеживать при сборе базы.
nonickname227
00.00.0000 00:00+1По-моему, задача похожа на поиск выбросов (есть генеральная совокупность - тексты образованных носителей, и выбросы - тексты уровня С2). Соответственно, проверить, чему в данном случае и насколько хорошо обучилась НС можно просто подав ей на вход случайные тексты носителей в приличном количестве, например из википедии (если предполагать, что ее писали в основном образованные носители языка). Они должны классифицироваться НС как тексты носителей и по такому тесту уже можно определять итоговое качество модели. Тут конечно есть нюансы (это скорее необходимое условие, но точно не достаточное), но в целом это примерно так должно быть.
Кстати, хорошие тексты от образованных носителей языка можно получить из переводов на английский иностранной литературы, наверно. Но тут вам как лингвисту должно быть виднее.
jayatsea Автор
00.00.0000 00:00Спасибо за отклик! Почему вы отдаете предпочтение поиску выбросов, а не бинарной классификации? Вы думаете при постановке задачи на поиск выбросов будет лучше эффективность модели?
Перевод - это все-таки другое. Там влияет исходный текст - тематика, логическое построение текста. Ведь мы не знаем, на что реагирует AI. А вдруг он проник в уровень ментальности, национальной идентичности в ее лингвистическом аспекте (ключевое слово - "вдруг")? Можно предположить, что русский и британец думают по-разному, отсюда по-разному строят тексты. В общем, переводные тексты собираются в отдельные датасеты. Мне, кажется, попадался один такой.
Газетный стиль и стиль художественной литературы это разные вещи. Для сравнения с сочинениями студентов (на экзамене пишут эссе и письмо) лучше подходит именно газетный стиль, так как к нему относятся такие жанры, как эссе, очерк, статья, письмо, интервью и т.п. Поэтому для сбора датасета я обращалась к британской прессе.
nonickname227
00.00.0000 00:00Основная причина, почему речь зашла про выбросы (они точно также могут успешно определяться бинарной классификацией), чтобы показать, что такой подход, на мой взгляд, в большей степени соответствует исходной гипотезе, которая проверяется.
Как я для себя понял постановку задачи я примерно описал: мы должны ответить на вопрос - вот есть текст, этот текст написан носителем языка или иностранцем С2? Если же постановка более замысловатая - вот два текста, один написан носителем языка, другой - нет, при этом... (дальше длинный список необходимых предположений: авторам была поставлена одинаковая тема для сочинения, они потратили на это одинаковое время, у них была одна цель при написании этого текста и т.п.), какой из текстов написан носителем языка? Тогда, как несложно видеть, в такой постановке задачи, все зависит от условий в скобках, которые задают однородность классов по всем признакам, кроме самого текста.
Кроме того, в генеральной совокупности (все тексты, написанные образованными людьми) соотношение классов, которые мы хотим научиться различать (тексты, написанные носителями языка, и тексты, написанные иностранцами с высшим уровнем знания языка), должно быть такое, что доля иностранцев С2 будет очень небольшая - чем не выбросы, если они и в правду по каким-то признакам отличимы?
Поиск выбросов это тоже задача классификации (не только, но в том числе). Если решать ее как задачу классификации, то я бы пошел примерно по такому пути. Берется заведомо большое количество текстов носителей и столько, сколько есть текстов С2. Из большого класса на каждом шаге обучения семплируется небольшая подвыборка, которая смешивается с С2 и подается в модель, пока она не начнет переобучаться. Вряд ли можно будет ожидать запредельных метрик, но по крайней мере модель будет более полно обобщать имеющую место действительность.
В любом случае, тема очень интересная, хочется пожелать только успехов в ее разработке.
iivvaall
00.00.0000 00:00+1320 для finetuning'а трансформера может быть достаточно. При малом величине эффекта их может оказаться недостаточно для стат значимых выводов.
Для проверки статзначимости можно сделать stratified k fold валидацию и U-test Манна Уитни. Разбить датасет на 10 фолдов. Поочередно вынимать каждый из них для теста, обучать модель на оставшихся 9-ти (разбив на train и validate) и генерить тестовые предикты. После 10-ти итераций каждый элемент датасета побудет один раз в тесте и предикты будут для каждого элемента. Дальше их можно разбить по ground truth группам и проверить гипотезу, что скор в одной группе больше чем в другой против односторонней альтернативы.
Параллельно можно усреднить предикты этих 10 моделей для датасета из google forms, в котором 20 примеров и посчитать Манна Уитни на них. Возможно там будет статзначимость. Хотя, если процедура сбора датасета одна и та же, это вроде бы не принесет дополнительной информации.
Для проверки стат значимости оценки людей, можно усреднить показания этих 17(уже 30) человек на этих 20-ти текстах и посчитать критерий Манна Уитни. Для 17 человек скор можно считать непрерывным.nonickname227
00.00.0000 00:00+1Все верно, но мне показалось, что тут больше речь не про статзначимость выводов об однородности выборки, а про то, какие признаки она в итоге выучила для определения различий, соответствуют ли они поставленной задаче, отличать одни тексты от других в генеральной совокупности. Грубо говоря, модель классификации картинок кошек и собак должна отличать кошек не только допустим от пуделей из обучающей выборки, но вообще от любых. Поправьте, если я не прав, но на этот вопрос стат.критерии не отвечают. Если проверить модель на большом количестве оригинальных текстов и посмотреть как часто и на каких текстах она ложно срабатывает, соответствует ли и насколько распределение статистики скора, полученному на обучающей выборке, наконец, просто посмотреть ложные срабатывания глазами, что это за тексты - возможно это поможет определить, нет ли в исходных данных какого-то сдвига относительно ГС.
iivvaall
00.00.0000 00:00+1Да. Мой комент чисто про простые DS'овские вещи, которые можно сделать быстро. На все остальное надо уже какие-то предположения про предметную область делать;
jayatsea Автор
00.00.0000 00:00Какой полезный комментарий! Теперь понятно, что изучить. Спасибо вам большое!
Arioch
00.00.0000 00:00+1я старалась подбирать
Собственно, вы главный подозревамый и есть.
Нулевая гипотеза - что сетка как-то научилась отличать ваши вкусы от вкусов другого составителя другого корпуса текстов.jayatsea Автор
00.00.0000 00:00Поняла вас) Тем не менее, считаю, что это не вкусовщина, а оправданный отбор текстов, соответствующих определенным критериям. Действительно, тексты в обоих частях датасета (носитель/не носитель) должны максимально совпадать по тем характеристикам, по которым мы не хотим, чтобы сеть научилась их различать. То есть, по тематике, по стилю. Поэтому мы не просто пылесосим интернет, а вдумчиво собираем датасет. Я убеждена, что только такой подход приводит к результату.
Arioch
00.00.0000 00:00а оправданный отбор текстов,
Перемешано же. Если бы тут был чисто объективный подход, то человека-эксперта можно бы было исключить.
вдумчиво собираем датасет. Я убеждена, что только такой подход приводит к результату.
Да, для синтеза иначе (пока?) невозможно.
Но как только анализ начал "чушь нести" - то надо было по возможности "выносить переменные за скобки", хотя это и затратная работа.
то есть в вашем случае в идеале надо было как-то исхитриться, и провести отбор в ОБА корпуса самолично. Хотя мне конечно легко с дивана советовать :-D
ru1z
00.00.0000 00:00большинство моих коллег-преподавателей английского в глубине души все-таки считают, что «между уровнем носителя и уровнем С2 – бездна»
У коллег-преподавателей, вероятно, есть предубеждение, поскольку и они, и их собеседники, скорее всего, более чем высокообразованны, существует некий отбор по языковым способностям, и должно быть стремление к определенной доле педагогического перфекционизма. Ну, общий уровень образования в целом сложно оценить, сравните какой-нибудь захолустный городок среди лесов и дефолт-сити. Предположим, что коллеги-преподаватели считают свой уровень равным уровню образованного носителя языка, и тогда, для сравнения, среднестатистический образованный носитель русского языка мало чем с ними сравнится. При этом среднестатистический носитель русского языка из глубинки, вполне может не считать рафинированных преподавателей сведущими в тонкостях реального использования родного языка.
jayatsea Автор
00.00.0000 00:00Да, я согласна, что разница между уровнем носителя и С2 - это очень чувствительная тема для многих педагогов. Это почва для дискриминации и разного рода предубеждений. Поэтому мне и захотелось выяснить научно, есть ли эта разница, а не опираться на чьи-то субъективные ощущения.
Хочу заметить, что классификация носитель/нет в данном исследовании подразумевает уровень образованного человека. Тексты рассматриваются полуофициального стиля, без сленга, сниженной лексики и других примет. Необразованные носители (или, как вы пишете, "из глубинки" - видимо, несколько опрометчиво приравнивая место жительства к уровню образования) предметом изучения не являлись.
Благодарю вас за комментарий.
ru1z
00.00.0000 00:00+1Необразованные носители (или, как вы пишете, "из глубинки"
"Из глубинки", имелись в ввиду именно образованные носители. И приравнивание места жительства к уровню образования, в среднем, абсолютно справедливо в нашем случае. Имхо, уровень среднего образованного носителя языка на момент окончания вуза и 10 лет спустя тоже не слишком хорошо соотносятся, поэтому мне лично неясно, насколько С2 хуже среднего носителя.
jayatsea Автор
00.00.0000 00:00Поняла. Да, носитель носителю рознь. Именно поэтому я ввожу определенные ограничения: британский английский (британские издания), носители, связанные по роду деятельности с написанием качественных текстов. Это соответствует русскоязычным авторам сочинений: они также ориентированы на британский английский и преимущественно являются учителями английского, выпускниками лингвистических факультетов, то есть также связаны с написанием текстов.
Razoomnick
00.00.0000 00:00+2А сколько статей для The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других были написаны людьми, для которых английский язык не является родным?
А сколько статей русскоязычных авторов было написано для The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других?
Может быть, дело в этом?jayatsea Автор
00.00.0000 00:00+2Очень разумный довод, спасибо! Я думала об этом. Конечно, не всегда в журналах пишут автора статьи, но в большинстве случаев, когда я подбирала тексты носителей для датасета, то обращала внимание на имя автора с тем, чтобы оно выглядело по-английски. Понимаю все недостатки этого подхода (этот критерий не прошел бы нынешний премьер-министр Великобритании... facepalm), но это единственное, что мне пришло в голову, чтобы максимально исключить возможных не-носителей среди британских авторов текстов.
Плюс, думаю, даже если русскоязычный автор пишет текст для The Independent, etc., его обязательно проверяет британский редактор.
Также, если русскоязычный автор пишет текст для The Independent, etc., то он точно не вчера ступил на Туманный остров. Как минимум, получил там высшее образование в области журналистики, а то и родился.
Razoomnick
00.00.0000 00:00+2Так может быть, что вы научились классифицировать тексты по признаку того, пройдут ли они в британский журнал? А кто писал - дело десятое?
MAXH0
00.00.0000 00:00+6А в чем ящик Пандоры? Какие мерзости из него лезут? Я спустился в статью, думая, что там как минимум разоблачили популяцию англоязычных рептилоидов, претворяющихся носителями языка.
Что же касается исследования, то интересно было бы, я думаю просто провести классификацию статей на английском. Итак, шотландец, американец, австралиец - все носители с детства. Добавим выучивших язык немцев, испано-говорящих, китайцев, японцев.
Все уровня C2 и получится ли разбить достоверно на группы? Какой объем текстов нужен от одного человека, чтобы однозначно классифицировать?
sshikov
00.00.0000 00:00+5англоязычных рептилоидов, претворяющихся носителями языка.
Не волнуйтесь, рептилоиды, вас пока не разоблачили :)
Dimsml
00.00.0000 00:00+2А в чем ящик Пандоры?
Ещё один инструмент для дискриминации мигрантов или нанимающихся на работу, например. Это как те же приколы с "запишите краткое видео о себе и прикрепите к резюме" или языковыми тестами со всякой дичью в секции "Use of English", которую знают только носители, для которых это родной язык.
jayatsea Автор
00.00.0000 00:00+1Спасибо за ваш комментарий. Увы, почти любое исследование может быть использовано как во благо, так и наоборот...
Тем более, когда на данном этапе результат показывает меньший уровень компетентности экспертов-неносителей по сравнению с AI... Поэтому надо еще сравнить эффективность экспертов-носителей. А то даже по комментариям здесь видна предвзятость к русскоговорящим экспертам.
Мне больше всего хотелось бы изучить основания, по которым AI классифицирует тексты. Это имело бы практическую ценность, как мне кажется.
jayatsea Автор
00.00.0000 00:00"интересно было бы, я думаю просто провести классификацию статей на английском "
Здесь кажется лишним слово "просто", ибо то, что вы предлагаете, совсем не просто. Я считаю, что родной язык автора является определяющим в тех системных характеристиках, которые будут отличать его текст от носителя. Как и диалекты носителей, разумеется, не позволяют все сваливать в одну кучу, а потом как-то пытаться классифицировать.
Кстати, я изучила датасеты по теме, и мне кажется, исследователи допускают именно эту ошибку - смешивают изучающих английский с разными родными языками, а также смешивают уровни их владения английским. Отсюда - мой подход в данной работе, где я беру исключительно неносителей с одним общим родным языком одного уровня. И только британский английский. Считаю, что именно благодаря этим ограничениям обучение модели состоялось.
MAXH0
00.00.0000 00:00"Просто" в данном конкретном случае относится не к простоте проведения исследования.
DaneSoul
00.00.0000 00:00+10и собственноручно собрать базу текстов, написанных носителями. Что я и сделала, использовав онлайн сайты известных британских изданий, таких, как The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard и других.
Вы взяли тексты не просто носителей, а профессиональных публицистов, которые пишут статьи так, как средний носитель языка без специальной подготовки и опыта писать не сможет.
Для интереса, возьмите выборку из проф. изданий на русском языке и сравните с выборкой текстов от простых носителей русского языка. И там точно также будет разница, хотя язык родной в обеих случаях.
Родной язык и способность писать тексты уровня топовых газетных публикаций — это совсем не одно и тоже!Vsevo10d
00.00.0000 00:00+5Да, а еще очень большой вопрос в том, что нативность атрибутирована с Великобританией, где язык, конечно, возник, но остается в определенном меньшинстве по сравнению с количеством носителей по всему миру. А теперь зададимся вопросом - какая доля изучающих язык изучает его именно в британской специфике. И при этом в исследовании берут ненативных преподавателей некоего среднего "английского" (ведь в статье не прозвучало, что русскоязычные были специалистами именно по британскому варианту) и сравнивают с эталоном британского языкового меньшинства? Bollocks! Bloody hell!
Cekory
00.00.0000 00:00+3Интересно было бы попробовать на более простых моделях. Будут ли различия если гонять логистическую регрессию на bag of words с tf-idf? Возможно, разница между носителями и не-носителями именно в частотности употребления отдельных слов. Возможно, какие-то слова кажутся русскоязычным более подходящими, чем британцам. Тогда можно было бы давать полезные рекомендации, типа "Чаще используйте get и вас примут за native speaker".
DaneSoul
00.00.0000 00:00+1Возможно, разница между носителями и не-носителями именно в частотности употребления отдельных слов.
Мысль хорошая, но тут есть важный нюанс: при сравнении учитывать надо дополнительные параметры:
1) Тип текста — тексты диалога на улице, газетной публикации, научной конференции и юридических документов будут очень сильно отличаться по особенностям используемых слов для выражения одной и той же мысли.
2) Уровень образования пишущего этот текст.
KivApple
00.00.0000 00:00+1А что если это не одно (носитель) превосходит другое (уровень C1-C2), а параллельные "ветки развития"? То есть отличия есть, но возможности одинаковы.
Ещё, как верно отметили выше, английский делится на множество версий - британский, американский, австралийский и т. д. Возможно, классификатор ловит отличия в месте жительства автора текста, а не сам уровень владения. То есть человек с уровнем C1-C2 пожив несколько лет в Британии потеряет это детектируемое отличие.
masai
00.00.0000 00:00+5Если я правильно понял, то вы отбирали тексты для датасета вречную. Для данной постановки задачи это методологическая ошибка, так как выборки становятся неслучайными.
Возможно, стоило попросить случайно выбранных носителей и случайно выбранных обладателей C2 написать эссе на одну и ту же тему. Но такой эксперимент уже в домашних условиях не организуешь. :)
(Тут ещё возникает вопрос, а что такое C2 с объективной точки зрения, и как мы определяем уровень.)
Да и у вас выборки с самого начала отличаются — газетные статьи и эссе. Вы исходите из гипотезы, что это не влияет на результат, но эту гипотезу, вообще говоря, тоже нужно доказать.
Модель вполне могла отличать тексты по пунктуации (которую обладатели C2 могут знать хуже редакторов). Или по уточнениям вроде "Emily, 33", которые тоже в эссе встречаются реже, чем в газетах. :)
В общем, поднятая проблема интересна, но методология вызывает много вопросов.
Iustinianus
00.00.0000 00:00+1Хм... Подскажите, а много ли носителей владеют языком на уровне С2? Если брать статьи в крупных изданиях, то там их сначала пишет автор с профильным образованием, потом они проходят проверку. Если же взять какой-нибудь "чятик" школьного класса или подъезда в доме - глаза вытекают от количества грамматических, стилистических и смысловых ошибок.
P.S. К размышлению. Учебник по радиоэлектронике, написанный "нативным" англичанином, по восприятию при чтении отличается от учебника, написанного иностранцем (пусть даже прожившим лет 15 в Англии), как небо и земля.
rzakirovt
00.00.0000 00:00Рискну предположить, что вы нашли результат того, что ученики, которые сдают экзамены, тренируются сдавать эти экзамены, которые, в свою очередь, весьма шаблонны. Соответственно, классификатор научился определять, учился ли ученик сдавать экзамены. Нейтивы не учились сдавать экзамены, и, поэтому, не могут найти этот шаблон и им кажется, что все нормально с сочинением.
LilTinG
00.00.0000 00:00Я, конечно, понимаю, что вы тут о своем, машиннообучаемом, но все же... зачем городить огород, если в определении уровней CEFR изначально заложено, что это уровни неносителя?
"a guideline used to describe achievements of learners of foreign languages" (https://en.wikipedia.org/wiki/Common_European_Framework_of_Reference_for_Languages)
"It should be emphasised that the top level in the CEFR scheme, C2, has no relation whatsoever with what is sometimes referred to as the performance of an idealised “native speaker”, or a “well-educated native speaker” or a “near native speaker”" (https://rm.coe.int/common-european-framework-of-reference-for-languages-learning-teaching/16809ea0d4)
Можно сказать, "нейросеть" любого иностранца, достигшего высокого уровня владения английским, обучалась на гораздо меньшем количестве данных, чем "нейросеть" человека, который впитал этот английский с молоком матери, первыми мультиками и сказками, перепалками в школе, лекциями в универе и т. д., и так или иначе это будет заметно.
valergrad
Если я правильно прочитал статью, то столь далеко идущие выводы о превосходстве AI были сделаны на результатах опроса трех ( трех, Карл! ) британцев, про которых даже не было сказано - являются ли они экспертами или хотя бы образованными и были ли они хоть как-то мотивированы на результат. Результаты опроса автор статьи даже постеснялся сюда выложить.
Да, русскоязычных авторов опросили больше, но то что они не смогли различить тексты здесь как раз неудивительно и абсолютно ожидаемо. Если и есть разница между 'native' и 'learned' уровнями владения языка, то очень странно предлагать ее увидеть именно 'learned' людям. Если бы они могли ее увидеть, то для них не составляло бы и проблемы и писать тексты так, чтобы она не ощущалась. Это как дальтоникам предлагать определять - какие из написанных картин написаны дальтониками, очевидно что предлагать нужно другой стороне.
Добавлю еще что мне не понравился фрагмент 'с уровнем английского С1-С2 '. Между C1 и С2 настоящая пропасть, разница в несколько лет интенсивного обучения, смешивать их в одну кучу - просто странно. Например, я сдал экзамен на C1 вообще без какой-либо подготовки или дополнительного обучения, просто потому что несколько лет работал в иностранной компании, но на уровень C2 таким образом сдать совершенно невозможно.
sshikov
Вот этот вывод не обоснован. В качестве простого примера — я прекрасно вижу разницу между, например моим текстом, и текстом профессионального писателя, который зачастую еще и умеет стилизовать текст под кого-то другого (и эту стилизацию я вижу тоже). Из этого совершенно не следует, что я могу писать сам на таком уровне.
Ну то есть да, 'learned' возможно реально не видят этой разницы, но даже если бы они ее видели — это не означало бы, что они сами вдруг стали писать как native.
valergrad
Ладно, соглашусь что конкретно это предложение возможно требует доказательства.
Но это никак не опровергает мое предложение о том, что если есть некая разница между native-уровнем и learned-уровнем, то ее в первую очередь нужно предлагать искать именно native-уровню. То что learned-уровень ее не видит - не означает в данном случае вообще ничего.
sshikov
Так я против самого предложения в общем и не возражаю. Я скорее о том, что некие доказательства у нас есть для чуть другого утверждения.
valergrad
Детектор в мозгу мне ничего не говорит то том, в какую сторону надо практически изменить текст, чтобы он был таким, как хочется.
Извините, пожалуйста, я удалил абзац на который вы ответили. Удалил его именно потому что предположил что развернется дискуссия вокруг него, а не собственно вокруг исходного моего утверждения.
jayatsea Автор
Вы правы в том, что для полноты исследования вопроса требуется включить группу носителей. Я планирую это сделать. Как считаете, достаточно ли включать в эту группу любых образованных носителей или же только носителей-преподавателей английского? Уровень образования предполагает определенную начитанность, или иначе "насмотренность". Возможно, этого было бы достаточно для задачи классификации.
"То что learned-уровень ее не видит - не означает в данном случае вообще ничего." Мне кажется, это слишком сильное негативное утверждение. На самом деле, это многое означает с точки зрения перспектив тестирования языковых навыков. И вообще преподавания иностранного языка.
domix32
Кажется размер выборки важнее качества, иначе это уже будет похоже на p-hacking.
jayatsea Автор
Спасибо! Согласна с вашими доводами, это разные компетенции.
jayatsea Автор
"Если я правильно прочитал статью"... Возможно, не совсем. Выводы о превосходстве AI сделаны на результате сравнения результатов прохождения опроса моделью и 17-ю квалифицированными специалистами - русскоязычными преподавателями английского языка. Про трех носителей, также ответивших на этот опрос, я просто упомянула как направление дальнейшего исследования и написала, что это предварительный результат, продолжение следует. С носителями я еще поработаю. Возможно, не нужно про них вообще говорить в этой статье, чтобы не сбивать никого с толку. В любом случае, автор не "постеснялся выложить", это просто не тема исследования. На данном этапе я работала с русскоговорящими экспертами.
Не могу согласиться, что это "неудивительно и абсолютно ожидаемо", что эксперты справились хуже AI. Может быть, вам это "неудивительно", но это бездоказательное утверждение, таких исследований не было. Как и то, что "Если бы они могли ее увидеть, то для них не составляло бы и проблемы и писать тексты так, чтобы она не ощущалась". Не ощущалась кем? Дело в том, что под экспертами мы подразумеваем обладателей международных сертификатов, подтверждающих, в частности, что они могут это делать (писать тексты, соответствующие т.н. уровню "образованного носителя"). Действительно, я не спрашивала у каждого эксперта наличие такого сертификата (вот тут действительно постеснялась), ориентировалась на то, что знаю их лично как специалистов высокого уровня. В будущем можно требования к отбору экспертной группы усилить. Спасибо, что обратили внимание.
Я собирала письменные работы уровней C1 и С2 для датасета, чтобы AI научился видеть разницу между ними и письменными текстами нейтивов. Видимо, он научился и классифицирует даже очень качественные тексты С2 как non-native. Возможно, ему вполне подошел датасет, где были собраны работы как уровня С1, так и уровня С2. Да, я изначально думала брать только тексты уровня С2, но решила попробовать взять шире, так как 1) 160 текстов С2 найти сложно, 2) "а судьи кто?". Поскольку все тексты я прочитывала сама, то старалась, чтобы это был крепкий С1. Но, как вы понимаете, в данном случае мы имеем дело с отбором текстов на основе собственной компетенции. Ситуация Catch-22. В связи с этим я пишу, что тексты уровней С1-С2, с запасом.
Спасибо за прочтение и ваш комментарий!
valergrad
Моя логика заключается в следующем, попробую написать ее чуть более подробно.
Возьмем вашего русскоговорящего эксперта. Я предполагаю, что если он действительно 'чувствует' что какие-то проблемы есть с текстом которые выдают не-носителя, то как правило он может и объяснить - в чем дело ( в отличие от нейросетки, как раз). Т.е. он видит какие-то обороты несвойственные носителю, нехарактерные для носителей фразы, построение предложений, риторические и стилистические приемы или даже конкретные слова. А если он это действительно видит - то соответственно и при написании своих текстов он может избегать этого чтобы 'сойти' за носителя. Способность распознавать плохие тексты идет рядом со способностью не писать их.
Есть, конечно, и альтернативная гипотеза, которую здесь в комментариях некоторые продвигают ( опять же без доказательств). Что, мол, это разные способности - способность 'чувствовать' что что-то не так ( причем правильно чувствовать, так чтобы проверяемые тесты показавали что чутье действительно работает) и способность 'понимать' что конкретно не так ( и соответственно избегать в своих сочинениях ). Это допущение мне кажется ни на чем не обоснованным и лишним. У вас есть хоть какое-то доказательство подобной двойственной природы?
Ну а дальше, смотрите. Если мы опрашиваем 'native' экспертов то неважно какая из двух гипотез верна. А если опрашивать русскоговорящих экспертов, то в случае если верна моя гипотеза ( и способность 'чувствовать' и способность 'понимать' идут вместе ) - то весь ваш опрос просто бесмысленнен, его результаты были предсказумы заранее. Какие они собственно и получились. Если они не могут писать сочинения 'правильно', то и распознать их, конечно, же не смогут. Таким образом, опрос русскоговорящих экспертов дает примерно ничего кроме косвенного свидетельства о том, что моя гипотеза верна.
Если же вы бы опрашивали 'native' экспертов, то вы бы не зависели от результатов этой гипотезы. Но их вы почему-то опросили только троих.
jayatsea Автор
Спасибо, интересное мнение. Про двойственную природу - надо изучить вопрос, есть ли работы по теме именно письменной речи. Могу поделиться личным опытом. Однажды я участвовала в конференции по лингвистике в Германии, выступала на фонетической сессии. Там собрались известные фонетисты - специалисты по звучащей речи. Мероприятие проходило на английском языке. И вот тогда для меня было открытием, что фонетисты могут иметь акцент. Что можно изучать фонетику английского языка и при этом говорить по-английски со своим локальным акцентом. Удивительно, но с акцентом, иногда очень сильным, говорило большинство специалистов секции. Из этого я сделала вывод, что слышать разницу, разбираться в звучащей речи и ее воспроизводить - это разные компетенции. Хоть и связанные в какой-то мере, наверняка.
"Если мы опрашиваем 'native' экспертов то неважно какая из двух гипотез верна." Не поняла, почему? Ведь может быть ситуация, когда носитель пишет аутентичные тексты, но определить аутентичность текстов не в состоянии. Я еще не занималась нейтивами (набрать контрольную группу требует времени - все контакты через переписку), но меня удивил такой факт, опять же из личного опыта. Одна клиентка, которой я помогала с произношением, замужем за британцем. Кстати, заметьте, британец слышит у нее акцент, но поставить, то есть объяснить, как он это сам делает, не может (поэтому она обратилась ко мне). Так вот, я попросила ее предложить мужу опрос (тот, о котором у нас сейчас речь). Она сказала, что он согласился и сказал, что всегда чувствует разницу! А потом мне приходит результат 13/20. Другой, учитель английского с огромным опытом чтения и исправления сочинений - результат 15/20. По его словам, он был слишком строг к носителям (набраковал лишнего). В любом случае, по носителям выводы буду делать, когда наберу и опрошу контрольную группу. Но не всегда, когда человек утверждает, что "чувствует разницу", он ее действительно может разглядеть. И тем более, объяснить.
Crackov
Риторический вопрос: почему каждый раз, когда на хабре подаются псевдонаучные размышления в виде исследования, это всегда лингвистика?
Вы несколько раз во вступлении делаете акцент на уровне С2, упоминая, что международный уровень С2 часто позиционируется как уровень образованного носителя, и подводите к вопросу "Так есть разница или нет?"
Хорошо, давайте возьмём за цель исследования опровержение или подтверждение гипотезы: "С2 – это действительно уровень образованного носителя". Или её же, но развёрнутой на 180: "Между уровнем носителя и уровнем С2 – бездна".
1) Обобщив тексты С1 и С2, вы со старта стреляете исследованию в колено, потому как тексты С1 совершенно не относятся к вашим размышлениям. Уже многократно доказана даже разница между уровнями С1 и С2 сама по себе, поэтому доказывать наличие или отсутствие различия между С1 и уровнем носителя нет совершенно никакого смысла. Таким образом, внедрение текстов С1 в ваш челлендж существенно искажает результаты, подсчитанные вами в метриках, что, в свою очередь, делает невозможным их дальнейшее сравнение с результатами AI.
2) Отсутствует статзначимость. 17 преподавателей, 20 текстов, 24 эссе в валидационной выборке - это подходящие цифры для качественного, но не количественного исследования. "Accuracy = 0.66" и "Accuracy = 0.95" выглядят солидно, но это некорректно. Нельзя просто спросить двух человек с разным мнением, и сделать вывод об Accuracy = 0.5
3) Черри-пикинг. Не устроили результаты датасета Кембриджа, и вы взяли статьи из британских изданий "The Independent, The Guardian, Reader’s Digest UK, The Vogue UK, The Evening Standard". Если бы и они не устроили, можно было продолжать менять статьи в датасете вручную до тех пор, пока не попадётся ожидаемый результат. Почему бы просто не сравнивать эссе и эссе? Ведь в сухом остатке получилось, что вы сравниваете скромные эссе русскоязычных обладателей С1 с профессиональными статьями на Queen's English, и почему-то удивляетесь, что AI безошибочно определяет разницу. Это более чем ожидаемо, удивляет лишь то, что ваши эксперты не смогли это сделать.
4) Квалификация экспертов не подтверждена и основывается на вашем мнении о них. Есть общепринятые экзамены вроде IELTS, который, по статистике, на уровень С2 сдаёт не более 2% испытуемых. Могут ли ваши эксперты выделять разницу между текстами С2 и Native, если этого уровня они сами ещё не достигли? Сколько из 17 имеют реальный С2? Приблизительно представляя коллективный портрет 17 случайных экспертов, выведенных в аудиториях постсоветских лингвистических факультетов, я был бы очень осторожен в оценке, особенно учитывая, что международные сертификаты бывают совершенно разными, как и методы их получения. Например, ваши знакомые могут подготовить других учителей на классический В2, даже обладая таким же В2 или слабым С1, и при этом плохо справиться с вашим заданием. Вы получили бы другие показатели, если бы тексты сравнивались сертифицированными экспертами IELTS или TOEFL.
Мой ответ может показаться недружелюбным, но это просто реакция на позиционирование проведённой вами работы как исследования. Она имеет очень мало общего с исследованиями, и совсем ничего - с заголовком. Однако ваши размышления дают интересную пищу для обмена мнениями и идеями.
Например, для меня ваш эксперимент с AI интересен в разрезе возможности дифференциации диалектов. Можно было бы сравнивать разные датасеты и делать интересную инфографику родства диалектов по мнению AI. Или сравнивать разницу между эссе всех уровней от А2 до С2 среди русскоязычных, определяя, между какими уровнями наблюдается наибольший скачок.
jayatsea Автор
Здравствуйте. Да, тон вашего ответа мне показался не только недружелюбным, а откровенно токсичным. Однако, в самом ответе присутствует конструктив, за что вам и спасибо.
Я пишу С1-С2, потому что для датасета тексты отбирала я сама, на основании своей компетенции (у меня IELTS 8.5 из 9, что соответствует С2, по аспекту чтения 9, письмо 8.5). Старалась, чтобы тексты были С1+ минимум. Но ведь неизвестно, получили бы они на экзамене (также субъективном!) метку С1 или С2. Отсюда обобщение "С1-С2".
Какие цифры вы сочли бы стат. значимыми? Учитывая то, что сеть я обучаю не с нуля, а на основе большой языковой модели, которая уже повидала много текстов.
"вы сравниваете скромные эссе русскоязычных обладателей С1 с профессиональными статьями на Queen's English" Поясню, почему я взяла тексты британских изданий. Как преподаватель, я знаю "кухню" подготовки к международным экзаменам. Те, кто правильно готовятся сдавать на высокие уровни, не вылезают из британских изданий и ориентируются на них, чтобы писать похожие тексты. Стиль, жанр, лексика и т.п. в них абсолютно соответствуют требованиям экзамена. А насчет того, что эссе "скромные" - так вы же их не видели. И не знаю, вправе ли оценить.
Опуская тональность вашего высказывания про "экспертов, выведенных в аудиториях постсоветских лингвистических факультетов"... Согласна, теперь, когда результат оказался неожиданно низким, можно задаться целью и создать контрольную группу экспертов исключительно с сертификатами С2. Это непросто, если верить вашему утверждению, что "по статистике" это 2% сдающих (может, и 2, не знаю). Но опять же, наберешь 15-20 человек по всей стране, а подтянется комментатор, который скажет "маловато будет!"
Предложения ваши, в целом, небезынтересны. Насчет скачков между уровнями, - уже определено, сколько часов обучения требуется для прохождения по этой лестнице CEFR, есть рекомендации Кембриджа. Насчет диалектов мне показалось чуть интереснее. В письменных текстах, однако, дифференциация диалектов не так выражена, как в устных. Мне как фонетисту любопытно было бы с использованием AI изучить влияние русскоязычных говоров на произносительный акцент в английском языке. Правда, это непростая тема, требует коллективной работы.