Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.
Сейчас вместо того, чтобы воспринимать тысячи слов на слух и говорить примерно столько же, нам приходится анализировать миллионы, а то и больше, слов из источников нынешней реальности: социальных сетей, новостных лент и телевидения, добавившихся к книгам и газетам. Мы читаем и отвечаем на сообщения друзей и коллег, читаем скрипты всевозможных аудио- и видеозаписей. По статистике, Google получает более 40 000 поисковых запросов каждую секунду! И это действительно много, а каждый из нас ежедневно попадает в эти цифры несколько раз.
Но это всё же не просто так. Благодаря такому тесному переплетению общения людей язык становится живее, то есть меняется и развивается со всё большей скоростью. У нас появляются новые слова: взять те же «сигма» или «пикми», меняются значения старых: к примеру «токсичный» мы ведь всё чаще используем по отношению к человеку, а уже реже в экологической сфере. Так же из нашей речи постепенно постепенно уходит всё больше слов, перемещаясь в категорию архаизмов, даже если совсем недавно они были неологизмами. Все помнят слово «няшный»? А ведь это уже постепенно становится архаизмом, всё чаще заменяясь словом «кавайный».
Не менее важным вкладом больших данных в язык, несомненно, является просто поразительная точность изучения его связи с обществом. Конечно, лингвисты искали и осваивали диалекты разных стран, но все эти исследования стали проще и гораздо обширнее с появлением социальных сетей.
Большинство диалектических атласов уже довольно сильно устарели: люди то перемещаются, говоры смешиваются, образуя новые на новых местах. Таким образом, благодаря геотеговым постам на интернет-платформах можно создать детализированные карты распространения слов и выражений, обнаружить закономерности с использованием новых слов или старых в другом значении. Не менее важной составляющей современного языка будет являться то, как общаются между собой люди, относящиеся себя к субкультурам или узким сообществам, будь то анимешники или геймеры. У каждой такой группы есть целый словарь уникальных терминов, в основном понятных только этому сообществу, который и формирует групповую идентичность.
С большими данными меняются не только социальные и научные аспекты языка, но ИТ-сфера тоже затронута. Все мы знаем, что раньше системы машинного перевода работали на основе жестких правил, но не всегда же так будет! Да, это уже изменилось.
Современные нейросетевые переводчики по типу Google Translate или Yandex Translate учатся не на жестких правилах грамматики, а на миллиардах примеров текстов из сети, будь то книги или посты обычных пользователей. Такие программы не «знают» правил, они «знают» вероятность того, что именно это слово последует за другим и того, что данная фраза соответствует именно этой на другом языке.
А что на счёт распознавания и синтеза человеческой речи? Известные Алиса и Siri стали такими точными только благодаря обучению на гигантских массивах записей человеческой речи с разными акцентами и в обстановках с разным уровнем шума. А свои звуковые ответы они генерируют в связанные тексты потому, что они «поняли» структуру языка из тех же интернет-источников.
Но всё ли действительно так хорошо и счастливо? Большие данные — это, конечно, очень здорово, но они же ставят новые этические вопросы и вызовы для человечества:
• Смещение данных: если языковая модель обучается на этих самых больших данных из интернета, она же перенимает все убеждения, стереотипы и даже токсичность, присущую многим людям. Она ведь спокойно может начать генерировать не самые приятные высказывания и давать установки человеку, задавшему вопрос, так как такие существовали в данных для обучения.
• Потеря глубины высказываний: модель — всё же не человек, и её статистический подход к ответам может лишь рассказать, как используется язык, но не почему это происходит именно так. И это тоже является проблемой, так как люди, что носители, что просто изучающие язык должны понимать, как он работает.
• Конфиденциальность: под угрозу поставлена приватность личных сообщений, электронных писем и постов в социальных сетях. Да, всё, что было выложено в интернет, никогда оттуда не уйдёт, но ведь мало кому будет приятно осознавать, что кой-либо их контент был использован для анализа и обучения машины без разрешения.
• Цифровой язык против реального: и это, я думаю, самая большая проблема уже на данном этапе. Я сейчас говорю о том, что огромная часть обучения проходит на онлайн-ресурсах, и это не о таких школах, как Фоксфорд. Мы учимся, общаясь с другими людьми в чатах и изучая всевозможный контент, который имеет свои исключительные особенности: мемы, эмодзи, гиперссылки и многое другое, что будет не столько дополнять, сколько искажать представление о языке.
Подводя итог, хочу сказать, что большие данные меняют наше представление языка со всех сторон, превращая его в динамичную и посто но эволюционирующую систему. Мы постепенно перестаём видеть в языке скучный свод правил, составленный учеными: теперь изучение языка — это больше про анализ и измерение продукта, составленного и собранного по крупицам миллионами людей. Ну а типичный фокус на вопросе «Каким должен быть язык?» меняет свою полярность и становится: «Каким язык является на самом деле?»
Ещё больше статей вы можете прочитать на нашем сайте rootcode.ru!