Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные кардинально меняют эту систему.
Сейчас вместо того, чтобы воспринимать тысячи слов на слух и говорить примерно столько же, нам приходится анализировать миллионы, если не больше, слов из источников современной реальности: социальных сетей, новостных лент и телевидения, которые добавились к книгам и газетам. Мы читаем сообщения друзей и коллег и отвечаем на них, читаем расшифровки всевозможных аудио- и видеозаписей. По статистике, Google получает более 40 000 поисковых запросов каждую секунду! И это действительно много, а каждый из нас ежедневно попадает в эту статистику несколько раз.
Но это происходит не просто так. Благодаря такому тесному переплетению общения людей язык становится живее, то есть меняется и развивается со всё большей скоростью. У нас появляются новые слова: взять те же «сигма» или «пикми», меняются значения старых: к примеру, слово «токсичный» мы ведь всё чаще используем по отношению к человеку и уже реже — в экологической сфере. Так же из нашей речи постепенно постепенно уходит всё больше слов, перемещаясь в категорию архаизмов, даже если совсем недавно они были неологизмами. Все помнят слово «няшный»? А ведь это уже постепенно становится архаизмом, всё чаще заменяясь словом «кавайный».
Не менее важным вкладом больших данных в язык, несомненно, является поразительная точность изучения его связи с обществом. Конечно, лингвисты искали и осваивали диалекты разных стран, но все эти исследования стали проще и гораздо обширнее с появлением социальных сетей.
Большинство диалектических атласов уже сильно устарели: люди перемещаются, говоры смешиваются, образуя новые на новых местах. Таким образом, благодаря геотегированным постам на интернет-платформах можно создавать детализированные карты распространения слов и выражений, обнаруживать закономерности с использованием новых слов или старых в другом значении. Не менее важной составляющей современного языка является то, как общаются между собой люди, относящие себя к субкультурам или узким сообществам, будь то анимешники или геймеры. У каждой такой группы есть целый словарь уникальных терминов, в основном понятных только этому сообществу, который и формирует групповую идентичность.
С большими данными меняются не только социальные и научные аспекты языка, но ИТ-сфера. Все мы знаем, что раньше системы машинного перевода работали на основе жестких правил, но не всегда же так будет! Да, это уже изменилось.
Современные нейросетевые переводчики по типу Google Translate или Yandex Translate учатся не на жестких правилах грамматики, а на миллиардах примеров текстов из сети, будь то книги или посты обычных пользователей. Такие программы не «знают» правил, они «знают» вероятность того, что именно это слово последует за другим, и того, что данная фраза соответствует именно этой на другом языке.
А что на счёт распознавания и синтеза человеческой речи? Известные Алиса и Siri стали такими точными только благодаря обучению на гигантских массивах записей человеческой речи с разными акцентами и в обстановках с разным уровнем шума. А свои звуковые ответы они генерируют в связанные тексты потому, что они «поняли» структуру языка из тех же интернет-источников.
Но всё ли действительно так хорошо и счастливо? Большие данные — это, конечно, очень здорово, но они же ставят новые этические вопросы и вызовы для человечества:
Смещение данных: если языковая модель обучается на этих самых больших данных из интернета, она же перенимает все убеждения, стереотипы и даже токсичность, присущие многим людям. Она ведь спокойно может начать генерировать не самые приятные высказывания и давать установки человеку, задавшему вопрос, так как подобные вещи существовали в данных для обучения.
Потеря глубины высказываний: модель — всё же не человек, и её статистический подход к ответам может лишь рассказать, как используется язык, но не почему это происходит именно так. И это тоже является проблемой, так как люди, что носители, что просто изучающие язык, должны понимать, как он работает.
Конфиденциальность: под угрозу поставлена приватность личных сообщений, электронных писем и постов в социальных сетях. Да, всё, что было выложено в интернет, никогда оттуда не уйдёт, но ведь мало кому будет приятно осознавать, что какой-либо их контент был использован для анализа и обучения машины без разрешения.
Цифровой язык против реального: и это, я думаю, самая большая проблема уже на данном этапе. Я сейчас говорю о том, что огромная часть обучения проходит на онлайн-ресурсах, и это не о таких школах, как Фоксфорд. Мы учимся, общаясь с другими людьми в чатах и изучая всевозможный контент, который имеет свои исключительные особенности: мемы, эмодзи, гиперссылки и многое другое, что не столько дополняет, сколько искажает представление о языке.
Подводя итог, хочу сказать, что большие данные меняют наше представление языка со всех сторон, превращая его в динамичную и постоянно эволюционирующую систему. Мы постепенно перестаём видеть в языке скучный свод правил, составленный учеными: теперь изучение языка — это больше про анализ и измерение продукта, составленного и собранного по крупицам миллионами людей. Ну а типичный фокус на вопросе: «Каким должен быть язык?» меняет свою полярность и превращается в: «Каким язык является на самом деле?»
myswordishatred
У вас там время в обратную сторону крутится что ли?