Атаки с использованием дипфейк-вишинга: как они работают и почему их сложно остановить / forpes.ru

Главная
Атаки с использованием дипфейк-вишинга: как они работают и почему их сложно остановить

Атаки с использованием дипфейк-вишинга: как они работают и почему их сложно остановить +21

25.08.2025 13:31

Darya_Frolova 0 3900 Источник

Голосовые атаки с применением искусственного интеллекта, или дипфейк-вишинг, становятся все более изощренным инструментом киберпреступников. Представьте: вам звонит человек с голосом вашего коллеги, родственника или даже генерального директора, умоляя срочно перевести деньги или раскрыть конфиденциальную информацию. Знакомые интонации и речевые обороты создают иллюзию подлинности, и сомнения отступают. Но это ловушка. Давайте разбираться, как устроена технология обмана, почему ее трудно распознать и как защититься.

Как работают дипфейк-вишинг-атаки

Сразу коротко о том, что это вообще такое. Дипфейк-вишинг — атака, при которой злоумышленники используют искусственный интеллект для подделки голоса, чтобы обмануть жертву по телефону.

Для этого киберпреступникам нужны лишь несколько секунд аудиозаписи человека, голос которого они планируют подделать. Такие фрагменты легко найти в публичных источниках: видео на YouTube, записи Zoom-конференций, подкасты в социальных сетях или старые аудиосообщения. Соцмедиа и корпоративные вебинары стали настоящим кладезем для киберпреступников, а в даркнете можно даже купить готовые голосовые профили известных личностей или директоров компаний.

Пару лет назад специалисты Google Mandiant продемонстрировали применение записей голоса руководителя из интернета, чтобы обмануть сотрудников. Доступность таких данных делает сбор образцов пугающе простым.

После того, как файлы с голосом найдены, собранные аудиофрагменты загружаются в алгоритмы синтеза речи. Их много, вот несколько наиболее известных: Tacotron 2 от Google, Vall-E от Microsoft или коммерческие платформы ElevenLabs и Resemble AI. Они улавливают интонации, акценты, паузы и мелкие речевые особенности, создавая голос, почти неотличимый от оригинала. Злоумышленник вводит текст, который нужно проговорить. Ну а система генерирует спич, очень похожий на то, как бы произнес все это владелец голоса.

Некоторые платформы, такие как ElevenLabs, позволяют создавать речь в реальном времени, и это делает атаку еще убедительнее: преступник может вести диалог, отвечая на вопросы жертвы. В 2024 году Consumer Reports выяснил, что защитные механизмы многих таких сервисов можно легко обойти. Для этого достаточно простых изменений в настройках. Например, отключить встроенную проверку голоса и выбора языка либо использовать сторонние инструменты для предварительной обработки аудиофайлов.

Чтобы усилить эффект, мошенники подделывают телефонный номер знакомого жертве человека с помощью спуфинга. Для этого используются давно известные методы, такие как подмена Caller ID через VoIP-сервисы, доступные даже новичкам. Сам звонок строится на создании срочной ситуации, вынуждающей жертву действовать быстро. Например, звонящий может притвориться родственником, попавшим в аварию и нуждающимся в деньгах на «выкуп» или «штраф», или руководителем, требующим срочно перевести средства для оплаты «просроченного контракта». Иногда мошенник выдает себя за сотрудника ИТ-отдела, убеждая жертву перейти по ссылке для «сброса пароля» после мнимого взлома. В более сложных атаках используется программное обеспечение для изменения голоса в real-time — это позволяет импровизировать и отвечать на вопросы жертвы, делая обман практически неотличимым от реального разговора.

Заключительный этап атаки — получение желаемого: денег, паролей, доступа к системам или других активов. В отчете Mandiant описывается случай, когда сотрудники, поверив поддельному голосу, обошли предупреждения Microsoft Edge и Windows Defender SmartScreen. Они загрузили вредоносное ПО, которое скомпрометировало их рабочие станции.

А еще в одном из экспериментов красная команда (Red Team) от Mandiant использовала настоящий сбой в работе VPN-сервиса как повод для срочных действий. Сценарий выглядел так: сотрудник получает звонок с «аварийной» просьбой — и, полагаясь на поддельный голос и обстановку тревоги, выполняет инструкции без теста. Эта тактика отлично иллюстрирует социальную инженерию, когда техническое доверие сочетается с психологическим давлением.

Проблема здесь в том, что переведенные деньги вернуть невозможно, а украденные пароли могут открыть доступ к критически важным системам, делая такие атаки особенно опасными.

Почему дипфейк-вишинг так трудно остановить

Стремительное развитие технологий синтеза речи сделало этот инструмент крайне опасным в руках хакеров. Если раньше поддельный голос выдавали неестественные интонации или роботизированное звучание, то сегодня разница практически незаметна. Алгоритмы машинного обучения, такие как нейронные сети в Tacotron 2 или Vall-E, становятся все точнее, а доступ к ним упрощается.

Даже человек без глубоких технических знаний может скачать готовый инструмент и провести атаку. Open-source-проекты, такие как Coqui TTS, позволяют создавать высококачественные голосовые клоны с минимальными усилиями. В то же время системы безопасности, ориентированные на обнаружение вредоносного ПО или фишинговых писем, не приспособлены для анализа голосовых звонков — это создает брешь, через которую злоумышленники проникают без особых усилий.

Все потому, что голос — мощный инструмент социального доверия. Мы привыкли верить друзьям, родственникам, коллегам. Мошенники используют эту особенность, создавая сценарии, которые вызывают стресс и вынуждают жертву действовать быстро, не задумываясь. Звонок от «родственника в беде» или «начальника со срочным поручением» играет на эмоциях, отключая скептицизм.

Исследования показывают, что в состоянии паники люди чаще совершают ошибки, а усталость или отвлеченность жертвы только увеличивает шансы на успех атаки. Дипфейк-вишинг также опасен своей масштабируемостью: если раньше этот прием требовал найма актеров с похожим голосом, то теперь все полностью автоматизировано. Один человек с нужными инструментами способен провести десятки или сотни звонков за день, подделывая голоса разных людей, что делает такие атаки экономически выгодными для злоумышленников.

Как защититься от дипфейк-вишинга

Компании могут снизить риск успешных атак, внедряя технические решения и обучая сотрудников. Протоколы вроде STIR/SHAKEN помогают бороться со спуфингом телефонных номеров, проверяя подлинность звонящего через цифровые подписи, хотя они не решают проблему подделки голоса. Приемная сторона чекает подпись и может пометить звонок как доверенный или подозрительный. Эта технология значительно усложняет подмену номеров, однако не оберегает от самой подделки голоса, поэтому в случае дипфейк-вишинга остается лишь одним из элементов комплексной защиты.

Регулярные тренинги по кибербезопасности учат сотрудников распознавать подозрительные звонки и не поддаваться на уловки. В ходе эксперимента Mandiant люди, прошедшие обучение, реже попадались на трюки мошенников. Некоторые компании разрабатывают системы, анализирующие голосовые звонки в реальном времени, выявляя аномалии, характерные для синтезированной речи — например, неестественные переходы между фонемами или отсутствие биометрических маркеров живого голоса. Такие технологии, разрабатываемые Pindrop и Nuance, пока доступны в основном крупным корпорациям, но в будущем могут стать шире распространены.

На индивидуальном уровне защита строится на простых мерах:

Договоритесь с близкими или коллегами о секретном слове или фразе, которые нужно назвать во время звонка. Если звонящий не знает код, это повод насторожиться.
Если разговор вызывает сомнения, завершите его и перезвоните владельцу номера — так можно убедиться в отсутствии угрозы.

Не торопитесь принимать решения, даже если ситуация кажется срочной. Задавайте проверочные вопросы, которые знает владелец номера. Это может быть кличка собаки, цвет стола на рабочем месте и так далее. Повышение осведомленности также играет ключевую роль: чем больше людей знает о дипфейк-вишинге, тем сложнее мошенникам добиться успеха.

Технологии защиты от этой угрозы развиваются. Например, системы вроде Pindrop Pulse анализируют голосовые звонки с помощью машинного обучения и глубоких нейронных сетей, быстро распознавая синтетический голос по микроскопическим аномалиям — например, нестандартным паузам, искаженным частотным характеристикам и ритму речи. Согласно официальным данным, технология может выявить дипфейки с точностью до 99% уже через две секунды прослушивания, сохраняя при этом очень низкий уровень ложных срабатываний. Со временем такие решения могут стать доступнее, но пока защита во многом зависит от бдительности и здравого смысла.

Что в итоге? Дипфейк-вишинг — это не просто технология, а новый уровень социальной инженерии, использующий наши инстинкты и доверие против нас самих. Передовые алгоритмы, доступность данных и человеческая психология делают эти атаки пугающе эффективными. Технологии защиты развиваются, но пока отстают от изобретательности злоумышленников. Чтобы не стать жертвой, важно сохранять бдительность, проверять подозрительные звонки и использовать простые меры предосторожности, такие как кодовые слова или перезвон по известному номеру. В мире, где голос можно подделать за пару секунд, единственная надежная защита — ваш собственный здравый смысл. Это касается и личного общения, и корпоративного.

Атаки с использованием дипфейк-вишинга: как они работают и почему их сложно остановить +21

Как работают дипфейк-вишинг-атаки

Почему дипфейк-вишинг так трудно остановить

Как защититься от дипфейк-вишинга

Комментарии (0)