Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.

Группа исследователей Университета Пенсильвании разработала аппаратно-программный комплекс WirelessTap, который снимает звук по вибрации телефона. Это принципиально новый способ прослушки, который не использовался ранее.

Теоретически, такие системы транскрибирования речи можно установить в общественных и публичных местах, школах, больницах, снимая в реальном времени текстовую расшифровку телефонных переговоров в помещении. Полученные тексты могут использоваться для профилирования граждан и обучения ИИ.


Система использует миллиметровый радар, то есть радиолокационную систему миллиметрового диапазона, в сочетании с системой распознавания речи на основе ИИ. Установка способна транскрибировать разговоры по слитной речи со словарным запасом 10 тыс. слов.

Тестовая установка
Тестовая установка

Точность распознавания постепенно снижается с расстоянием: от 59,25% на расстоянии 50 см до 2% на расстоянии 300 см.

С расстоянием увеличивается и количество галлюцинаций:

Исследование основано на проекте 2022 года, в котором использовались аналогичные технологии. Тогда система показала точность 83% при распознавании по списку из десяти слов. Но распознавание слитной произвольной речи — это кардинально новый уровень качества, по сравнению со списком из десяти слов.

Миллиметровый радар в диапазоне 77–81 ГГц регистрирует вибрации, которые передаются через наушник на смартфон. Такие же радары применяются в беспилотных автомобилях, датчиках движения и беспроводных сетях 5G. Исследователи протестировали атаку в реальных условиях, с участием пользователей, которые держат смартфон у уха.

Тесты в реальных условиях
Тесты в реальных условиях

Для обработки сигнала они донастроили опенсорсную модель Whisper с помощью техники Low-Rank Adaptation (LoRA), когда вместо изменения всех параметров модели добавляются небольшие обучаемые матрицы низкого ранга. Это позволяет адаптировать модель к новой задаче с минимальными затратами ресурсов.

Модель Whisper изначально обучена на чистом звуке и не способна эффективно распознавать зашумлённый сигнал. Однако LoRA позволяет донастроить всего 1% параметров Whisper специально для радиолокационных данных, улучшив результаты распознавания без перестройки модели целиком.

Хотя точность 60% далека от идеала, даже частичные совпадения ключевых слов могут иметь серьёзные последствия для безопасности. Например, дистанционное чтение по губам обычно распознаёт лишь 30−40% произнесённых слов, но в сочетании с контекстом всё равно помогает понять смысл разговора.

Аналогично, и новая система может выявить конфиденциальную информацию, если её грамотно использовать, дополнив контекстом и экспертными знаниями.

Научная статья "Wireless-Tap: Automatic Transcription of Phone Calls Using Millimeter-Wave Radar Sensing" опубликована в сборнике Proceedings of WiSec 2025: 18th ACM Conference on Security and Privacy in Wireless and Mobile Networks (PDF). В статье описана система, которая включает в себя программу для генерации синтетических данных, обработку и инференс в OpenAI Whisper ASR.

Спуфинг голосового сигнала

Учёные надеются, что результаты их исследования повысят осведомлённость общественности, чтобы люди стали более внимательными во время конфиденциальных звонков.

По мере развития технологий с каждым годом растёт риск злоупотребления искусственным интеллектом и сенсорными системами. Возможности органов чувств ограничены. Например, зрение ограничено очень узким диапазоном электромагнитного излучения 380−780 нм. Такая же проблема со слухом. Из этого можно сделать вывод, что достоверные полные данные об окружающем мире можно получить только приборами.

Звуковой сигнал также подвержен спуфингу. Можно предположить, что в будущем технологии позволят не только считывать, но и модулировать вибрации телефона с помощью наведённого сфокусированного излучения, так что звуковым сигналам по телефону (словам собеседни��а) нельзя будет доверять в полной мере.

Комментарии (8)


  1. Kreastr
    07.12.2025 16:12

    То есть записать звук с 50 см сложно, а установить и запитать миллиметровый радар на диапазон 70 ГГц и никто нтчего не заподозрит?


    1. DanilinS
      07.12.2025 16:12

      Сейчас на рынке полно радарных датчиков присутствия человека. Миниатюрное батарейное устройство. Работают они на частотах  5.8 ГГц, 10ГГц, 24ГГц, 60ГГц а иногда на более высоких частотах 77 ГГц и выше.

      Так что с наличием миллиметрового радара в квартире проблем нет.


      1. Kreastr
        07.12.2025 16:12

        Спасибо за объяснение. А как Вы считаете, что проше добавить незаметно в такой радар достаточно вычислительной мощности чтобы распознавать речь из радара или микрофон?


        1. Moog_Prodigy
          07.12.2025 16:12

          В сам радар можно ничего и не добавлять, пусть гонит по своему радиоканалу сырые данные куда нибудь за стенку рядом, а там уже можно поставить мощный вычислятор (или ретранслятор куда-то в облако).


        1. fio
          07.12.2025 16:12

          Если в устройстве есть (официально или не очень), то это общепонятная информация, что устройство может слушать. А вот если там радар, то совсем не очевидно что может.


  1. Vinitski
    07.12.2025 16:12

    С трёх метров достаточно хорошего микрофона, чтобы услышать слова собеседника на том конце с точностью 100%.


  1. wazzard
    07.12.2025 16:12

    Точность 2% на расстоянии в 300 см, это уровень распознавания "мычания" разговаривающего между слов.

    Тут явно напрашивается возможность снимать данные сразу с 5-10 датчиков.

    И не совсем понятно, возможна запись разговора обоих собеседников, через вибрацию телефона, или все таки только непосредственно наблюдаемого?


  1. JM777
    07.12.2025 16:12

    Похоже здесь почти никто не понял о чём идёт речь, судя по наивным комментам. О потенциальной технической возможности кого-нибудь подслушать, даже если микрофон ещё не успели поставить. Не о готовой технологии, а о потенциальной угрозе конфиденциальности, в том числе от бытовых устройств, если кто-нибудь заинтересованный вложит в соответствующие разработки много ресурсов.