Собеседования — всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности. А переслушивать запись, которая может длиться от часа и выше это долго и неэффективно.

Задумался: а что если использовать что‑то, что автоматически превратит аудиозапись интервью в текст? Так я открыл для себя Whisper от OpenAI. Ниже подробности о его применении.

⚠️ Важно: записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

Или

запишите так, чтобы никто не узнал (шутка, лучше не надо).

Как это вообще работает: Whisper, Python и GPT

Процесс выглядит так:

  1. Whisper (модель от OpenAI) берёт аудиофайл с собеседованием и превращает его в обычный текст (транскрибирует).

  2. Python-скрипт - это просто инструмент, который удобно запускает Whisper локально, без отправки данных в интернет. (Ссылка на Github в конце статьи)

  3. Полученный текст мы отправляем в GPT (например, в ChatGPT), который уже анализирует:

    • качество ответов,

    • сильные и слабые стороны,

    • даёт советы, как улучшить ответы на следующих интервью.

Как работает проект (схема):

Таким образом, вы получаете максимально полезный инструмент анализа своих навыков коммуникации и профессиональных компетенций, не выходя из дома и без помощи внешних консультантов
Таким образом, вы получаете максимально полезный инструмент анализа своих навыков коммуникации и профессиональных компетенций, не выходя из дома и без помощи внешних консультантов

Что такое Whisper и почему он интереснее других

Whisper - это open-source модель от OpenAI, которая способна качественно переводить аудиозаписи в текст. Основные плюсы:

  • Бесплатная и доступная всем.

  • Неплохо работает с русским и английским языками.

  • Легко настраивается и запускается локально.

В отличие от других сервисов, Whisper не требует отправки данных на внешние серверы. Это гарантирует конфиденциальность и безопасность.

Зачем это QA-инженеру или разработчику?

  • Анализировать свои ответы: понимать, какие ошибки допускаешь и что можно улучшить.

  • Самоподготовка: готовиться к следующим интервью, отрабатывая слабые места.

  • Рост навыков коммуникации: видеть, насколько понятно и структурированно говоришь о своих навыках.

Пример запроса к GPT

После получения файла с расшифровкой интервью (result.txt), вы можете использовать следующий пример промта в GPT:

Проанализируй моё интервью и дай подробные рекомендации по улучшению моих ответов. Выдели сильные стороны, слабые места и предложи конкретные советы, как подготовиться лучше в следующий раз. Вот текст интервью:

[Вставьте сюда текст из файла result.txt] либо же сам файл

Мой результат: что я узнал благодаря Whisper

Используя Whisper для расшифровки своих интервью, я смог:

  • Увидеть четко, где «плыву» в ответах.

  • Определить, какие вопросы чаще всего меня сбивают.

  • Улучшить структуру своих ответов.

Это помогло мне порефлексировать и сделать работу над ошибками.

Почему это пригодится тебе

Этот инструмент полезен:

  • QA-инженерам (для подготовки к техническим и поведенческим интервью).

  • Разработчикам (чтобы отточить навыки самопрезентации и интервью).

  • HR и менеджерам (для анализа кандидатов и улучшения коммуникации).

Где скачать и посмотреть проект

Подробная пошаговая инструкция и сам проект находятся на GitHub: voice-to-text-sobes
Лицензия: MIT (используйте свободно)

Заключение: почему стоит попробовать уже сейчас

Этот проект помог мне значительно улучшить понимание своих слабых и сильных сторон на интервью. Whisper позволяет эффективно анализировать каждую деталь собеседования и становиться вашим личным коучем в подготовке.

Делитесь мнениями.

Комментарии (7)


  1. Busla
    17.05.2025 11:02

    записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

    А на передачу интервью третьей стороне согласия не требуется?


    1. ArtemKQA Автор
      17.05.2025 11:02

      Хороший вопрос!

      Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.

      В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.



      1. gooseefer
        17.05.2025 11:02

        а может ну их, компании, рекрутеров, юридические риски?

        Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?

        Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.

        Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work


    1. timerbulatov
      17.05.2025 11:02

      Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?


      1. ArtemKQA Автор
        17.05.2025 11:02

        Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.



  1. astenix
    17.05.2025 11:02

    Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?

    У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.


    1. ArtemKQA Автор
      17.05.2025 11:02

      Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.