Собеседования — всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности. А переслушивать запись, которая может длиться от часа и выше это долго и неэффективно.

Задумался: а что если использовать что‑то, что автоматически превратит аудиозапись интервью в текст? Так я открыл для себя Whisper от OpenAI. Ниже подробности о его применении.

⚠️ Важно: записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

Или

запишите так, чтобы никто не узнал (шутка, лучше не надо).

Как это вообще работает: Whisper, Python и GPT

Процесс выглядит так:

  1. Whisper (модель от OpenAI) берёт аудиофайл с собеседованием и превращает его в обычный текст (транскрибирует).

  2. Python-скрипт - это просто инструмент, который удобно запускает Whisper локально, без отправки данных в интернет. (Ссылка на Github в конце статьи)

  3. Полученный текст мы отправляем в GPT (например, в ChatGPT), который уже анализирует:

    • качество ответов,

    • сильные и слабые стороны,

    • даёт советы, как улучшить ответы на следующих интервью.

Как работает проект (схема):

Таким образом, вы получаете максимально полезный инструмент анализа своих навыков коммуникации и профессиональных компетенций, не выходя из дома и без помощи внешних консультантов
Таким образом, вы получаете максимально полезный инструмент анализа своих навыков коммуникации и профессиональных компетенций, не выходя из дома и без помощи внешних консультантов

Что такое Whisper и почему он интереснее других

Whisper - это open-source модель от OpenAI, которая способна качественно переводить аудиозаписи в текст. Основные плюсы:

  • Бесплатная и доступная всем.

  • Неплохо работает с русским и английским языками.

  • Легко настраивается и запускается локально.

В отличие от других сервисов, Whisper не требует отправки данных на внешние серверы. Это гарантирует конфиденциальность и безопасность.

Зачем это QA-инженеру или разработчику?

  • Анализировать свои ответы: понимать, какие ошибки допускаешь и что можно улучшить.

  • Самоподготовка: готовиться к следующим интервью, отрабатывая слабые места.

  • Рост навыков коммуникации: видеть, насколько понятно и структурированно говоришь о своих навыках.

Пример запроса к GPT

После получения файла с расшифровкой интервью (result.txt), вы можете использовать следующий пример промта в GPT:

Проанализируй моё интервью и дай подробные рекомендации по улучшению моих ответов. Выдели сильные стороны, слабые места и предложи конкретные советы, как подготовиться лучше в следующий раз. Вот текст интервью:

[Вставьте сюда текст из файла result.txt] либо же сам файл

Мой результат: что я узнал благодаря Whisper

Используя Whisper для расшифровки своих интервью, я смог:

  • Увидеть четко, где «плыву» в ответах.

  • Определить, какие вопросы чаще всего меня сбивают.

  • Улучшить структуру своих ответов.

Это помогло мне порефлексировать и сделать работу над ошибками.

Почему это пригодится тебе

Этот инструмент полезен:

  • QA-инженерам (для подготовки к техническим и поведенческим интервью).

  • Разработчикам (чтобы отточить навыки самопрезентации и интервью).

  • HR и менеджерам (для анализа кандидатов и улучшения коммуникации).

Где скачать и посмотреть проект

Подробная пошаговая инструкция и сам проект находятся на GitHub: voice-to-text-sobes
Лицензия: MIT (используйте свободно)

Заключение: почему стоит попробовать уже сейчас

Этот проект помог мне значительно улучшить понимание своих слабых и сильных сторон на интервью. Whisper позволяет эффективно анализировать каждую деталь собеседования и становиться вашим личным коучем в подготовке.

Делитесь мнениями.

Комментарии (27)


  1. Busla
    17.05.2025 11:02

    записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

    А на передачу интервью третьей стороне согласия не требуется?


    1. ArtemKQA Автор
      17.05.2025 11:02

      Хороший вопрос!

      Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.

      В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.



      1. gooseefer
        17.05.2025 11:02

        а может ну их, компании, рекрутеров, юридические риски?

        Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?

        Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.

        Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work


        1. ArtemKQA Автор
          17.05.2025 11:02

          Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков

          .Спасибо за ссылку на mockin.work, не знал про них - гляну!

          Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.



        1. vangog9
          17.05.2025 11:02

          Правда минус у Мокинга всё же небольшой есть - 3 бесплатных "запроса" (интервью/проверка резюме и т.п.). В остальном выглядит норм.


    1. timerbulatov
      17.05.2025 11:02

      Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?


      1. ArtemKQA Автор
        17.05.2025 11:02

        Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.



        1. hidden_pingvin
          17.05.2025 11:02

          А вы уверены, что результат получается достаточно точным? Ведь LLM из третьего шага будет действительно поток сознания нескольких спикеров анализировать и она не в курсе где именно ваши ответы. Собеседующий будет влиять на результат, так или иначе.


        1. BadNickname
          17.05.2025 11:02

          А всего-то стоит сделать ещё один шаг, и добавить модель для аннотирования спикеров...


          1. Ravius
            17.05.2025 11:02

            "Всего-то"

            Есть примеры?

            Я пытался в real-time или около того - все плохо было у whisper... оч сомневаюсь что "всего-то" заработает быстро.


            1. Stom
              17.05.2025 11:02

              Я для схожей задачи использую https://github.com/m-bain/whisperX, под капотом whisper + pyannote-audio


    1. egribanov
      17.05.2025 11:02

      Ну а как компании данные собирают? Будем считать, что это обезличенные данные


  1. astenix
    17.05.2025 11:02

    Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?

    У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.


    1. ArtemKQA Автор
      17.05.2025 11:02

      Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.



    1. Stom
      17.05.2025 11:02

      Привет, если узнал :)

      Попробуй https://github.com/m-bain/whisperX, это whisper + разделение текста по спикерам с помощью https://github.com/pyannote/pyannote-audio


  1. Smogendrr
    17.05.2025 11:02

    А теперь сшить все транскрипты в один и добавить загрузку промпта анализа динамики из файла. Я так теперь клиентов консультирую, с их согласия конечно. DeepGram использовал с распознаванием голосов, чтоб в транскрипции сразу все цитаты помечены Голос 1 и Голос 2 были. А в промпте в начале указывал заменить имя Голоса 1 и Голоса 2 на Клиента и Терапевта.


    1. ArtemKQA Автор
      17.05.2025 11:02

      Круто, спасибо, что поделились!

      DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.

      А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.


      1. Smogendrr
        17.05.2025 11:02

        Пожалуйста! Распознавание голосов там diarize кажется называется


  1. pnmv
    17.05.2025 11:02

    С шутки про "лучше не надо", смеялсо.

    Единственный способ понять, что пошло не так, на интервью, это, любым способом, проанализировать весь разговор, а для этого нужна запись. И, если уж это "созвон по скайпу с вебкамерой и онлайн-кодингом", то еще и видео хорошо бы. Строго, для себя, естественно, а не для громких разоблачений.


    1. ArtemKQA Автор
      17.05.2025 11:02

      Рад что шутка зашла :)

      Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.

      Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать


      1. pnmv
        17.05.2025 11:02

        Как правило, на определённом этапе, сложно не догадаться, что тебя заворачивают, и безо всяких анализаторов. Я записывал собеседования для разбора задачек и оттачивания формулировок. Первое - полезно, а второе ещё и увлекательно.


  1. pnmv
    17.05.2025 11:02

    А как whisper разбирает речь собеседников, когда все перебивают друг друга?


    1. ArtemKQA Автор
      17.05.2025 11:02

      Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»



  1. vangog9
    17.05.2025 11:02

    Да, Whisper - прикольная штука, сам пару раз пользовался.
    Единственный вопрос: почему на запись нужно разрешение? Безусловно, если выкладывать информацию в интернет или использовать в коммерческих целях - тогда безусловно.
    Зачем это делать, если чисто для себя, чисто в личных целях, не передавая третьим лицам?


  1. eyeDM
    17.05.2025 11:02

    Вообще, если вы сами участвуете в разговоре, то записывать его можно даже и без информирование участников и получения их согласия. Это не является нарушением закона, так как и в чужую личную жизнь вы не лезете, и не получаете информацию негласным образом. Но явно обозначить своё желание сделать запись и открыто положить диктофон на стол - и удобнее, и безопаснее, и просто хороший тон.


  1. TheAim
    17.05.2025 11:02

    Зачем? Уже есть Gemini 2.5 Pro есть. Он аудио и видео смело обрабатывает


  1. lynikol
    17.05.2025 11:02

    Интересная статья!

    Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.

    Для разбивки по спикерам взял NeMo