Собеседования — всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности. А переслушивать запись, которая может длиться от часа и выше это долго и неэффективно.
Задумался: а что если использовать что‑то, что автоматически превратит аудиозапись интервью в текст? Так я открыл для себя Whisper от OpenAI. Ниже подробности о его применении.
⚠️ Важно: записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.
Или
запишите так, чтобы никто не узнал (шутка, лучше не надо).
Как это вообще работает: Whisper, Python и GPT
Процесс выглядит так:
Whisper (модель от OpenAI) берёт аудиофайл с собеседованием и превращает его в обычный текст (транскрибирует).
Python-скрипт - это просто инструмент, который удобно запускает Whisper локально, без отправки данных в интернет. (Ссылка на Github в конце статьи)
-
Полученный текст мы отправляем в GPT (например, в ChatGPT), который уже анализирует:
качество ответов,
сильные и слабые стороны,
даёт советы, как улучшить ответы на следующих интервью.
Как работает проект (схема):

Что такое Whisper и почему он интереснее других
Whisper - это open-source модель от OpenAI, которая способна качественно переводить аудиозаписи в текст. Основные плюсы:
Бесплатная и доступная всем.
Неплохо работает с русским и английским языками.
Легко настраивается и запускается локально.
В отличие от других сервисов, Whisper не требует отправки данных на внешние серверы. Это гарантирует конфиденциальность и безопасность.
Зачем это QA-инженеру или разработчику?
Анализировать свои ответы: понимать, какие ошибки допускаешь и что можно улучшить.
Самоподготовка: готовиться к следующим интервью, отрабатывая слабые места.
Рост навыков коммуникации: видеть, насколько понятно и структурированно говоришь о своих навыках.
Пример запроса к GPT
После получения файла с расшифровкой интервью (result.txt
), вы можете использовать следующий пример промта в GPT:
Проанализируй моё интервью и дай подробные рекомендации по улучшению моих ответов. Выдели сильные стороны, слабые места и предложи конкретные советы, как подготовиться лучше в следующий раз. Вот текст интервью:
[Вставьте сюда текст из файла result.txt] либо же сам файл
Мой результат: что я узнал благодаря Whisper
Используя Whisper для расшифровки своих интервью, я смог:
Увидеть четко, где «плыву» в ответах.
Определить, какие вопросы чаще всего меня сбивают.
Улучшить структуру своих ответов.
Это помогло мне порефлексировать и сделать работу над ошибками.
Почему это пригодится тебе
Этот инструмент полезен:
QA-инженерам (для подготовки к техническим и поведенческим интервью).
Разработчикам (чтобы отточить навыки самопрезентации и интервью).
HR и менеджерам (для анализа кандидатов и улучшения коммуникации).
Где скачать и посмотреть проект
Подробная пошаговая инструкция и сам проект находятся на GitHub: voice-to-text-sobes
Лицензия: MIT (используйте свободно)
Заключение: почему стоит попробовать уже сейчас
Этот проект помог мне значительно улучшить понимание своих слабых и сильных сторон на интервью. Whisper позволяет эффективно анализировать каждую деталь собеседования и становиться вашим личным коучем в подготовке.
Делитесь мнениями.
Комментарии (27)
astenix
17.05.2025 11:02Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?
У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.
ArtemKQA Автор
17.05.2025 11:02Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.
Stom
17.05.2025 11:02Привет, если узнал :)
Попробуй https://github.com/m-bain/whisperX, это whisper + разделение текста по спикерам с помощью https://github.com/pyannote/pyannote-audio
Smogendrr
17.05.2025 11:02А теперь сшить все транскрипты в один и добавить загрузку промпта анализа динамики из файла. Я так теперь клиентов консультирую, с их согласия конечно. DeepGram использовал с распознаванием голосов, чтоб в транскрипции сразу все цитаты помечены Голос 1 и Голос 2 были. А в промпте в начале указывал заменить имя Голоса 1 и Голоса 2 на Клиента и Терапевта.
ArtemKQA Автор
17.05.2025 11:02Круто, спасибо, что поделились!
DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.
А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.
pnmv
17.05.2025 11:02С шутки про "лучше не надо", смеялсо.
Единственный способ понять, что пошло не так, на интервью, это, любым способом, проанализировать весь разговор, а для этого нужна запись. И, если уж это "созвон по скайпу с вебкамерой и онлайн-кодингом", то еще и видео хорошо бы. Строго, для себя, естественно, а не для громких разоблачений.
ArtemKQA Автор
17.05.2025 11:02Рад что шутка зашла :)
Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.
Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать
pnmv
17.05.2025 11:02Как правило, на определённом этапе, сложно не догадаться, что тебя заворачивают, и безо всяких анализаторов. Я записывал собеседования для разбора задачек и оттачивания формулировок. Первое - полезно, а второе ещё и увлекательно.
pnmv
17.05.2025 11:02А как whisper разбирает речь собеседников, когда все перебивают друг друга?
ArtemKQA Автор
17.05.2025 11:02Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»
vangog9
17.05.2025 11:02Да, Whisper - прикольная штука, сам пару раз пользовался.
Единственный вопрос: почему на запись нужно разрешение? Безусловно, если выкладывать информацию в интернет или использовать в коммерческих целях - тогда безусловно.
Зачем это делать, если чисто для себя, чисто в личных целях, не передавая третьим лицам?
eyeDM
17.05.2025 11:02Вообще, если вы сами участвуете в разговоре, то записывать его можно даже и без информирование участников и получения их согласия. Это не является нарушением закона, так как и в чужую личную жизнь вы не лезете, и не получаете информацию негласным образом. Но явно обозначить своё желание сделать запись и открыто положить диктофон на стол - и удобнее, и безопаснее, и просто хороший тон.
lynikol
17.05.2025 11:02Интересная статья!
Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.
Для разбивки по спикерам взял NeMo
Busla
А на передачу интервью третьей стороне согласия не требуется?
ArtemKQA Автор
Хороший вопрос!
Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.
В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.
gooseefer
а может ну их, компании, рекрутеров, юридические риски?
Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?
Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.
Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work
ArtemKQA Автор
Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков
.Спасибо за ссылку на mockin.work, не знал про них - гляну!
Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.
vangog9
Правда минус у Мокинга всё же небольшой есть - 3 бесплатных "запроса" (интервью/проверка резюме и т.п.). В остальном выглядит норм.
timerbulatov
Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?
ArtemKQA Автор
Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.
hidden_pingvin
А вы уверены, что результат получается достаточно точным? Ведь LLM из третьего шага будет действительно поток сознания нескольких спикеров анализировать и она не в курсе где именно ваши ответы. Собеседующий будет влиять на результат, так или иначе.
BadNickname
А всего-то стоит сделать ещё один шаг, и добавить модель для аннотирования спикеров...
Ravius
"Всего-то"
Есть примеры?
Я пытался в real-time или около того - все плохо было у whisper... оч сомневаюсь что "всего-то" заработает быстро.
Stom
Я для схожей задачи использую https://github.com/m-bain/whisperX, под капотом whisper + pyannote-audio
egribanov
Ну а как компании данные собирают? Будем считать, что это обезличенные данные