Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только) / forpes.ru

Главная
Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только) +17

17.05.2025 10:16

ArtemKQA 27 12000 Источник

Собеседования — всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности. А переслушивать запись, которая может длиться от часа и выше это долго и неэффективно.

Задумался: а что если использовать что‑то, что автоматически превратит аудиозапись интервью в текст? Так я открыл для себя Whisper от OpenAI. Ниже подробности о его применении.

⚠️ Важно: записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

Или

запишите так, чтобы никто не узнал (шутка, лучше не надо).

Как это вообще работает: Whisper, Python и GPT

Процесс выглядит так:

Whisper (модель от OpenAI) берёт аудиофайл с собеседованием и превращает его в обычный текст (транскрибирует).
Python-скрипт - это просто инструмент, который удобно запускает Whisper локально, без отправки данных в интернет. (Ссылка на Github в конце статьи)
Полученный текст мы отправляем в GPT (например, в ChatGPT), который уже анализирует:
- качество ответов,
- сильные и слабые стороны,
- даёт советы, как улучшить ответы на следующих интервью.

Как работает проект (схема):

Таким образом, вы получаете максимально полезный инструмент анализа своих навыков коммуникации и профессиональных компетенций, не выходя из дома и без помощи внешних консультантов — Таким образом, вы получаете максимально полезный инструмент анализа своих навыков коммуникации и профессиональных компетенций, **не выходя из дома и без помощи внешних консультантов**

Что такое Whisper и почему он интереснее других

Whisper - это open-source модель от OpenAI, которая способна качественно переводить аудиозаписи в текст. Основные плюсы:

Бесплатная и доступная всем.
Неплохо работает с русским и английским языками.
Легко настраивается и запускается локально.

В отличие от других сервисов, Whisper не требует отправки данных на внешние серверы. Это гарантирует конфиденциальность и безопасность.

Зачем это QA-инженеру или разработчику?

Анализировать свои ответы: понимать, какие ошибки допускаешь и что можно улучшить.
Самоподготовка: готовиться к следующим интервью, отрабатывая слабые места.
Рост навыков коммуникации: видеть, насколько понятно и структурированно говоришь о своих навыках.

Пример запроса к GPT

После получения файла с расшифровкой интервью (result.txt), вы можете использовать следующий пример промта в GPT:

Проанализируй моё интервью и дай подробные рекомендации по улучшению моих ответов. Выдели сильные стороны, слабые места и предложи конкретные советы, как подготовиться лучше в следующий раз. Вот текст интервью:

[Вставьте сюда текст из файла result.txt] либо же сам файл

Мой результат: что я узнал благодаря Whisper

Используя Whisper для расшифровки своих интервью, я смог:

Увидеть четко, где «плыву» в ответах.
Определить, какие вопросы чаще всего меня сбивают.
Улучшить структуру своих ответов.

Это помогло мне порефлексировать и сделать работу над ошибками.

Почему это пригодится тебе

Этот инструмент полезен:

QA-инженерам (для подготовки к техническим и поведенческим интервью).
Разработчикам (чтобы отточить навыки самопрезентации и интервью).
HR и менеджерам (для анализа кандидатов и улучшения коммуникации).

Где скачать и посмотреть проект

Подробная пошаговая инструкция и сам проект находятся на GitHub: voice-to-text-sobes
Лицензия: MIT (используйте свободно)

Заключение: почему стоит попробовать уже сейчас

Этот проект помог мне значительно улучшить понимание своих слабых и сильных сторон на интервью. Whisper позволяет эффективно анализировать каждую деталь собеседования и становиться вашим личным коучем в подготовке.

Делитесь мнениями.

Комментарии (27)

Busla
17.05.2025 11:02
#28316496
записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

А на передачу интервью третьей стороне согласия не требуется?
1. ArtemKQA Автор
  17.05.2025 11:02
  #28316538
  Хороший вопрос!
  
  Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.
  
  В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.
  1. gooseefer
    17.05.2025 11:02
    #28316722
    а может ну их, компании, рекрутеров, юридические риски?
    
    Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?
    
    Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.
    
    Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work
    
    ArtemKQA Автор
    17.05.2025 11:02
    #28317678
    Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков
    
    .Спасибо за ссылку на mockin.work, не знал про них - гляну!
    
    Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.
    
    vangog9
    17.05.2025 11:02
    #28321626
    Правда минус у Мокинга всё же небольшой есть - 3 бесплатных "запроса" (интервью/проверка резюме и т.п.). В остальном выглядит норм.
1. timerbulatov
  17.05.2025 11:02
  #28316554
  Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?
  1. ArtemKQA Автор
    17.05.2025 11:02
    #28316590
    Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.
    
    hidden_pingvin
    17.05.2025 11:02
    #28318076
    А вы уверены, что результат получается достаточно точным? Ведь LLM из третьего шага будет действительно поток сознания нескольких спикеров анализировать и она не в курсе где именно ваши ответы. Собеседующий будет влиять на результат, так или иначе.
    
    BadNickname
    17.05.2025 11:02
    #28318146
    А всего-то стоит сделать ещё один шаг, и добавить модель для аннотирования спикеров...
    
    Ravius
    17.05.2025 11:02
    #28318530
    "Всего-то"
    
    Есть примеры?
    
    Я пытался в real-time или около того - все плохо было у whisper... оч сомневаюсь что "всего-то" заработает быстро.
    
    Stom
    17.05.2025 11:02
    #28326940
    Я для схожей задачи использую https://github.com/m-bain/whisperX, под капотом whisper + pyannote-audio
1. egribanov
  17.05.2025 11:02
  #28320668
  Ну а как компании данные собирают? Будем считать, что это обезличенные данные

astenix
17.05.2025 11:02
#28316512
Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?

У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.
1. ArtemKQA Автор
  17.05.2025 11:02
  #28316546
  Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.
1. Stom
  17.05.2025 11:02
  #28326958
  Привет, если узнал :)
  
  Попробуй https://github.com/m-bain/whisperX, это whisper + разделение текста по спикерам с помощью https://github.com/pyannote/pyannote-audio

Smogendrr
17.05.2025 11:02
#28317452
А теперь сшить все транскрипты в один и добавить загрузку промпта анализа динамики из файла. Я так теперь клиентов консультирую, с их согласия конечно. DeepGram использовал с распознаванием голосов, чтоб в транскрипции сразу все цитаты помечены Голос 1 и Голос 2 были. А в промпте в начале указывал заменить имя Голоса 1 и Голоса 2 на Клиента и Терапевта.
1. ArtemKQA Автор
  17.05.2025 11:02
  #28317704
  Круто, спасибо, что поделились!
  
  DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.
  
  А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.
  1. Smogendrr
    17.05.2025 11:02
    #28318016
    Пожалуйста! Распознавание голосов там diarize кажется называется

pnmv
17.05.2025 11:02
#28317602
С шутки про "лучше не надо", смеялсо.

Единственный способ понять, что пошло не так, на интервью, это, любым способом, проанализировать весь разговор, а для этого нужна запись. И, если уж это "созвон по скайпу с вебкамерой и онлайн-кодингом", то еще и видео хорошо бы. Строго, для себя, естественно, а не для громких разоблачений.
1. ArtemKQA Автор
  17.05.2025 11:02
  #28317668
  Рад что шутка зашла :)
  
  Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.
  
  Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать
  1. pnmv
    17.05.2025 11:02
    #28317762
    Как правило, на определённом этапе, сложно не догадаться, что тебя заворачивают, и безо всяких анализаторов. Я записывал собеседования для разбора задачек и оттачивания формулировок. Первое - полезно, а второе ещё и увлекательно.

pnmv
17.05.2025 11:02
#28317614
А как whisper разбирает речь собеседников, когда все перебивают друг друга?
1. ArtemKQA Автор
  17.05.2025 11:02
  #28317648
  Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»

vangog9
17.05.2025 11:02
#28321610
Да, Whisper - прикольная штука, сам пару раз пользовался.
Единственный вопрос: почему на запись нужно разрешение? Безусловно, если выкладывать информацию в интернет или использовать в коммерческих целях - тогда безусловно.
Зачем это делать, если чисто для себя, чисто в личных целях, не передавая третьим лицам?

eyeDM
17.05.2025 11:02
#28322260
Вообще, если вы сами участвуете в разговоре, то записывать его можно даже и без информирование участников и получения их согласия. Это не является нарушением закона, так как и в чужую личную жизнь вы не лезете, и не получаете информацию негласным образом. Но явно обозначить своё желание сделать запись и открыто положить диктофон на стол - и удобнее, и безопаснее, и просто хороший тон.

TheAim
17.05.2025 11:02
#28322416
Зачем? Уже есть Gemini 2.5 Pro есть. Он аудио и видео смело обрабатывает

lynikol
17.05.2025 11:02
#28326160
Интересная статья!

Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.

Для разбивки по спикерам взял NeMo

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только) +17

Как это вообще работает: Whisper, Python и GPT

Как работает проект (схема):

Что такое Whisper и почему он интереснее других

Зачем это QA-инженеру или разработчику?

Пример запроса к GPT

Мой результат: что я узнал благодаря Whisper

Почему это пригодится тебе

Где скачать и посмотреть проект

Заключение: почему стоит попробовать уже сейчас

Комментарии (27)

ArtemKQA Автор

ArtemKQA Автор

ArtemKQA Автор

ArtemKQA Автор

ArtemKQA Автор

ArtemKQA Автор

ArtemKQA Автор