Case Study

AI Interview Analyst

End-to-end system that transcribes interview recordings, extracts key insights, and generates structured analysis reports. Audio processing, speaker diarization, and LLM-powered summarization.

PythonWhisperGPT-4FastAPIReact

60min audio → report in <2min

90%+ speaker diarization accuracy

Structured scoring across 12 dimensions

The Problem.

Hiring teams spend hours manually reviewing interview recordings, taking notes, and comparing candidates. The process is slow, subjective, and inconsistent.

Architecture.

Audio upload → Whisper transcription with timestamps

Speaker diarization to separate interviewer vs candidate

LLM chain for insight extraction: skills, red flags, culture fit

Structured JSON output for consistent scoring across candidates

FastAPI backend with async processing queue

React dashboard for side-by-side candidate comparison

Technical Challenges.

Speaker diarization accuracy was initially ~70% — improved to 90%+ by combining pyannote with Whisper's word-level timestamps

Designed prompt chains that extract consistent structured data across different interview styles and formats

Handled large audio files (1hr+) by implementing chunked processing with context carry-over

Results.

Full audio-to-report pipeline completes in under 2 minutes
Structured JSON output enables automated candidate scoring
Speaker diarization at 90%+ accuracy

Interested in building something similar?

Let's Talk