Сравнительный тест всех ASR-моделей

Дата: 11 февраля 2026 Платформа: macOS, Apple Silicon (M-series) Бинарь: target/release/rustasr (release build)

Условия тестирования

Параметр	Значение
Аудио	`tmp/hf_compare_31118765/full_16k_mono_60s.wav`
Длительность	60.00 с
Формат	WAV, 16 kHz, mono, 16-bit PCM
Содержание	Русская речь (деловой разговор, один говорящий)
Устройство	Metal (GPU) — все 4 модели

Все модели поддерживают Metal GPU. GigaAM и Parakeet ранее тестировались только на CPU, но Metal ускоряет их в 2.4–2.8× (depthwise conv1d/conv2d корректно работают на Metal в candle v0.8).

Сводная таблица метрик

Производительность (Metal GPU)

Модель	Параметры	Cold Start	Transcribe	Total (wall)	RTF
GigaAM v3 CTC	~220M	2.64 с	1.02 с	3.65 с	0.017
Parakeet TDT v3	~627M	5.87 с	2.30 с	8.17 с	0.038
Whisper v3 Turbo	~809M	4.03 с	6.60 с	10.67 с	0.110
Qwen3-ASR 0.6B	~660M	2.60 с	6.84 с	12.84 с	0.114

Производительность на CPU (для сравнения)

Модель	Cold Start	Transcribe	RTF	Ускорение Metal
GigaAM v3 CTC	2.68 с	2.87 с	0.048	2.8×
Parakeet TDT v3	4.61 с	5.54 с	0.092	2.4×

Потребление памяти (Metal GPU)

Модель	Peak RSS	Page Faults
Whisper v3 Turbo	1 711 МБ	98 552
GigaAM v3 CTC	1 719 МБ	27 561
Qwen3-ASR 0.6B	1 932 МБ	23 198
Parakeet TDT v3	4 672 МБ	156 074

CPU-нагрузка (Metal GPU)

Модель	User time	Sys time	Instructions	Cycles
Whisper v3 Turbo	0.33 с	2.52 с	23.3B	10.9B
GigaAM v3 CTC	0.43 с	0.77 с	11.6B	4.9B
Parakeet TDT v3	0.97 с	1.85 с	25.3B	10.8B
Qwen3-ASR 0.6B	1.57 с	4.07 с	51.5B	21.3B

Все 4 модели демонстрируют минимальный CPU user time на Metal — основная работа выполняется на GPU. GigaAM на Metal использует в 24× меньше CPU (0.43 с vs 10.37 с на CPU), Parakeet — в 15× меньше.

Качество распознавания (русский язык)

Рейтинг качества

#	Модель	Качество	Комментарий
1	Whisper v3 Turbo	★★★★★	Лучший текст: связный, с пунктуацией, правильные имена и сокращения
2	GigaAM v3 CTC	★★★★☆	Очень близко к Whisper, есть пунктуация и «ё», мелкие ошибки
3	Qwen3-ASR 0.6B	★★★☆☆	Смысл передан, но ошибки в именах собственных и терминах
4	Parakeet TDT v3	★☆☆☆☆	Неприемлемо для русского — текст частично бессмысленный

Ключевые отличия

Аспект	Whisper	GigaAM	Qwen3 0.6B	Parakeet
«Алиной» (имя)	✅ Алиной	✅ Алиной	❌ Олиной	❌ —
«виджета»	✅ виджета	✅ виджета	❌ видеото	❌ —
«МТС-партнёра»	✅ МТС-партнера	✅ МТС-партнёра	❌ спортсменов	❌ —
«РТК»	✅ РТК	✅ РТК	❌ RTK	❌ —
Пунктуация	✅ Да	✅ Да	❌ Нет	❌ Нет
Сегменты	✅ Да	✅ Да	❌ Нет	❌ Нет
Буква «ё»	❌ Нет	✅ Да	❌ Нет	❌ Нет

Визуализация: RTF на Metal (меньше = лучше)

GigaAM v3 CTC   █▋                              0.017
Parakeet TDT v3  ███▊                            0.038
Whisper v3 Turbo ███████████                     0.110
Qwen3-ASR 0.6B   ███████████▍                    0.114

Визуализация: Peak RSS на Metal (МБ)

Whisper v3 Turbo ███████████▍                    1711 МБ
GigaAM v3 CTC   ███████████▍                    1719 МБ
Qwen3-ASR 0.6B   ████████████▊                   1932 МБ
Parakeet TDT v3  ████████████████████████████████ 4672 МБ

Выводы

По скорости (Metal GPU)

GigaAM — абсолютный лидер по скорости (RTF 0.017), в 6.7× быстрее Whisper
Parakeet — второй по скорости (RTF 0.038), в 2.9× быстрее Whisper
Whisper и Qwen3 примерно одинаковы (~0.11 RTF)
Все модели работают значительно быстрее реального времени (RTF < 0.12)

Metal vs CPU ускорение

GigaAM: RTF 0.017 (Metal) vs 0.048 (CPU) = 2.8× ускорение
Parakeet: RTF 0.038 (Metal) vs 0.092 (CPU) = 2.4× ускорение
CPU user time на Metal в 15–24× меньше — вся работа на GPU

По памяти

GigaAM и Whisper — минимальное потребление (~1.7 ГБ RSS)
Qwen3 — умеренное (~1.9 ГБ RSS)
Parakeet — наибольшее потребление (~4.7 ГБ RSS на Metal, ~3.2 ГБ на CPU)

По качеству на русском

Whisper v3 Turbo — лучшее качество, рекомендуется как основная модель для русского
GigaAM v3 CTC — отличная альтернатива, быстрее Whisper и с поддержкой буквы «ё»
Qwen3-ASR 0.6B — приемлемо для общего контекста, но ошибается в именах собственных
Parakeet TDT v3 — не рекомендуется для русского языка в текущей версии

Сценарий	Рекомендуемая модель
Русский язык, лучшее качество	Whisper v3 Turbo
Русский язык, максимальная скорость	GigaAM v3 CTC (Metal)
Мультиязычный контент	Whisper v3 Turbo
Минимальное потребление памяти	GigaAM v3 CTC
Длинные записи с VAD/диаризацией	Любая модель (все 4 поддерживают `diarize`)
Лучшее качество + диаризация	Whisper + `--model-type whisper`
Быстрая диаризация	GigaAM + `--model-type gigaam`

Квантизированные модели (GGUF)

Квантизация доступна для Qwen3-ASR и Whisper.

Qwen3-ASR: квантизируется только декодер (Qwen3 LLM), энкодер AuT остаётся в BF16
Whisper: квантизируется вся модель (encoder + decoder), веса из oxide-lab/whisper-large-v3-turbo-GGUF
GigaAM / Parakeet: квантизация не поддерживается — нет quantized_model реализаций в candle-transformers

Подробный отчёт: quantization.md

Qwen3-ASR: Производительность

Модель	Квантиз.	Cold Start	Transcribe	RTF	Peak RSS
0.6B	safetensors	2.60 с	6.84 с	0.114	1 932 МБ
0.6B	Q8_0	2.33 с	6.83 с	0.114	1 929 МБ
0.6B	Q4_0	1.26 с	7.21 с	0.120	2 716 МБ
1.7B	Q8_0	5.66 с	11.19 с	0.187	4 178 МБ
1.7B	Q6K	5.26 с	13.28 с	0.221	5 834 МБ
1.7B	Q4_0	4.72 с	9.36 с	0.156	5 264 МБ

Whisper: Производительность (Metal)

Квантиз.	Cold Start	Transcribe	RTF	Peak RSS
safetensors	4.03 с	6.60 с	0.110	1 711 МБ
Q8_0	1.38 с	16.12 с	0.269	1 437 МБ
Q4_0	0.23 с	13.99 с	0.233	1 459 МБ

Whisper GGUF: Cold Start в 3–17× быстрее, но RTF в 2–2.4× медленнее (candle quantized inference менее оптимизирован для Metal).

Размер модели на диске

Qwen3-ASR:

Модель	safetensors	Q8_0	Q6K	Q4_0
0.6B	1.2 ГБ	743 МБ (–38%)	—	533 МБ (–56%)
1.7B	3.5 ГБ	2.0 ГБ (–43%)	1.7 ГБ (–51%)	1.3 ГБ (–63%)

Whisper Large v3 Turbo:

safetensors	Q8_0	Q4_0
1.6 ГБ	825 МБ (–50%)	442 МБ (–73%)

Влияние на качество (русский)

Qwen3-ASR:

Модель	Квантиз.	Качество	Примечание
0.6B	Q8_0	★★★☆☆	Идентично safetensors
0.6B	Q4_0	★★☆☆☆	Заметная деградация: искажения слов
1.7B	Q8_0	★★★★☆	Близко к эталону, «мтс партнера» распознано
1.7B	Q6K	★★★★☆	Близко к Q8_0, «МТС партнер»
1.7B	Q4_0	★★★☆☆	Заметные искажения: «инсультальный», «MTS»

Whisper:

Квантиз.	Качество	Примечание
Q8_0	★★★★★	Идентично safetensors
Q4_0	★★★★☆	Лёгкая деградация: «облокирующих», «институтальный»

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Сравнительный тест всех ASR-моделей

Условия тестирования

Сводная таблица метрик

Производительность (Metal GPU)

Потребление памяти (Metal GPU)

CPU-нагрузка (Metal GPU)

Качество распознавания (русский язык)

Рейтинг качества

Ключевые отличия

Визуализация: RTF на Metal (меньше = лучше)

Визуализация: Peak RSS на Metal (МБ)

Выводы

По скорости (Metal GPU)

Metal vs CPU ускорение

По памяти

По качеству на русском

Рекомендации по выбору модели

Квантизированные модели (GGUF)

Qwen3-ASR: Производительность

Whisper: Производительность (Metal)

Размер модели на диске

Влияние на качество (русский)

Рекомендации по квантизации

Файлы тестов

Отчёты по моделям

Транскрипции

Логи (stdout + /usr/bin/time -l)

FilesExpand file tree

SUMMARY.md

Latest commit

History

SUMMARY.md

File metadata and controls

Сравнительный тест всех ASR-моделей

Условия тестирования

Сводная таблица метрик

Производительность (Metal GPU)

Потребление памяти (Metal GPU)

CPU-нагрузка (Metal GPU)

Качество распознавания (русский язык)

Рейтинг качества

Ключевые отличия

Визуализация: RTF на Metal (меньше = лучше)

Визуализация: Peak RSS на Metal (МБ)

Выводы

По скорости (Metal GPU)

Metal vs CPU ускорение

По памяти

По качеству на русском

Рекомендации по выбору модели

Квантизированные модели (GGUF)

Qwen3-ASR: Производительность

Whisper: Производительность (Metal)

Размер модели на диске

Влияние на качество (русский)

Рекомендации по квантизации

Файлы тестов

Отчёты по моделям

Транскрипции

Логи (stdout + /usr/bin/time -l)