Skip to content

Latest commit

 

History

History
263 lines (195 loc) · 12.9 KB

File metadata and controls

263 lines (195 loc) · 12.9 KB

Сравнительный тест всех ASR-моделей

Дата: 11 февраля 2026 Платформа: macOS, Apple Silicon (M-series) Бинарь: target/release/rustasr (release build)


Условия тестирования

Параметр Значение
Аудио tmp/hf_compare_31118765/full_16k_mono_60s.wav
Длительность 60.00 с
Формат WAV, 16 kHz, mono, 16-bit PCM
Содержание Русская речь (деловой разговор, один говорящий)
Устройство Metal (GPU) — все 4 модели

Все модели поддерживают Metal GPU. GigaAM и Parakeet ранее тестировались только на CPU, но Metal ускоряет их в 2.4–2.8× (depthwise conv1d/conv2d корректно работают на Metal в candle v0.8).


Сводная таблица метрик

Производительность (Metal GPU)

Модель Параметры Cold Start Transcribe Total (wall) RTF
GigaAM v3 CTC ~220M 2.64 с 1.02 с 3.65 с 0.017
Parakeet TDT v3 ~627M 5.87 с 2.30 с 8.17 с 0.038
Whisper v3 Turbo ~809M 4.03 с 6.60 с 10.67 с 0.110
Qwen3-ASR 0.6B ~660M 2.60 с 6.84 с 12.84 с 0.114
Производительность на CPU (для сравнения)
Модель Cold Start Transcribe RTF Ускорение Metal
GigaAM v3 CTC 2.68 с 2.87 с 0.048 2.8×
Parakeet TDT v3 4.61 с 5.54 с 0.092 2.4×

Потребление памяти (Metal GPU)

Модель Peak RSS Page Faults
Whisper v3 Turbo 1 711 МБ 98 552
GigaAM v3 CTC 1 719 МБ 27 561
Qwen3-ASR 0.6B 1 932 МБ 23 198
Parakeet TDT v3 4 672 МБ 156 074

CPU-нагрузка (Metal GPU)

Модель User time Sys time Instructions Cycles
Whisper v3 Turbo 0.33 с 2.52 с 23.3B 10.9B
GigaAM v3 CTC 0.43 с 0.77 с 11.6B 4.9B
Parakeet TDT v3 0.97 с 1.85 с 25.3B 10.8B
Qwen3-ASR 0.6B 1.57 с 4.07 с 51.5B 21.3B

Все 4 модели демонстрируют минимальный CPU user time на Metal — основная работа выполняется на GPU. GigaAM на Metal использует в 24× меньше CPU (0.43 с vs 10.37 с на CPU), Parakeet — в 15× меньше.


Качество распознавания (русский язык)

Рейтинг качества

# Модель Качество Комментарий
1 Whisper v3 Turbo ★★★★★ Лучший текст: связный, с пунктуацией, правильные имена и сокращения
2 GigaAM v3 CTC ★★★★☆ Очень близко к Whisper, есть пунктуация и «ё», мелкие ошибки
3 Qwen3-ASR 0.6B ★★★☆☆ Смысл передан, но ошибки в именах собственных и терминах
4 Parakeet TDT v3 ★☆☆☆☆ Неприемлемо для русского — текст частично бессмысленный

Ключевые отличия

Аспект Whisper GigaAM Qwen3 0.6B Parakeet
«Алиной» (имя) ✅ Алиной ✅ Алиной ❌ Олиной ❌ —
«виджета» ✅ виджета ✅ виджета ❌ видеото ❌ —
«МТС-партнёра» ✅ МТС-партнера ✅ МТС-партнёра ❌ спортсменов ❌ —
«РТК» ✅ РТК ✅ РТК ❌ RTK ❌ —
Пунктуация ✅ Да ✅ Да ❌ Нет ❌ Нет
Сегменты ✅ Да ✅ Да ❌ Нет ❌ Нет
Буква «ё» ❌ Нет ✅ Да ❌ Нет ❌ Нет

Визуализация: RTF на Metal (меньше = лучше)

GigaAM v3 CTC   █▋                              0.017
Parakeet TDT v3  ███▊                            0.038
Whisper v3 Turbo ███████████                     0.110
Qwen3-ASR 0.6B   ███████████▍                    0.114

Визуализация: Peak RSS на Metal (МБ)

Whisper v3 Turbo ███████████▍                    1711 МБ
GigaAM v3 CTC   ███████████▍                    1719 МБ
Qwen3-ASR 0.6B   ████████████▊                   1932 МБ
Parakeet TDT v3  ████████████████████████████████ 4672 МБ

Выводы

По скорости (Metal GPU)

  1. GigaAM — абсолютный лидер по скорости (RTF 0.017), в 6.7× быстрее Whisper
  2. Parakeet — второй по скорости (RTF 0.038), в 2.9× быстрее Whisper
  3. Whisper и Qwen3 примерно одинаковы (~0.11 RTF)
  4. Все модели работают значительно быстрее реального времени (RTF < 0.12)

Metal vs CPU ускорение

  1. GigaAM: RTF 0.017 (Metal) vs 0.048 (CPU) = 2.8× ускорение
  2. Parakeet: RTF 0.038 (Metal) vs 0.092 (CPU) = 2.4× ускорение
  3. CPU user time на Metal в 15–24× меньше — вся работа на GPU

По памяти

  1. GigaAM и Whisper — минимальное потребление (~1.7 ГБ RSS)
  2. Qwen3 — умеренное (~1.9 ГБ RSS)
  3. Parakeet — наибольшее потребление (~4.7 ГБ RSS на Metal, ~3.2 ГБ на CPU)

По качеству на русском

  1. Whisper v3 Turbo — лучшее качество, рекомендуется как основная модель для русского
  2. GigaAM v3 CTC — отличная альтернатива, быстрее Whisper и с поддержкой буквы «ё»
  3. Qwen3-ASR 0.6B — приемлемо для общего контекста, но ошибается в именах собственных
  4. Parakeet TDT v3 — не рекомендуется для русского языка в текущей версии

Рекомендации по выбору модели

Сценарий Рекомендуемая модель
Русский язык, лучшее качество Whisper v3 Turbo
Русский язык, максимальная скорость GigaAM v3 CTC (Metal)
Мультиязычный контент Whisper v3 Turbo
Минимальное потребление памяти GigaAM v3 CTC
Длинные записи с VAD/диаризацией Любая модель (все 4 поддерживают diarize)
Лучшее качество + диаризация Whisper + --model-type whisper
Быстрая диаризация GigaAM + --model-type gigaam

Квантизированные модели (GGUF)

Квантизация доступна для Qwen3-ASR и Whisper.

  • Qwen3-ASR: квантизируется только декодер (Qwen3 LLM), энкодер AuT остаётся в BF16
  • Whisper: квантизируется вся модель (encoder + decoder), веса из oxide-lab/whisper-large-v3-turbo-GGUF
  • GigaAM / Parakeet: квантизация не поддерживается — нет quantized_model реализаций в candle-transformers

Подробный отчёт: quantization.md

Qwen3-ASR: Производительность

Модель Квантиз. Cold Start Transcribe RTF Peak RSS
0.6B safetensors 2.60 с 6.84 с 0.114 1 932 МБ
0.6B Q8_0 2.33 с 6.83 с 0.114 1 929 МБ
0.6B Q4_0 1.26 с 7.21 с 0.120 2 716 МБ
1.7B Q8_0 5.66 с 11.19 с 0.187 4 178 МБ
1.7B Q6K 5.26 с 13.28 с 0.221 5 834 МБ
1.7B Q4_0 4.72 с 9.36 с 0.156 5 264 МБ

Whisper: Производительность (Metal)

Квантиз. Cold Start Transcribe RTF Peak RSS
safetensors 4.03 с 6.60 с 0.110 1 711 МБ
Q8_0 1.38 с 16.12 с 0.269 1 437 МБ
Q4_0 0.23 с 13.99 с 0.233 1 459 МБ

Whisper GGUF: Cold Start в 3–17× быстрее, но RTF в 2–2.4× медленнее (candle quantized inference менее оптимизирован для Metal).

Размер модели на диске

Qwen3-ASR:

Модель safetensors Q8_0 Q6K Q4_0
0.6B 1.2 ГБ 743 МБ (–38%) 533 МБ (–56%)
1.7B 3.5 ГБ 2.0 ГБ (–43%) 1.7 ГБ (–51%) 1.3 ГБ (–63%)

Whisper Large v3 Turbo:

safetensors Q8_0 Q4_0
1.6 ГБ 825 МБ (–50%) 442 МБ (–73%)

Влияние на качество (русский)

Qwen3-ASR:

Модель Квантиз. Качество Примечание
0.6B Q8_0 ★★★☆☆ Идентично safetensors
0.6B Q4_0 ★★☆☆☆ Заметная деградация: искажения слов
1.7B Q8_0 ★★★★☆ Близко к эталону, «мтс партнера» распознано
1.7B Q6K ★★★★☆ Близко к Q8_0, «МТС партнер»
1.7B Q4_0 ★★★☆☆ Заметные искажения: «инсультальный», «MTS»

Whisper:

Квантиз. Качество Примечание
Q8_0 ★★★★★ Идентично safetensors
Q4_0 ★★★★☆ Лёгкая деградация: «облокирующих», «институтальный»

Рекомендации по квантизации

Qwen3-ASR:

  • Q8_0 — оптимальный выбор: нулевая потеря качества, экономия ~40% диска
  • Q6K — хороший баланс размер/качество для 1.7B (–51% диска)
  • Q4_0только с VAD/diarize для длинных записей, на коротких (60 с) работает стабильно

Whisper:

  • Q8_0 — рекомендуется: идентичное качество, –50% размер, но RTF ×2.4
  • Q4_0 — для минимального footprint (–73%), качество почти без потерь
  • safetensors остаётся лучшим по скорости (RTF 0.110 vs. 0.233–0.269 GGUF)

GigaAM / Parakeet:

  • Квантизация не поддерживается — нет реализации quantized_model в candle-transformers

Файлы тестов

Отчёты по моделям

Транскрипции

Логи (stdout + /usr/bin/time -l)