请问除了代码中的fp16以及flash attention,还有什么加速LLM-based ASR推理的方法吗?谢谢!
请问除了代码中的fp16以及flash attention,还有什么加速LLM-based ASR推理的方法吗?谢谢!