请问本地部署vllm推理,怎么推理音频、视频、音视频这些格式呢?样例里好像只给了图像的vllm推理
请问本地部署vllm推理,怎么推理音频、视频、音视频这些格式呢?样例里好像只给了图像的vllm推理