以下是我用cpu模型识别出来的结果

发现如果上下文的停顿时间超过几秒就会导致生成的时间戳会从0开始计算。
以下是我用gpu模型识别出来的结果

识别出来text为空和timestamp数组为空
然后我查了funasr的auto_model.py

大概有这两种情况会导致timestamp为空数组,第一种应该是纯音乐的音频导致,第二种好像是VAD检测到语音片段,但ASR模型没有输出。
有哪位大佬知道咋处理吗。就针对对话不连续的音频识别会有以上问题,但如果是一个对话上下文较连续,没有大停顿的话,还是能识别出来准确的时间戳的