Skip to content

对话声音不连续的音频文件识别出来的时间戳信息不正确 #83

@asdasadaffadfsdf

Description

@asdasadaffadfsdf

以下是我用cpu模型识别出来的结果

Image 发现如果上下文的停顿时间超过几秒就会导致生成的时间戳会从0开始计算。 以下是我用gpu模型识别出来的结果 Image 识别出来text为空和timestamp数组为空 然后我查了funasr的auto_model.py Image Image 大概有这两种情况会导致timestamp为空数组,第一种应该是纯音乐的音频导致,第二种好像是VAD检测到语音片段,但ASR模型没有输出。 有哪位大佬知道咋处理吗。就针对对话不连续的音频识别会有以上问题,但如果是一个对话上下文较连续,没有大停顿的话,还是能识别出来准确的时间戳的

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions