Controllable Time-delay Transformer VAD Realtime 模型介绍

Highlights

中文标点vad实时模型：可用于实时语音识别模型输出文本的标点预测。
- 基于基于grpc服务场景的使用
- 基于FunASR框架，可进行实时场景的ASR，VAD，标点的自由组合
- 基于模拟vad的纯文本输入的标点预测

ModelScope-FunASR

FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并促进语音识别生态系统的发展。

项目介绍

Controllable Time-delay Transformer VAD Realtime 是达摩院语音团队提出的实时后处理框架中的标点模块，在中文标点预测通用模型基础上针对ASR流式场景，提供了一种以VAD点为实时调用点的流式调用方式。可以被应用于流式语音识别场景中的后处理步骤，协助语音识别模块输出具有可读性的文本结果。

常规的Transformer会依赖很远的未来信息，导致长时间结果不固定。Controllable Time-delay Transformer VAD Realtime 通过对VAD前后文本作局部遮蔽处理，使得标点能获得有效的历史信息，同时又不会改变历史结果。在效果无损的情况下，有效控制标点的延时，提升上屏效果，降低链路集成复杂度。

如何使用与训练自己的模型

本项目提供的预训练模型是基于大数据训练的通用领域识别模型，开发者可以基于此模型进一步利用ModelScope的微调功能或者本项目对应的Github代码仓库FunASR进一步进行模型的领域定制化。

在Notebook中开发

对于有开发需求的使用者，特别推荐您使用Notebook进行离线处理。先登录ModelScope账号，点击模型页面右上角的“在Notebook中打开”按钮出现对话框，首次使用会提示您关联阿里云账号，按提示操作即可。关联账号后可进入选择启动实例界面，选择计算资源，建立实例，待实例创建完成后进入开发环境，进行调用。

基于ModelScope进行推理

由于该模型是在实时场景中，配合vad+asr模块使用的，因此单独模块的推理我们模拟了vad结果来作演示。文本中的“｜”符号表示此处为vad判断断开的位置,最终的output是流式后最终的asr+标点结果。

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.punctuation,
    model='damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727',
    model_revision=None,
)


inputs = "跨境河流是养育沿岸|人民的生命之源长期以来为帮助下游地区防灾减灾中方技术人员|在上游地区极为恶劣的自然条件下克服巨大困难甚至冒着生命危险|向印方提供汛期水文资料处理紧急事件中方重视印方在跨境河流问题上的关切|愿意进一步完善双方联合工作机制|凡是|中方能做的我们|都会去做而且会做得更好我请印度朋友们放心中国在上游的|任何开发利用都会经过科学|规划和论证兼顾上下游的利益"
vads = inputs.split("|")
rec_result_all="outputs:"
param_dict = {"cache": []}
for vad in vads:
    rec_result = inference_pipeline(text_in=vad, param_dict=param_dict)
    rec_result_all += rec_result['text']

print(rec_result_all)

基于ModelScope进行微调

待开发

在本地机器中开发

基于ModelScope进行微调和推理

支持基于ModelScope上数据集及私有数据集进行定制微调和推理，使用方式同Notebook中开发。

基于FunASR进行微调和推理

FunASR框架支持魔搭社区开源的工业级的语音识别模型的training & finetuning，使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产，目前已在Github开源：https://github.com/alibaba-damo-academy/FunASR

FunASR框架安装

安装FunASR和ModelScope，详见

pip3 install -U modelscope
git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

基于FunASR进行推理

接下来会以私有数据集为例，介绍如何在FunASR框架中使用本模型进行推理以及微调。

cd egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727
python infer.py

基于FunASR进行微调

待开发

Benchmark

中文标点预测通用模型在自采集的通用领域业务场景数据上有良好效果。训练数据大约33M个sample，每个sample可能包含1句或多句。

自采集数据（20000+ samples）

precision	recall	f1_score
55.0	56.6	55.6

使用方式以及适用范围

运行范围

支持Linux-x86_64、Mac和Windows运行。

使用方式

直接推理：可以直接对输入文本进行计算，输出带有标点的目标文字。

使用范围与目标场景

适合对文本数据进行标点预测，文本长度不限。