FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并促进语音识别生态系统的发展。
最新动态
| 环境安装
| 介绍文档
| 中文教程
| 服务部署
| 模型库
| 联系我们
Controllable Time-delay Transformer VAD Realtime 是达摩院语音团队提出的实时后处理框架中的标点模块,在中文标点预测通用模型 基础上针对ASR流式场景,提供了一种以VAD点为实时调用点的流式调用方式。可以被应用于流式语音识别场景中的后处理步骤,协助语音识别模块输出具有可读性的文本结果。
常规的Transformer会依赖很远的未来信息,导致长时间结果不固定。Controllable Time-delay Transformer VAD Realtime 通过对VAD前后文本作局部遮蔽处理,使得标点能获得有效的历史信息,同时又不会改变历史结果。在效果无损的情况下,有效控制标点的延时,提升上屏效果,降低链路集成复杂度。
本项目提供的预训练模型是基于大数据训练的通用领域识别模型,开发者可以基于此模型进一步利用ModelScope的微调功能或者本项目对应的Github代码仓库FunASR进一步进行模型的领域定制化。
对于有开发需求的使用者,特别推荐您使用Notebook进行离线处理。先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框,首次使用会提示您关联阿里云账号,按提示操作即可。关联账号后可进入选择启动实例界面,选择计算资源,建立实例,待实例创建完成后进入开发环境,进行调用。
由于该模型是在实时场景中,配合vad+asr模块使用的,因此单独模块的推理我们模拟了vad结果来作演示。文本中的“|”符号表示此处为vad判断断开的位置,最终的output是流式后最终的asr+标点结果。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
inference_pipeline = pipeline(
task=Tasks.punctuation,
model='damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727',
model_revision=None,
)
inputs = "跨境河流是养育沿岸|人民的生命之源长期以来为帮助下游地区防灾减灾中方技术人员|在上游地区极为恶劣的自然条件下克服巨大困难甚至冒着生命危险|向印方提供汛期水文资料处理紧急事件中方重视印方在跨境河流问题上的关切|愿意进一步完善双方联合工作机制|凡是|中方能做的我们|都会去做而且会做得更好我请印度朋友们放心中国在上游的|任何开发利用都会经过科学|规划和论证兼顾上下游的利益"
vads = inputs.split("|")
rec_result_all="outputs:"
param_dict = {"cache": []}
for vad in vads:
rec_result = inference_pipeline(text_in=vad, param_dict=param_dict)
rec_result_all += rec_result['text']
print(rec_result_all)
待开发
支持基于ModelScope上数据集及私有数据集进行定制微调和推理,使用方式同Notebook中开发。
FunASR框架支持魔搭社区开源的工业级的语音识别模型的training & finetuning,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,目前已在Github开源:https://github.com/alibaba-damo-academy/FunASR
pip3 install -U modelscope
git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./
接下来会以私有数据集为例,介绍如何在FunASR框架中使用本模型进行推理以及微调。
cd egs_modelscope/punctuation/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727
python infer.py
待开发
中文标点预测通用模型在自采集的通用领域业务场景数据上有良好效果。训练数据大约33M个sample,每个sample可能包含1句或多句。
precision | recall | f1_score |
---|---|---|
55.0 |
56.6 |
55.6 |
运行范围
使用方式
使用范围与目标场景
@inproceedings{chen2020controllable,
title={Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection},
author={Chen, Qian and Chen, Mengzhe and Li, Bo and Wang, Wen},
booktitle={ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={8069--8073},
year={2020},
organization={IEEE}
}