本模型为M2MeT2.0竞赛基线系统,基于ICASSP2022 M2MeT竞赛发布的真实会议场景语料库AliMeeting进行训练,可以在存在多说话人语音交叠的情况下识别出每个人说的内容并打上不同的说话人标签。
FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并促进语音识别生态系统的发展。
最新动态
| 环境安装
| 介绍文档
| 中文教程
| 服务部署
| 模型库
| 竞赛网址
| 联系我们
会议场景由于其复杂的声学条件和不同的讲话风格,包括重叠的讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响,仍然属于一项极具挑战性的任务。说话人相关的ASR任务需要从重叠的语音中识别每个说话人的语音,并为识别内容分配一个说话人标签。我们参考端到端SA-ASR系统构建了M2MeT2.0基线系统
开发者可以基于此模型对应的Github代码仓库FunASR进一步进行模型的领域定制化。
FunASR框架支持魔搭社区开源的工业级的语音识别模型的training & finetuning,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,目前已在Github开源:https://github.com/alibaba-damo-academy/FunASR 。若在使用过程中遇到任何问题,欢迎联系我们:联系方式
pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
git clone https://github.com/alibaba/FunASR.git
cd FunASR
pip install --editable ./
接下来会以AliMeeting数据集为例,介绍如何在FunASR框架中使用SA-ASR进行推理以及微调。
cd egs/alimeeting/sa-asr
下载并解压AliMeeting数据集并放置于./dataset
目录下
在run.sh
中设置infer_with_pretrained_model=true
bash run.sh
cd egs/alimeeting/sa-asr
下载并解压AliMeeting数据集并放置于./dataset
目录下
python local/download_pretrained_model_from_modelscope.py damo/speech_saasr_asr-zh-cn-16k-alimeeting exp/sa_asr_train_conformer_raw_zh_char_data_alimeeting
ln -s exp/sa_asr_train_conformer_raw_zh_char_data_alimeeting/damo/speech_saasr_asr-zh-cn-16k-alimeeting/model.pb exp/sa_asr_train_conformer_raw_zh_char_data_alimeeting/model.pb
将asr_local.sh
的stage 12
中全部--init_param
参数删除并替换为一个-- init_param $sa_asr_exp/model.pb \
在run.sh
中设置stage=1
,stop_stage=10
bash run.sh
在run.sh
中设置stage=12
,stop_stage=12
bash run.sh
beam=20, cluster profile
SI-CER
model | Para (M) | Data (hrs) | Eval (SI-CER%) | Test (SI-CER%) |
---|---|---|---|---|
SA-ASR | 55.66 | 104.75 | 32.05 | 32.70 |
cp-CER
model | Para (M) | Data (hrs) | Eval (cp-CER%) | Test (cp-CER%) |
---|---|---|---|---|
SA-ASR | 55.66 | 104.75 | 53.76 | 55.95 |
@inproceedings{kanda21b_interspeech,
author={Naoyuki Kanda and Guoli Ye and Yashesh Gaur and Xiaofei Wang and Zhong Meng and Zhuo Chen and Takuya Yoshioka},
title={{End-to-end speaker-attributed ASR with Transformer}},
year=2021,
booktitle={Proc. INTERSPEECH},
pages={4413--4417},
organization={ISCA}
}