SA-ASR说话人相关语音识别-中文-AliMeeting-16k-离线
  • 模型资讯
  • 模型资料

SA-ASR说话人相关语音识别模型介绍

Highlights

本模型为M2MeT2.0竞赛基线系统,基于ICASSP2022 M2MeT竞赛发布的真实会议场景语料库AliMeeting进行训练,可以在存在多说话人语音交叠的情况下识别出每个人说的内容并打上不同的说话人标签。

ModelScope-FunASR

FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并促进语音识别生态系统的发展。

最新动态
| 环境安装
| 介绍文档
| 中文教程
| 服务部署
| 模型库
| 竞赛网址
| 联系我们

模型描述

会议场景由于其复杂的声学条件和不同的讲话风格,包括重叠的讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响,仍然属于一项极具挑战性的任务。说话人相关的ASR任务需要从重叠的语音中识别每个说话人的语音,并为识别内容分配一个说话人标签。我们参考端到端SA-ASR系统构建了M2MeT2.0基线系统

如何使用与训练自己的模型

开发者可以基于此模型对应的Github代码仓库FunASR进一步进行模型的领域定制化。

在本地机器中开发

基于FunASR进行微调和推理

FunASR框架支持魔搭社区开源的工业级的语音识别模型的training & finetuning,使得研究人员和开发者可以更加便捷的进行语音识别模型的研究和生产,目前已在Github开源:https://github.com/alibaba-damo-academy/FunASR 。若在使用过程中遇到任何问题,欢迎联系我们:联系方式

FunASR框架安装

  • 安装FunASR和ModelScope
pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
git clone https://github.com/alibaba/FunASR.git
cd FunASR
pip install --editable ./

基于FunASR进行推理

接下来会以AliMeeting数据集为例,介绍如何在FunASR框架中使用SA-ASR进行推理以及微调。

cd egs/alimeeting/sa-asr

下载并解压AliMeeting数据集并放置于./dataset目录下

run.sh中设置infer_with_pretrained_model=true

bash run.sh

基于FunASR进行微调

cd egs/alimeeting/sa-asr

下载并解压AliMeeting数据集并放置于./dataset目录下

python local/download_pretrained_model_from_modelscope.py damo/speech_saasr_asr-zh-cn-16k-alimeeting exp/sa_asr_train_conformer_raw_zh_char_data_alimeeting
ln -s exp/sa_asr_train_conformer_raw_zh_char_data_alimeeting/damo/speech_saasr_asr-zh-cn-16k-alimeeting/model.pb exp/sa_asr_train_conformer_raw_zh_char_data_alimeeting/model.pb

asr_local.shstage 12中全部--init_param参数删除并替换为一个-- init_param $sa_asr_exp/model.pb \

run.sh中设置stage=1stop_stage=10

bash run.sh

run.sh中设置stage=12stop_stage=12

bash run.sh

数据评估及结果(modelscope)

beam=20, cluster profile

SI-CER

model Para (M) Data (hrs) Eval (SI-CER%) Test (SI-CER%)
SA-ASR 55.66 104.75 32.05 32.70

cp-CER

model Para (M) Data (hrs) Eval (cp-CER%) Test (cp-CER%)
SA-ASR 55.66 104.75 53.76 55.95

相关论文以及引用信息

@inproceedings{kanda21b_interspeech,
  author={Naoyuki Kanda and Guoli Ye and Yashesh Gaur and Xiaofei Wang and Zhong Meng and Zhuo Chen and Takuya Yoshioka},
  title={{End-to-end speaker-attributed ASR with Transformer}},
  year=2021,
  booktitle={Proc. INTERSPEECH},
  pages={4413--4417},
  organization={ISCA}
}