DeBERTaV2的中文Lite预训练模型是使用wikipedia数据集、wudao数据集及中文网页数据,以masked language model任务训练的中文自然语言理解预训练模型。
DeBERTaV2在BERT/RoBERTa的基础之上,通过解耦注意力机制、增强的掩码解码机制等方面进行改进,从而更好的对语言理解任务进行建模。详见论文Deberta: Decoding-enhanced bert with disentangled attention,主要改进点如下:
本模型为Lite规模(Layer-6 / Hidden-768 / Head-12),参数规模约为137M。
本模型主要用于中文相关下游任务微调。用户可以基于自有训练数据进行微调,具体微调训练方式请参考文档。
在安装完成ModelScope-lib之后即可基于nlp_debertav2_fill-mask_chinese-lite进行下游任务finetune
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
ori_text = '你师父差得动你,你师父可差不动我。'
test_input = '你师父差得动你,你师父可[MASK]不动我。'
pipeline_ins = pipeline(
task=Tasks.fill_mask, model='damo/nlp_debertav2_fill-mask_chinese-lite')
print(f'\nori_text: {ori_text}\ninput: {test_input}\npipeline: '
f'{pipeline_ins(test_input)}\n')
基于中文数据进行训练,模型训练数据有限,效果可能存在一定偏差。
数据来源于维基数据、WuDao数据和中文网页数据等
在中文wiki等无监督数据上,通过MLM任务训练得到。
暂无
@article{he2020deberta,
title={Deberta: Decoding-enhanced bert with disentangled attention},
author={He, Pengcheng and Liu, Xiaodong and Gao, Jianfeng and Chen, Weizhu},
journal={arXiv preprint arXiv:2006.03654},
year={2020}
}