mengzi-bert-L6-H768是mengzi-bert-large的蒸馏版本。
详细的技术报告请参考:Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese
孟子中文Bert预训练模型与Bert结构相同,不包含下游任务,需要在特定任务上 Finetune 后使用。
Bert模型的详细介绍见:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
在预训练技术上,不同于Bert,孟子采用了:
本模型主要用于中文相关下游任务微调,也可以直接使用于完形填空任务。用户可以基于自有训练数据进行微调,具体调用方式请参考代码示例。
在安装完成Modelscope-lib之后即可进行下游任务finetune,下面给了一个直接使用本模型进行完形填空的范例。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
fill_mask_zh = pipeline(Tasks.fill_mask, model='langboat/mengzi-bert-L6-H768')
result_zh = fill_mask_zh('生活的真谛是[MASK]。')
print(result_zh['text'])
基于中文数据进行训练,模型训练数据有限,效果可能存在一定偏差。
Model | AFQMC | TNEWS | IFLYTEK | CMNLI | WSC | CSL | CMRC2018 | C3 | CHID |
---|---|---|---|---|---|---|---|---|---|
Mengzi-BERT-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
Mengzi-BERT-base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
RoBERTa-wwm-ext | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
RoBERTa-wwm-ext scores are from CLUE baseline
如果我们的模型对您有帮助,请您引用我们的文章:
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}