词性标注任务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。中文词性标注任务示例:
中文词性标注可以采用分词后的词序列作为输入, 模型输出每个词的词性标签。基于预训练语言模型的词性标注模型通常采用联合分词+词性标注的序列标注模型。这里我们基于通用新闻领域CTB9标注数据训练模型, 采用无监督统计特征增强的StructBERT+softmax序列标注模型,序列标注标签体系(B、I、E、S),四个标签分别表示标签处于该单词的起始、中间、终止位置或者改单词独立成词; 以StructBERT预训练语言模型为底座的序列标注模型可以参考下面的模型图:
StructBERT预训练语言模型可以参考 StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding。为了进一步提升中文词性标注模型的效果,在StructBERT模型基础上, 通过在预训练过程中增加大规模无监督词汇边界统计信息可以有效提升预训练模型对词汇边界的识别能力。我们实验验证融合词汇边界信息的预训练模型Boundary Aware StructBERT (BAStructBERT)模型在绝大多数中文序列标注任务上有进一步的效果提升。BAStructBERT模型结构和基础的StructBERT模型一致, BAStructBERT模型的预训练流程示意图如下所示, 更加详细的模型结构和实验结果将在后续公开的论文中介绍。
CTB标注数据采用的标签体系:
标签 | 描述 | 含义 | 标签 | 描述 | 含义 |
---|---|---|---|---|---|
AD | adverbs | 副词 | M | Measure word(including classifiers) | 量词,例子:“个” |
AS | Aspect marke | 体态词,体标记(例如:了,在,着,过) | MSP | Some particles | 例子:“所” |
BA | 把 in ba-const | “把”、“将”的词性标记 | NN | Common nouns | 普通名词 |
CC | Coordinating conjunction | 并列连词,“和” | NR | Proper nouns | 专有名词 |
CD | Cardinal numbers | 数字,“一百” | NT | Temporal nouns | 时序词,表示时间的名词 |
CS | Subordinating conj | 从属连词(例子:若,如果,如…) | OD | Ordinal numbers | 序数词,“第一” |
DEC | 的 for relative-clause etc | “的”词性标记 | ON | Onomatopoeia | 拟声词,“哈哈” |
DEG | Associative | 联结词“的” | P | Preposition (excluding 把 and 被) | 介词 |
DER | in V-de construction, and V-de-R | “得” | PN | pronouns | 代词 |
DEV | before VP | 地 | PU | Punctuations | 标点 |
DT | Determiner | 限定词,“这” | SB | in long bei-construction | 例子:“被,给” |
ETC | Tag for words, in coordination phrase | 等,等等 | SP | Sentence-final particle | 句尾小品词,“吗” |
FW | Foreign words | 例子:ISO | VA | Predicative adjective | 表语形容词,“红” |
IJ | interjetion | 感叹词 | VC | Copula | 系动词,“是” |
JJ | Noun-modifier other than nouns | VE | 有 as the main verb | “有” | |
LB | in long bei-construction | 例子:被,给 | VV | Other verbs | 其他动词 |
LC | Localizer | 定位词,例子:“里” |
本模型主要用于给输入中文句子的分词以及词性标注结果。用户可以自行尝试输入中文句子。具体调用方式请参考代码示例。
在安装ModelScope完成之后即可使用chinese-part-of-speech(中文词性标注)的能力, 默认单句长度不超过512。
from modelscope.models import Model
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
# Version less than 1.1 please use TokenClassificationPreprocessor
from modelscope.preprocessors import TokenClassificationTransformersPreprocessor
pipeline_ins = pipeline(task=Tasks.part_of_speech)
result = pipeline_ins(input="今天天气不错,适合出去游玩")
print (result)
# {'output': [{'type': 'NT', 'start': 0, 'end': 2, 'span': '今天'}, {'type': 'NN', 'start': 2, 'end': 4, 'span': '天气'}, {'type': 'VA', 'start': 4, 'end': 6, 'span': '不错'}, {'type': 'PU', 'start': 6, 'end': 7, 'span': ','}, {'type': 'VV', 'start': 7, 'end': 9, 'span': '适合'}, {'type': 'VV', 'start': 9, 'end': 11, 'span': '出去'}, {'type': 'VV', 'start': 11, 'end': 13, 'span': '游玩'}]}
model_id = 'damo/nlp_structbert_part-of-speech_chinese-lite'
model = Model.from_pretrained(model_id)
tokenizer = TokenClassificationTransformersPreprocessor(model.model_dir)
pipeline_ins = pipeline(task=Tasks.part_of_speech, model=model, preprocessor=tokenizer)
result = pipeline_ins(input="今天天气不错,适合出去游玩")
print (result)
# {'output': [{'type': 'NT', 'start': 0, 'end': 2, 'span': '今天'}, {'type': 'NN', 'start': 2, 'end': 4, 'span': '天气'}, {'type': 'VA', 'start': 4, 'end': 6, 'span': '不错'}, {'type': 'PU', 'start': 6, 'end': 7, 'span': ','}, {'type': 'VV', 'start': 7, 'end': 9, 'span': '适合'}, {'type': 'VV', 'start': 9, 'end': 11, 'span': '出去'}, {'type': 'VV', 'start': 11, 'end': 13, 'span': '游玩'}]}
本模型基于CTB9数据集(通用新闻领域)上训练,在垂类领域中文文本上的中文词性标注效果会有降低,请用户自行评测后决定如何使用。
本模型采用新闻领域词性标注数据集CTB9标注训练。
CTB9数据集标注数据样例:
上海_NR 浦东_NR 开发_NN 与_CC 法制_NN 建设_NN 同步_VV
新华社_NN 上海_NR 二月_NT 十日_NT 电_NN (_PU 记者_NN 谢金虎_NR 、_PU 张持坚_NR )_PU
上海_NR 浦东_NR 近年_NT 来_LC 颁布_VV 实行_VV 了_AS 涉及_VV 经济_NN 、_PU 贸易_NN 、_PU 建设_NN 、_PU 规划_NN 、_PU 科技_NN 、_PU 文教_NN 等_ETC 领域_NN 的_DEC 七十一_CD 件_M 法规性_NN 文件_NN ,_PU 确保_VV 了_AS 浦东_NR 开发_NN 的_DEG 有序_JJ 进行_NN 。_PU
数据预处理成(B、I、E、S)标签体系的数据格式, 每一个独立的单字对应一个独立的标签, 预处理后数据样例如下:
上 海 浦 东 开 发 与 法 制 建 设 同 步 B-NR E-NR B-NR E-NR B-NN E-NN S-CC B-NN E-NN B-NN E-NN B-VV E-VV
新 华 社 上 海 二 月 十 日 电 ( 记 者 谢 金 虎 、 张 持 坚 ) B-NN I-NN E-NN B-NR E-NR B-NT E-NT B-NT E-NT S-NN S-PU B-NN E-NN B-NR I-NR E-NR S-PU B-NR I-NR E-NR S-PU
上 海 浦 东 近 年 来 颁 布 实 行 了 涉 及 经 济 、 贸 易 、 建 设 、 规 划 、 科 技 、 文 教 等 领 域 的 七 十 一 件 法 规 性 文 件 , 确 保 了 浦 东 开 发 的 有 序 进 行 。 B-NR E-NR B-NR E-NR B-NT E-NT S-LC B-VV E-VV B-VV E-VV S-AS B-VV E-VV B-NN E-NN S-PU B-NN E-NN S-PU B-NN E-NN S-PU B-NN E-NN S-PU B-NN E-NN S-PU B-NN E-NN S-ETC B-NN E-NN S-DEC B-CD I-CD E-CD S-M B-NN I-NN E-NN B-NN E-NN S-PU B-VV E-VV S-AS B-NR E-NR B-NN E-NN S-DEG B-JJ E-JJ B-NN E-NN S-PU
模型采用2张NVIDIA V100机器训练, 超参设置如下:
train_epochs=10
max_sequence_length=256
batch_size=64
learning_rate=5e-5
optimizer=AdamW
模型在CTB不同年份的测试数据评估结果(F1 score):
Model | CTB5 | CTB6 | CTB9 | Inference speed on CPU |
---|---|---|---|---|
BAStructBERT-Base | 95.04 | 95.16 | 94.91 | 1.0x |
BAStructBERT-Lite | 93.98 | 94.01 | 93.87 | 2.91x |
如果需要基于自己的数据对分词模型进行二次训练, 建议可以采用ModelScope提供的序列标注理解框架AdaSeq进行模型训练, AdaSeq是一个基于ModelScope的一站式NLP序列理解开源工具箱,支持高效训练自定义模型,旨在>提高开发者和研究者们的开发和创新效率,助力模型快速定制和前沿论文工作>落地。
pip install adaseq
准备训练配置,将下面的代码保存为train.yaml。
该配置中的数据集为示例数据集CTB6中文pos训练数据,如需使用自定义数据或调整参数,可参考《AdaSeq模型训练最佳实践》,准备数据或修改配置文件。AdaSeq中也提供了大量的模型、论文、比赛复现示例,欢迎大家使用。yaml
文件示例如下:
experiment:
exp_dir: experiments/
exp_name: ctb6_pos
seed: 42
task: word-segmentation
dataset:
data_file:
train: https://modelscope.cn/api/v1/datasets/dingkun/chinese_pos_ctb6/repo?Revision=master&FilePath=train.txt
dev: https://modelscope.cn/api/v1/datasets/dingkun/chinese_pos_ctb6/repo?Revision=master&FilePath=dev.txt
test: https://modelscope.cn/api/v1/datasets/dingkun/chinese_pos_ctb6/repo?Revision=master&FilePath=test.txt
data_type: conll
preprocessor:
type: sequence-labeling-preprocessor
max_length: 256
tag_scheme: BIES
data_collator: SequenceLabelingDataCollatorWithPadding
model:
type: sequence-labeling-model
embedder:
model_name_or_path: damo/nlp_structbert_part-of-speech_chinese-lite
dropout: 0.1
use_crf: true
train:
max_epochs: 1
dataloader:
batch_size_per_gpu: 32
optimizer:
type: AdamW
lr: 2.0e-5
param_groups:
- regex: crf
lr: 2.0e-1
lr_scheduler:
type: LinearLR
start_factor: 1.0
end_factor: 0.0
total_iters: 30
evaluation:
dataloader:
batch_size_per_gpu: 64
metrics:
- type: ner-metric
- type: ner-dumper
model_type: sequence_labeling
dump_format: conll
运行命令开始训练。在GPU上训练需要至少6G显存,可以根据实际GPU情况调整batch_size等参数。
adaseq train -c train.yaml
二进制模型文件和相关配置文件会保存在 ./experiments/ctb6_pos/${yymmddHHMMSS.ffffff}/output/
yaml
配置中采用的crf解码方式, 所以最后训练得到分词模型是BERT-crf结构而非BERT-softmax结果(实测两者的效果很接近)。在推理阶段, 为了能做BERT-crf结构的推理, 我们可以采用ModelScope内>置的针对NER任务的pipeline进行推理, 示例代码如下:from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
# pipeline = pipeline(Tasks.named_entity_recognition, ${model_save_path})
pipeline = pipeline(Tasks.named_entity_recognition, "./experiments/ctb6_pos/${yymmddHHMMSS.ffffff}/output/")
pipeline('美好世界')
# 输出结果如下:
# {'output': [{'type': 'JJ', 'start': 0, 'end': 2, 'span': '美好'}, {'type': 'NN', 'start': 2, 'end': 4, 'span': '世界'}]}
StructBERT模型可以参考论文
@article{wang2019structbert,
title={Structbert: Incorporating language structures into pre-training for deep language understanding},
author={Wang, Wei and Bi, Bin and Yan, Ming and Wu, Chen and Bao, Zuyi and Xia, Jiangnan and Peng, Liwei and Si, Luo},
journal={arXiv preprint arXiv:1908.04577},
year={2019}
}