SiameseUIE通用信息抽取模型,基于提示(Prompt)+文本(Text)的构建思路,利用指针网络(Pointer Network)实现片段抽取(Span Extraction),从而实现命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)、属性情感抽取(ABSA)等多类任务的抽取。和市面上已有的通用信息抽取模型不同的是:
模型基于structbert-base-chinese在千万级远监督数据+有监督数据预训练得到,模型框架如下图:
你可以使用该模型,实现命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)、属性情感抽取(ABSA)等各类信息抽取任务。
依据ModelScope的介绍,实验环境可分为两种情况。在此推荐使用第2种方式,点开就能用,省去本地安装环境的麻烦,直接体验ModelScope。
可参考ModelScope环境安装。
ModelScope直接集成了线上开发环境,用户可以直接在线训练、调用模型。
打开模型页面,点击右上角“在Notebook中打开”,选择机器型号后,即可进入线上开发环境。
import os
import json
from modelscope.trainers import build_trainer
from modelscope.msdatasets import MsDataset
from modelscope.utils.hub import read_config
from modelscope.metainfo import Metrics
from modelscope.utils.constant import DownloadMode
model_id = 'damo/nlp_structbert_siamese-uie_chinese-base'
WORK_DIR = '/tmp'
train_dataset = MsDataset.load('people_daily_ner_1998_tiny', namespace='damo', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD)
eval_dataset = MsDataset.load('people_daily_ner_1998_tiny', namespace='damo', split='validation', download_mode=DownloadMode.FORCE_REDOWNLOAD)
max_epochs=3
kwargs = dict(
model=model_id,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
max_epochs=max_epochs,
work_dir=WORK_DIR)
trainer = build_trainer('siamese-uie-trainer', default_args=kwargs)
print('===============================================================')
print('pre-trained model loaded, training started:')
print('===============================================================')
trainer.train()
print('===============================================================')
print('train success.')
print('===============================================================')
for i in range(max_epochs):
eval_results = trainer.evaluate(f'{WORK_DIR}/epoch_{i+1}.pth')
print(f'epoch {i} evaluation result:')
print(eval_results)
print('===============================================================')
print('evaluate success')
print('===============================================================')
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
semantic_cls = pipeline(Tasks.siamese_uie, 'damo/nlp_structbert_siamese-uie_chinese-base', model_revision='v1.0')
# 命名实体识别 {实体类型: None}
semantic_cls(
input='1944年毕业于北大的名古屋铁道会长谷口清太郎等人在日本积极筹资,共筹款2.7亿日元,参加捐款的日本企业有69家。',
schema={
'人物': None,
'地理位置': None,
'组织机构': None
}
)
# 关系抽取 {主语实体类型: {关系(宾语实体类型): None}}
semantic_cls(
input='在北京冬奥会自由式中,2月8日上午,滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌。2月9日上午,滑雪男子大跳台决赛中日本选手小泉次郎以188.25分获得银牌!',
schema={
'人物': {
'比赛项目(赛事名称)': None,
'参赛地点(城市)': None,
'获奖时间(时间)': None,
'选手国籍(国籍)': None
}
}
)
# 事件抽取 {事件类型(事件触发词): {参数类型: None}}
semantic_cls(
input='7月28日,天津泰达在德比战中以0-1负于天津天海。',
schema={
'胜负(事件触发词)': {
'时间': None,
'败者': None,
'胜者': None,
'赛事名称': None
}
}
)
# 属性情感抽取 {属性词: {情感词: None}}
semantic_cls(
input='很满意,音质很好,发货速度快,值得购买',
schema={
'属性词': {
'情感词': None,
}
}
)
# 允许属性词缺省,#表示缺省
semantic_cls(
input='#很满意,音质很好,发货速度快,值得购买',
schema={
'属性词': {
'情感词': None,
}
}
)
# 支持情感分类
semantic_cls(
input='很满意,音质很好,发货速度快,值得购买',
schema={
'属性词': {
"正向情感(情感词)": None,
"负向情感(情感词)": None,
"中性情感(情感词)": None
}
}
)
模型在较冷门的场景,效果可能不及预期。
我们在4类任务、6个领域、9个数据集上进行了测试,我们选择DuUIE作为Baseline,在零样本情况下,F1 Score较DuUIE模型提升24.6%;
在少样本情况下(去除了部分数量较少无法微调的数据集)F1 Score较竞品模型提升3-5个百分点;
@article{wang2019structbert,
title={Structbert: Incorporating language structures into pre-training for deep language understanding},
author={Wang, Wei and Bi, Bin and Yan, Ming and Wu, Chen and Bao, Zuyi and Xia, Jiangnan and Peng, Liwei and Si, Luo},
journal={arXiv preprint arXiv:1908.04577},
year={2019}
}
@inproceedings{Zhao2021AdjacencyLO,
title={Adjacency List Oriented Relational Fact Extraction via Adaptive Multi-task Learning},
author={Fubang Zhao and Zhuoren Jiang and Yangyang Kang and Changlong Sun and Xiaozhong Liu},
booktitle={FINDINGS},
year={2021}
}