Third-Party Supervised Word Aligner
词对齐任务旨在挖掘平行语料中互为翻译的词对,由于缺乏精确且足够的标注数据集,现有的工作多基于自学习的方式进行训练。本工作提出借助第三方词对齐工具生成监督信号,以微调大规模跨语言预训练模型(mBERT,XLM),进而得到性能更优的神经词对齐工具。
模型效果:
输入:贝利 在 墨西哥 推出 自传 ||| pele promotes autobiography in mexico
输出:0-0 1-3 2-4 3-1 4-2
本模型主要用于对平行语料进行对齐,输入为一组分词后的平行文本,输出为单词级别的对齐信息。具体使用方式请参考代码示例。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
model_id = 'jpzhang/Third-Party-Supervised-Word-Aligner-mBERT-base-zhen'
input = {"sentence_pair": '贝利 在 墨西哥 推出 自传 。||| pele promotes autobiography in mexico .'}
pipeline = pipeline(Tasks.word_alignment, model=model_id)
result = pipeline(input)
print(result['output'])
本模型借助第三方监督信号进行微调,未使用真实标注。模型在LDC(中英)、KFTT(日英)和Europarl(德英,英法,罗英)数据集上训练,不同场景下有可能产生一些偏差,请用户自行评测后决定如何使用。
中英:LDC数据集(训练,出于版权原因,请自行获取) ,清华开源数据集(验证与测试)
日英:KFTT
德英,英法,罗英:Zenkel等开源
参考 Zenkel等开源
暂不支持在ModelScope内部进行训练(工作中),可暂时参考我们的 开源项目 。
我们采用AER评测指标进行评估。
zh-en | de-en | en-fr | ro-en | ja-en | avg | |
---|---|---|---|---|---|---|
FastAlign1 | 27.3 | 27.0 | 10.5 | 32.1 | 51.1 | 29.6 |
GIZA++2 | 18.5 | 20.6 | 5.9 | 26.4 | 48.0 | 23.9 |
SimAlign3 | 19.6 | 19.0 | 6.0 | 30.5 | 48.6 | 26.3 |
AwesomeAlign4 | 13.3 | 15.6 | 4.4 | 23.0 | 38.4 | 18.9 |
MaskAlign5 | 13.8 | 14.4 | 4.4 | 19.5 | 40.8 | 18.6 |
Ours(mBERT) | 11.0 | 14.8 | 3.8 | 19.3 | 33.2 | 16.4 |
Ours(XLM) | 11.3 | 13.9 | 4.0 | 18.6 | 33.4 | 16.2 |
参考工作:
如果我们的模型对您有帮助,请您引用我们的论文:
@article{zhang2022third,
title={Third-Party Aligner for Neural Word Alignments},
author={Zhang, Jinpeng and Dong, Chuanqi and Duan, Xiangyu and Zhang, Yuqi and Zhang, Min},
journal={arXiv preprint arXiv:2211.04198},
year={2022}
}