一种具有自我评估能力的机器翻译-中英-通用领域-large
  • 模型资讯
  • 模型资料

具有自我评估能力的机器翻译模型简介

一种同时具有翻译能力和自我评估能力的NMT,训练仅基于平行双语数据,不依赖参考译文和人工打分数据。backbone选用先进的transformer-large模型,编码器和解码器深度分别为24和6,相关论文已发表于EMNLP 2022。

温馨提示

  • 使用pipeline推理及在线体验功能的时候,尽量输入单句文本,如果是多句长文本建议人工分句,否则可能出现漏译或未译等情况!!!

模型描述

期望模型使用方式以及适用范围

本模型适用于一定数据规模(百万级以上)的所有翻译语向。

如何使用

在ModelScope框架上,提供输入源文,即可通过简单的Pipeline调用来使用。

代码范例

# Chinese-to-English

# 温馨提示: 使用pipeline推理及在线体验功能的时候,尽量输入单句文本,如果是多句长文本建议人工分句,否则可能出现漏译或未译等情况!!!

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

input_sequence = '110例癫痫患者血清抗脑抗体的测定'

pipeline_ins = pipeline(task=Tasks.competency_aware_translation, model="damo/nlp_canmt_translation_zh2en_large")
outputs = pipeline_ins(input=input_sequence)

print(outputs) # (translation: ['Determination of serum anti-brain antibodies in 110 patients with epilepsy'], self-estimation: [1.7111575603485107])

模型局限

  1. 模型在通用数据集上训练,部分垂直领域有可能产生一些偏差,请用户自行评测后决定如何使用。
  2. 模型仅能自我评估,即评估自己产生的译文的质量,对其他译文的质量评估会有一定偏差。

训练数据介绍

  1. WMT21数据集,系WMT官方提供的新闻领域双语数据集。
  2. Opensubtitles2018,偏口语化(字幕)的双语数据集。
  3. OPUS,众包数据集。

论文引用

如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文:

@inproceedings{Zhang2022CompetencyAwareNM,
  title={Competency-Aware Neural Machine Translation: Can Machine Translation Know its Own Translation Quality?},
  author={Pei Zhang and Baosong Yang and Hao-Ran Wei and Dayiheng Liu and Kai Fan and Luo Si and Jun Xie},
  booktitle={Conference on Empirical Methods in Natural Language Processing},
  year={2022}
}