PEER自然语言推理-英文-MNLI-base
The PEER method is proposed to extend the replaced token detection (RTD) pre-training task conducted in the ELECTRA model into a task of ranking input
  • 模型资讯
  • 模型资料

PEER英文自然语言推理模型介绍

自然语言推理任务(NLI)通常指判断一对句子对(前提句,假设句)在语义上是否存在推理蕴涵关系。作为自然语言理解的一个重要组成部分,NLI专注于语义理解,是一项分类任务。
PEER英文自然语言推理模型是在peer-base-english预训练模型的基础上,用MNLI的数据集(393k条训练数据)fine-tune出来的自然语言推理模型。

模型描述

模型基于peer-base-english 中的ranker (12层hidden size为768的transformer网络),按照BERT论文中的方式,在MNLI数据集(393k条训练数据)上fine-tune得到。

期望模型使用方式以及适用范围

你可以使用PEER英文自然语言推理模型,对通用领域的自然语言推理任务进行推理。
输入形如(前提句,假设句)的句子对数据,模型会给出该句子对应的自然语言推理标签 {“蕴涵”: 0, “中立”: 1, “矛盾”: 2} 以及相应的概率。

如何使用

在安装完成ModelScope-lib,请参考 modelscope环境安装

推理代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

semantic_cls = pipeline(Tasks.nli, 'damo/nlp_peer_mnli_english-base') 
semantic_cls(input=('Conceptually cream skimming has two basic dimensions - product and geography.', 'Product and geography are what make cream skimming work.'))

模型局限性以及可能的偏差

模型训练数据有限,不能包含所有行业,因此在特定行业数据上,效果可能存在一定偏差。

训练数据介绍

MNLI(Multi-Genre NLI):用于判断给定的两个句子之间属于蕴涵、中立、矛盾关系。数据来源于fiction, telephone,travel,government等。
MNLI 中train 的数据量是392702; dev matched 的数据量是9815, dev mismatched 的数据量是9832; test matched 的数据量是9796, test mismatched 的数据量是9847。

数据来源于 https://huggingface.co/datasets/multi_nli

数据评估及结果

数据集 MNLI
Accuracy (Average of MNLI-match accuracy and MNLI-mismatch accuracy) on dev 86.68