BERT文本相似度-英文-base-学术数据集paws
该模型是在bert-base-uncased预训练模型的基础上,用paws数据集训练出来的文本相似度匹配模型。
  • 模型资讯
  • 模型资料

BERT文本相似度-英文-base-学术数据集paws

该模型基于bert-base-uncased,在paws(Paraphrase Adversaries from Word Scrambling)数据集(约9万条)上微调得到。

模型描述

模型结构

模型采用英文句子对方式对句子相似度进行学习

期望模型使用方式以及适用范围

你可以使用BERT英文文本相似度模型,对通用领域的英文文本相似度任务进行推理。
输入形如(文本A,文本B)的文本对数据,模型会给出该文本对的是否相似的标签(0, 1)以及相应的概率。

如何使用

在安装完成ModelScope-lib之后即可使用,请参考modelscope环境安装

推理代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

semantic_cls = pipeline(Tasks.sentence_similarity, 'damo/nlp_bert_sentence-similarity_english-base')
semantic_cls(input=('That is a happy person', 'That person is happy'))

模型局限性以及可能的偏差

模型训练数据有限,在特定行业数据上,效果可能存在一定偏差。

数据评估及结果

在测试集上的f1为0.915。

相关论文以及引用信息

@InProceedings{paws2019naacl,
  title = {{PAWS: Paraphrase Adversaries from Word Scrambling}},
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}