该模型基于bert-base-uncased,在paws(Paraphrase Adversaries from Word Scrambling)数据集(约9万条)上微调得到。
模型采用英文句子对方式对句子相似度进行学习
你可以使用BERT英文文本相似度模型,对通用领域的英文文本相似度任务进行推理。
输入形如(文本A,文本B)的文本对数据,模型会给出该文本对的是否相似的标签(0, 1)以及相应的概率。
在安装完成ModelScope-lib之后即可使用,请参考modelscope环境安装 。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
semantic_cls = pipeline(Tasks.sentence_similarity, 'damo/nlp_bert_sentence-similarity_english-base')
semantic_cls(input=('That is a happy person', 'That person is happy'))
模型训练数据有限,在特定行业数据上,效果可能存在一定偏差。
在测试集上的f1为0.915。
@InProceedings{paws2019naacl,
title = {{PAWS: Paraphrase Adversaries from Word Scrambling}},
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}