XLM-R命名实体识别-泰语-电商领域(商品标题)-base
XLM-R命名实体识别-泰语-电商领域(商品标题)-base是基于20K电商领域商品标题数据训练得到的泰语命名实体识别模型,可根据用户输入的泰语商品标题文本产出命名实体识别结果。
  • 模型资讯
  • 模型资料

泰语电商域Title NER介绍

模型描述

本方法采用Transformer-CRF模型,使用XLM-RoBERTa作为预训练模型底座。本模型主要用于给输入泰语商品标题文本产出命名实体识别结果,具体调用方式请参考代码示例。

训练数据介绍

  • ecom-title-th: 内部泰语电商领域标题命名实体识别(NER)数据集, 支持产品(product), 功能(function), 品牌(brand), 模式(pattern), 颜色(color), 用户群体(consumer_group), 风格(style)等七大类型的实体识别
实体类型 英文名
产品 product
功能 function
品牌 brand
图案 pattern
颜色 color
用户群体 consumer_group
风格 style

快速上手

适用范围

在安装ModelScope完成之后即可使用named-entity-recognition(命名实体识别)的能力, 默认单句长度不超过512, 推荐输入长度不超过128的句子。

代码示例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

ner_pipeline = pipeline(Tasks.named_entity_recognition, 'damo/nlp_xlmr_named-entity-recognition_thai-ecommerce-title', model_revision='v1.0.1')
result = ner_pipeline('เครื่องชั่งดิจิตอลแบบตั้งพื้น150kg.')

print(result)
#{'output': [{'type': 'product', 'start': 0, 'end': 11, 'span': 'เครื่องชั่ง'}, {'type': 'function', 'start': 12, 'end': 19, 'span': 'ดิจิตอล'}, {'type': 'function', 'start': 24, 'end': 33, 'span': 'ตั้ง พื้น'}]}

性能评测

全局评测

Precision Recall F1
83.3 86.9 85.1

按实体类型评测

实体类型 Precision Recall F1
product 84.15 87.21 85.65
function 80.35 90.43 85.09
brand 81.68 84.18 82.91
pattern 74.96 79.90 77.35
color 86.51 91.87 89.11
consumer_group 93.82 94.16 93.99
style 89.35 86.08 87.69