StructBERT行业分类-中文-外呼-tiny
本模型基于StructBERT-tiny模型,使用外呼场景下的对话行业分类数据集训练得到。
  • 模型资讯
  • 模型资料

StructBERT行业分类-中文-外呼-tiny

本模型基于StructBERT-tiny模型,使用外呼场景下的对话行业分类数据集训练得到。

模型描述

本模型是在中文预训练模型StructBERT的基础上使用外呼行业数据进行微调得到的。关于StructBERT的详细介绍可参见https://www.modelscope.cn/models/damo/nlp_structbert_backbone_base_std/summary

期望模型使用方式以及适用范围

外呼场景中的对话行业分类,本模型支持30种行业分类。

如何使用

你可以使用StructBERT行业分类-中文-外呼-tiny模型,对外呼对话数据进行行业分类。 输入一段对话,模型会给出该对话的行业分类标签以及相应的概率。

代码范例

from modelscope.pipelines import pipeline

input = '你好,阿里巴巴。'
classifier = pipeline('text-classification', model='damo/nlp_structbert_outbound-industry_chinese-tiny')
result = classifier(input)

print('输入文本:\n{}\n'.format(input))
print('分类结果:\n{}'.format(result))

模型局限性以及可能的偏差

本模型适用于对外呼场景中的对话所涉及的行业进行分类。如下训练数据介绍部分,训练数据集中存在数据类别分布不平衡的问题,该分类模型对一些数据量较少的行业的分类效果可能会差一些。

训练数据介绍

每类数据的分布以及训练集与测试集中每类的具体分布如下:

{
  "all_dataset": {
    "商品推广": 12623,
    "汽车行业": 12121,
    "市政单位": 35303,
    "金融行业": 18488,
    "房产行业": 14656,
    "无行业": 22254,
    "文化行业": 2454,
    "互联网行业": 36322,
    "其他行业": 21491,
    "人力资源": 7578,
    "医疗行业": 10658,
    "教育行业": 20724,
    "运输行业": 8521,
    "企业服务": 9467,
    "保险行业": 15312,
    "招商加盟": 3265,
    "会展营销": 1400,
    "移民行业": 654,
    "婚庆服务": 516,
    "通讯行业": 2438,
    "旅游行业": 4558,
    "游戏行业": 539,
    "安防行业": 81,
    "家政行业": 490,
    "安装维修回收服务": 808,
    "票务服务": 609,
    "广告行业": 282,
    "外卖配送": 263,
    "环保行业": 99,
    "休闲生活娱乐": 144
  },
  "train_dataset": {
    "商品推广": 11360,
    "汽车行业": 10908,
    "市政单位": 31772,
    "金融行业": 16639,
    "房产行业": 13190,
    "无行业": 20028,
    "文化行业": 2208,
    "互联网行业": 32689,
    "其他行业": 19341,
    "人力资源": 6820,
    "医疗行业": 9592,
    "教育行业": 18651,
    "运输行业": 7668,
    "企业服务": 8520,
    "保险行业": 13780,
    "招商加盟": 2938,
    "会展营销": 1260,
    "移民行业": 588,
    "婚庆服务": 464,
    "通讯行业": 2194,
    "旅游行业": 4102,
    "游戏行业": 485,
    "安防行业": 72,
    "家政行业": 441,
    "安装维修回收服务": 727,
    "票务服务": 548,
    "广告行业": 253,
    "外卖配送": 236,
    "环保行业": 89,
    "休闲生活娱乐": 129
  },
  "dev_dataset": {
    "商品推广": 1263,
    "汽车行业": 1213,
    "市政单位": 3531,
    "金融行业": 1849,
    "房产行业": 1466,
    "无行业": 2226,
    "文化行业": 246,
    "互联网行业": 3633,
    "其他行业": 2150,
    "人力资源": 758,
    "医疗行业": 1066,
    "教育行业": 2073,
    "运输行业": 853,
    "企业服务": 947,
    "保险行业": 1532,
    "招商加盟": 327,
    "会展营销": 140,
    "移民行业": 66,
    "婚庆服务": 52,
    "通讯行业": 244,
    "旅游行业": 456,
    "游戏行业": 54,
    "安防行业": 9,
    "家政行业": 49,
    "安装维修回收服务": 81,
    "票务服务": 61,
    "广告行业": 29,
    "外卖配送": 27,
    "环保行业": 10,
    "休闲生活娱乐": 15
  }
}

数据评估及结果

micro f1=0.9072 macro f1=0.8316

相关论文以及引用信息

@article{wang2019structbert,
  title={Structbert: Incorporating language structures into pre-training for deep language understanding},
  author={Wang, Wei and Bi, Bin and Yan, Ming and Wu, Chen and Bao, Zuyi and Xia, Jiangnan and Peng, Liwei and Si, Luo},
  journal={arXiv preprint arXiv:1908.04577},
  year={2019}
}