本模型基于StructBERT-tiny模型,使用外呼场景下的对话行业分类数据集训练得到。
本模型是在中文预训练模型StructBERT的基础上使用外呼行业数据进行微调得到的。关于StructBERT的详细介绍可参见https://www.modelscope.cn/models/damo/nlp_structbert_backbone_base_std/summary 。
外呼场景中的对话行业分类,本模型支持30种行业分类。
你可以使用StructBERT行业分类-中文-外呼-tiny模型,对外呼对话数据进行行业分类。 输入一段对话,模型会给出该对话的行业分类标签以及相应的概率。
from modelscope.pipelines import pipeline
input = '你好,阿里巴巴。'
classifier = pipeline('text-classification', model='damo/nlp_structbert_outbound-industry_chinese-tiny')
result = classifier(input)
print('输入文本:\n{}\n'.format(input))
print('分类结果:\n{}'.format(result))
本模型适用于对外呼场景中的对话所涉及的行业进行分类。如下训练数据介绍部分,训练数据集中存在数据类别分布不平衡的问题,该分类模型对一些数据量较少的行业的分类效果可能会差一些。
每类数据的分布以及训练集与测试集中每类的具体分布如下:
{
"all_dataset": {
"商品推广": 12623,
"汽车行业": 12121,
"市政单位": 35303,
"金融行业": 18488,
"房产行业": 14656,
"无行业": 22254,
"文化行业": 2454,
"互联网行业": 36322,
"其他行业": 21491,
"人力资源": 7578,
"医疗行业": 10658,
"教育行业": 20724,
"运输行业": 8521,
"企业服务": 9467,
"保险行业": 15312,
"招商加盟": 3265,
"会展营销": 1400,
"移民行业": 654,
"婚庆服务": 516,
"通讯行业": 2438,
"旅游行业": 4558,
"游戏行业": 539,
"安防行业": 81,
"家政行业": 490,
"安装维修回收服务": 808,
"票务服务": 609,
"广告行业": 282,
"外卖配送": 263,
"环保行业": 99,
"休闲生活娱乐": 144
},
"train_dataset": {
"商品推广": 11360,
"汽车行业": 10908,
"市政单位": 31772,
"金融行业": 16639,
"房产行业": 13190,
"无行业": 20028,
"文化行业": 2208,
"互联网行业": 32689,
"其他行业": 19341,
"人力资源": 6820,
"医疗行业": 9592,
"教育行业": 18651,
"运输行业": 7668,
"企业服务": 8520,
"保险行业": 13780,
"招商加盟": 2938,
"会展营销": 1260,
"移民行业": 588,
"婚庆服务": 464,
"通讯行业": 2194,
"旅游行业": 4102,
"游戏行业": 485,
"安防行业": 72,
"家政行业": 441,
"安装维修回收服务": 727,
"票务服务": 548,
"广告行业": 253,
"外卖配送": 236,
"环保行业": 89,
"休闲生活娱乐": 129
},
"dev_dataset": {
"商品推广": 1263,
"汽车行业": 1213,
"市政单位": 3531,
"金融行业": 1849,
"房产行业": 1466,
"无行业": 2226,
"文化行业": 246,
"互联网行业": 3633,
"其他行业": 2150,
"人力资源": 758,
"医疗行业": 1066,
"教育行业": 2073,
"运输行业": 853,
"企业服务": 947,
"保险行业": 1532,
"招商加盟": 327,
"会展营销": 140,
"移民行业": 66,
"婚庆服务": 52,
"通讯行业": 244,
"旅游行业": 456,
"游戏行业": 54,
"安防行业": 9,
"家政行业": 49,
"安装维修回收服务": 81,
"票务服务": 61,
"广告行业": 29,
"外卖配送": 27,
"环保行业": 10,
"休闲生活娱乐": 15
}
}
micro f1=0.9072 macro f1=0.8316
@article{wang2019structbert,
title={Structbert: Incorporating language structures into pre-training for deep language understanding},
author={Wang, Wei and Bi, Bin and Yan, Ming and Wu, Chen and Bao, Zuyi and Xia, Jiangnan and Peng, Liwei and Si, Luo},
journal={arXiv preprint arXiv:1908.04577},
year={2019}
}