FastTex文本文风分类-中文-四类文风
用于中文句子的文风判别,支持新闻/口语/科技/电商四类文风的分类。
  • 模型资讯
  • 模型资料

文本文风分类-中文

用于中文句子的文风分类,支持以下四类文风:

文风标签 含义
news 新闻文风,即各类常用的书面语
tech 科技文风,包括技术文档、科技文献等
spoken 口语文风,各类非书面的口语表达
ecomm 电商文风,电商场景的标题、评论、描述等

模型描述

该模型基于FastText训练,无需GPU即可进行高效推理,训练数据为阿里内部数据,在内部测试集上,4类文风平均分类准确率为90.85%。

期望模型使用方式以及适用范围

该模型可用于中文句子级别的文风分类,分类结果可用于模型选择、数据分析等。

如何使用

在安装ModelScope完成后即可使用

代码范例

from modelscope.pipelines import pipeline
p = pipeline('text-classification', model='damo/nlp_style_classification_chinese')
print(p('通过这种方式产生的离子吸收大地水分之后,可以通过潮解作用,将活性电解离子有效释放到周围土壤中,使接地极成为一个离子发生装置,从而改善周边土质使之达到接地要求。'))

模型局限性以及可能的偏差

通常单个句子的文风信息未必很明确,建议作为句子级分类工具,对输出概率在篇章或者段落级聚合,会更为准确

训练数据介绍

源自阿里内部数据

模型训练流程

基于FastText训练

预处理

采用sentencepiece进行分词,并和label进行拼接

spm_encode --model ./sentencepiece.model < train.text > train.sp
paste -d ' ' train.label train.sp > train.input

训练

基于CPU训练即可

fastText/fasttext supervised -dim 256 -wordNgrams 3  -epoch 3 -thread 32 \
        -input train.input \
        -output savedModel

数据评估及结果

模型在内部测试集上的评估结果

label Precision Recall F1-score
ecomm 99.75 99.70 99.72
spoken 86.03 86.55 86.29
news 84.89 87.35 86.10
tech 93.01 89.80 91.38