用于中文句子的文风分类,支持以下四类文风:
文风标签 | 含义 |
---|---|
news | 新闻文风,即各类常用的书面语 |
tech | 科技文风,包括技术文档、科技文献等 |
spoken | 口语文风,各类非书面的口语表达 |
ecomm | 电商文风,电商场景的标题、评论、描述等 |
该模型基于FastText训练,无需GPU即可进行高效推理,训练数据为阿里内部数据,在内部测试集上,4类文风平均分类准确率为90.85%。
该模型可用于中文句子级别的文风分类,分类结果可用于模型选择、数据分析等。
在安装ModelScope完成后即可使用
from modelscope.pipelines import pipeline
p = pipeline('text-classification', model='damo/nlp_style_classification_chinese')
print(p('通过这种方式产生的离子吸收大地水分之后,可以通过潮解作用,将活性电解离子有效释放到周围土壤中,使接地极成为一个离子发生装置,从而改善周边土质使之达到接地要求。'))
通常单个句子的文风信息未必很明确,建议作为句子级分类工具,对输出概率在篇章或者段落级聚合,会更为准确
源自阿里内部数据
基于FastText训练
采用sentencepiece进行分词,并和label进行拼接
spm_encode --model ./sentencepiece.model < train.text > train.sp
paste -d ' ' train.label train.sp > train.input
基于CPU训练即可
fastText/fasttext supervised -dim 256 -wordNgrams 3 -epoch 3 -thread 32 \
-input train.input \
-output savedModel
模型在内部测试集上的评估结果
label | Precision | Recall | F1-score |
---|---|---|---|
ecomm | 99.75 | 99.70 | 99.72 |
spoken | 86.03 | 86.55 | 86.29 |
news | 84.89 | 87.35 | 86.10 |
tech | 93.01 | 89.80 | 91.38 |