用于英文句子的文风分类,支持以下四类文风:
文风标签 | 含义 |
---|---|
news | 新闻文风,即各类常用的书面语 |
tech | 科技文风,包括技术文档、科技文献等 |
spoken | 口语文风,各类非书面的口语表达 |
ecomm | 电商文风,电商场景的标题、评论、描述等 |
该模型基于FastText训练,无需GPU即可进行高效推理,训练数据为阿里内部数据,在内部测试集上,4类文风平均分类准确率为90.83%。
该模型可用于英文句子级别的文风分类,分类结果可用于模型选择、数据分析等。
在安装ModelScope完成后即可使用
from modelscope.pipelines import pipeline
p = pipeline('text-classification', model='damo/nlp_style_classification_english')
print(p('High Power 11.1V 5200mAh Lipo Battery For RC Car Robot Airplanes Helicopter RC Drone Parts 3s Lithium battery 11.1v Battery'))
通常单个句子的文风信息未必很明确,建议作为句子级分类工具,对输出概率在篇章或者段落级聚合,会更为准确
源自阿里内部数据
基于FastText训练
采用sentencepiece进行分词,并和label进行拼接
spm_encode --model ./sentencepiece.model < train.text > train.sp
paste -d ' ' train.label train.sp > train.input
基于CPU训练即可
fastText/fasttext supervised -dim 256 -wordNgrams 3 -epoch 3 -thread 32 \
-input train.input \
-output savedModel
模型在内部测试集上的评估结果
label | Precision | Recall | F1-score |
---|---|---|---|
ecomm | 99.65 | 99.60 | 99.62 |
spoken | 86.29 | 84.35 | 85.31 |
news | 85.29 | 87.25 | 86.26 |
tech | 92.10 | 92.10 | 92.10 |