越南语通用领域分词模型介绍

任务介绍

越南语分词是将空格分隔的越南语音节(syllable)合并为具有语言学意义的越南语单词的过程，是越南语文本理解的基础模块。需要注意的是，越南语单词可能包含一个或多个越南语音节。

输入: Nền kinh tế lúc ấy đang đứng trước nghịch lý : giá hàng tăng , sản xuất đình trệ , tiền khan hiếm …
输出: Nền/ kinh tế/ lúc/ ấy/ đang/ đứng/ trước/ nghịch lý/ :/ giá/ hàng/ tăng/ ,/ sản xuất/ đình trệ/ ,/ tiền/ khan hiếm/ …

模型介绍

本方法采用Transformer-Linear模型，使用XLM-RoBERTa(XLM-R)作为预训练模型底座。
对于输入文本，本模型按音节逐个预测当前音节是否为越南语单词边界, 具体调用方式请参考代码示例。

训练数据介绍

VLSP 2013 Word Segmentation

快速上手

适用范围

在安装ModelScope完成之后即可使用named-entity-recognition(命名实体识别)的能力, 默认单句包含音节(即，上文所述空格分隔的语义单元)数不超过512。

代码示例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

word_segmentation_pipeline = pipeline(Tasks.word_segmentation, 'damo/nlp_xlmr_word-segmentation_viet', model_revision='v1.0.1')
result = word_segmentation_pipeline('Nền kinh tế lúc ấy đang đứng trước nghịch lý : giá hàng tăng , sản xuất đình trệ , tiền khan hiếm ...')

print(result)
#{'output': ['Nền', 'kinh tế', 'lúc', 'ấy', 'đang', 'đứng', 'trước', 'nghịch lý', ':', 'giá', 'hàng', 'tăng', ',', 'sản xuất', 'đình trệ', ',', 'tiền', 'khan hiếm', '...'], 'labels': []}

性能评测

Precision	Recall	F1
98.0	98.3	98.1