越南语分词是将空格分隔的越南语音节(syllable)合并为具有语言学意义的越南语单词的过程,是越南语文本理解的基础模块。需要注意的是,越南语单词可能包含一个或多个越南语音节。
在安装ModelScope完成之后即可使用named-entity-recognition(命名实体识别)的能力, 默认单句包含音节(即,上文所述空格分隔的语义单元)数不超过512。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
word_segmentation_pipeline = pipeline(Tasks.word_segmentation, 'damo/nlp_xlmr_word-segmentation_viet', model_revision='v1.0.1')
result = word_segmentation_pipeline('Nền kinh tế lúc ấy đang đứng trước nghịch lý : giá hàng tăng , sản xuất đình trệ , tiền khan hiếm ...')
print(result)
#{'output': ['Nền', 'kinh tế', 'lúc', 'ấy', 'đang', 'đứng', 'trước', 'nghịch lý', ':', 'giá', 'hàng', 'tăng', ',', 'sản xuất', 'đình trệ', ',', 'tiền', 'khan hiếm', '...'], 'labels': []}
Precision | Recall | F1 |
---|---|---|
98.0 | 98.3 | 98.1 |