泰语分词目的是将连续的泰语字符分隔成具有语言学意义的泰语单词,是泰语文本理解的基础模块。
在安装ModelScope完成之后即可使用named-entity-recognition(命名实体识别)的能力, 默认单句包含字符数不超过512。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
ner_pipeline = pipeline(Tasks.word_segmentation, 'damo/nlp_xlmr_word-segmentation_thai')
result = ner_pipeline('...รถคันเก่าก็ยังเก็บเอาไว้ยังไม่ได้ขาย...')
print(result)
#{'output': ['...', 'รถ', 'คัน', 'เก่า', 'ก็', 'ยัง', 'เก็บ', 'เอา', 'ไว้', 'ยัง', 'ไม่', 'ได้', 'ขาย', '...']}
Precision | Recall | F1 |
---|---|---|
97.9 | 97.9 | 97.9 |