各场景文本检测模型:
各场景文本识别模型:
整图OCR能力:
轻量化模型DEMO:
欢迎使用!
本模型是以自底向上的方式,先检测文本块和文字块之间的吸引排斥关系,然后对文本块聚类成行,最终输出单词的外接框的坐标值。ICGN模型介绍,详见:Seglink++: Detecting dense and arbitrary-shaped scene text by instance-aware component grouping
本模型主要用于给输入图片输出图中文字外接框坐标,具体地,模型输出的框的坐标为文字框四边形的四个角点的坐标,左上角为第一个点,按照顺时针的顺序依次输出各个点的坐标,分别为(x1,y1)(x2,y2)(x3,y3)(x4,y4)。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。
在安装完成ModelScope之后即可使用ocr-detection的能力。
测试时的主要预处理和后处理如下:
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
ocr_detection = pipeline(Tasks.ocr_detection, model='damo/cv_resnet18_ocr-detection-word-level_damo')
result = ocr_detection('http://duguang-labelling.oss-cn-shanghai.aliyuncs.com/maas/ocr_detection_eng.jpg')
print(result)
模型在MLT17验证集上测试,结果如下
Backbone | Recall | Precision | F-score |
---|---|---|---|
ResNet18 | 74.8 | 85.3 | 79.7 |
以下为模型的一些可视化文字检测效果,检测框用绿色框表示。
本模型训练数据集是MLT17/MLT19/IC15/TextOCR/HierText,训练数据数量约48K。
本模型利用imagenet预训练参数进行初始化,然后在训练数据集上进行训练,先利用512x512尺度训练100epoch,然后在768x768尺度下finetune训练50epoch。
如果我们的模型对您有帮助,请您引用我们的文章:
@article{tang2019seglink++,
title={Seglink++: Detecting dense and arbitrary-shaped scene text by instance-aware component grouping},
author={Tang, Jun and Yang, Zhibo and Wang, Yongpan and Zheng, Qi and Xu, Yongchao and Bai, Xiang},
journal={Pattern recognition},
volume={96},
pages={106954},
year={2019},
publisher={Elsevier}
}