输入一张人物图像,端到端检测全身133点关键点,输出人体框和对应的全身关键点,包含68个人脸关键点、42个手势关键点、17个骨骼关键点和6个脚部关键点。
该任务采用自顶向下的全身关键点检测框架(如下图),通过端对端的快速推理可以得到图像中的人体关键点。其中全身关键点模型基于HRNet的backbone,充分利用多分变率的特征融合,良好支持日常人体姿态,具有SOTA的检测精度。
使用方式:
使用范围:
目标场景:
在ModelScope框架上,提供输入图片,即可以通过简单的Pipeline调用来完成人体关键点检测任务。
# numpy >= 1.20
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
model_id = 'damo/cv_hrnetw48_human-wholebody-keypoint_image'
wholebody_2d_keypoints = pipeline(Tasks.human_wholebody_keypoint, model=model_id)
output = wholebody_2d_keypoints('https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/keypoints_detect/img_test_wholebody.jpg')
# the output contains keypoints and boxes
print(output)
输入图像存在人体严重残缺或遮挡的情形下,模型会出现人体或点位误检和漏检的现象。
高度运动模糊的情形下,模型会出现人体或点位误检和漏检的现象。
模型训练时采用帧间稳定性优化,但在视频数据上,仍然建议采用One-Euro-Filter进行帧间点位平滑后处理。
训练数据使用COCO公开数据集(https://cocodataset.org/#download)。
该模型采用自顶向下的人体关键点检测流程,模型推理分为人体检测和关键点检测两个步骤。
COCO数据集上模型指标:
Method | 输入大小 | Body AP | Body AR | Foot AP | Foot AR | Face AP | Face AR | Hand AP | Hand AR |
---|---|---|---|---|---|---|---|---|---|
hrnetw48 | 384x288 | 0.742 | 0.807 | 0.705 | 0.804 | 0.840 | 0.892 | 0.602 | 0.694 |
@InProceedings{Sun_2019_CVPR,
author = {Sun, Ke and Xiao, Bin and Liu, Dong and Wang, Jingdong},
title = {Deep High-Resolution Representation Learning for Human Pose Estimation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2019}
}