视频实例分割

给定一个输入视频，输出视频每一帧的实例分割掩膜，类别，分数（虚拟分数），矩形框和跟踪的id。

实例分割是要分割出图像中的things。things是指可数的物体，例如人，车，猫等。

视频实例分割

模型描述

模型结构

如上图所示，模型包含backbone，neck和 KernelUpdateHeads三个部分。

期望模型使用方式与适用范围

本模型适用范围较广，能对图片中包含的大部分感兴趣物体（YouTube DataSet 40类）进行分割。

如何使用

在ModelScope框架上，提供输入视频，即可通过简单的Pipeline调用来使用。

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

model_id = 'damo/cv_swinb_video-instance-segmentation'
input_url = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/videos/kitti-step_testing_image_02_0000.mp4'
seg_pipeline = pipeline(Tasks.video_instance_segmentation, model=model_id)
result = seg_pipeline(input_url)

模型局限性以及可能的偏差

当前模型在YouTube-VIS DataSet数据训练，其他差异较大的场景可能出现精度下降
部分非常规图片或感兴趣物体占比太小或遮挡严重可能会影响分割结果
当前版本在python 3.7环境测试通过，其他环境下可用性待测试

训练数据介绍

YouTube-VIS DataSet ：
Youtube-vis 是一个实例分割数据集. 它包含2883高分辨率的YouTube视频, 每个像素的标注类别包含40类常见物体例如人、动物、汽车等, 数据集包含4883个视频片段、131k个高质量的人工标注.
YouTube-VIS dataset is split into 2,238 training videos, 302 validation videos and 343 test videos.

预处理

测试时主要的预处理如下：

Normalize：图像归一化，减均值除以标准差
Pad：图像高宽补零至32的倍数

数据评估及结果

Backbone	Pretrain	AP	AR_10
swinb (deformable fpn)	ImageNet-21K	54.1	59.9

引用

@inproceedings{li2022video,
  title={Video k-net: A simple, strong, and unified baseline for video segmentation},
  author={Li, Xiangtai and Zhang, Wenwei and Pang, Jiangmiao and Chen, Kai and Cheng, Guangliang and Tong, Yunhai and Loy, Chen Change},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={18847--18857},
  year={2022}
}

Clone with HTTP

 git clone https://www.modelscope.cn/damo/cv_swinb_video-instance-segmentation.git