MTTR文本指导的视频目标分割-英文
  • 模型资讯
  • 模型资料

MTTR视频目标分割模型介绍

本模型使用RoBERTa-base和video swin transformer分别来提取输入的文本特征和视频特征,并给出视频中由此文本指定的物体mask。

本模型的生成效果如下所示,输入的指导文本为:

  • ‘guy in black performing tricks on a bike’ ——— 使用蓝色mask
  • ‘a black bike used to perform tricks’ ——— 使用红色mask



模型描述

本模型采用端到端的训练方式,具体的模型如下图所示。首先,输入的文本和视频帧通过特征编码器,并且每一帧会形成一个多模态序列。
接下来,多模态 Transformer 对特征关系进行编码,并将实例级特征解码为一组预测序列,
然后生成相应的掩码和预测的序列。
最后,在训练阶段,预测序列会与标签序列进行匹配以训练网络;在推理阶段,预测序列会用于生成最终的预测结果。



期望模型使用方式以及适用范围

使用方式:

  • 直接推理,在任意的的视频上进行推理。

适用范围:

  • 本模型主要应用于视频目标分割领域,推理阶段输入视频的长度须小于等于10秒,输入文本的个数须小于等于2个。

如何使用

在ModelScope框架上,提供输入视频、指导文本,即可以通过简单的Pipeline调用来使用本模型。注意,本模型当前支持Pillow版本不高于9.5.0。

如您期望结果进行可视化,可以将下载下来的configuration.json文件中pipeline下面的save_masked_video设为true并配置好output_path路径。

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys

input_location = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/videos/referring_video_object_segmentation_test_video.mp4'
text_queries = [
    'guy in black performing tricks on a bike',
    'a black bike used to perform tricks'
]

input_tuple = (input_location, text_queries)
pp = pipeline(Tasks.referring_video_object_segmentation, model='damo/cv_swin-t_referring_video-object-segmentation')
result = pp(input_tuple)
print(result)

模型局限性和可能的偏差

由于目前提供的模型只在Refer-YouTube-VOS数据集上进行了预训练,因此,超出此数据集domain覆盖的视频或者指导文本可能会影响推理时的分割结果。

训练数据介绍

训练数据为Refer-YouTube-VOS公开数据集和A2D_Sentences公开数据集。

模型的训练流程

模型微调和评估流程及代码可见文档【模型微调示例】小节。

模型推理流程

预处理

  • 将输入视频按照输入的起始时间进行裁剪
  • 调整视频的分辨率为360*640
  • 对视频图像进行归一化

推理

  • 将视频帧按照一定的长度进行聚合,形成若干个互相重叠的序列
  • 将每个视频帧序列与输入的每个指导文本进行结合
  • 使用模型对每一个序列进行结果预测
  • 生成每个指导文本对应的每一帧的mask结果

数据评估及结果

DataSet mAP J&F
AD-Sentences 46.1 -
JHMDB-Sentences 39.2 -
Refer-YouTube-VOS - 55.32

相关论文以及引用信息

如果你觉得这个模型对你有所帮助,请考虑引用下面的相关论文:

@inproceedings{botach2021end,
  title={End-to-End Referring Video Object Segmentation with Multimodal Transformers},
  author={Botach, Adam and Zheltonozhskii, Evgenii and Baskin, Chaim},
  booktitle={Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR)},
  year={2022}
}