ProST模型是渐进式的时空原型匹配模型,发表于ICCV 2023 Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval。
输入任意视频和文本pair,输出相应的视频-文本pair特征,和相应得分。
该模型采用预训练CLIP模型,然后在msrvtt数据集进行finetune。
CLIP模型:视觉encoder采用vit-base-patch16结构,文本encoder采用bert-base结构。
Interaction: 采用Progressive Spatio-Temporal Prototype Matching。如上图所示。
初始LR为 0.0001,共训练5个epoch。
使用方式:
MSRVTT test,R@1:49%,若采用补充材料中提到的bipartite maximum matching后处理方法,可达到R@1:56%, 达到sota结果。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
video_multi_modal= pipeline(
Tasks.video_multi_modal_embedding,
model='damo/multi_modal_clip_vtretrieval_prost')
video_path = 'your video path.mp4'
caption = ('your text caption', None, None)
_input = {'video': video_path, 'text': caption}
result = video_multi_modal(_input)
如果该模型对您有所帮助,请引用下面的相关的论文:
@inproceedings{ProST,
title = {Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval},
author = {Pandeng Li and Chen-Wei Xie and Liming Zhao and Hongtao Xie and Jiannan Ge and Yun Zheng and Deli Zhao and Yongdong Zhang},
journal = {ICCV 2023},
year = {2023}
}