该模型是对视频-文本pair进行特征提取和匹配模型。输入任意视频和文本pair,输出相应的视频-文本pair特征,和相应得分。
该模型采用Howto100M的视频-文本数据集中预训练CLIP模型,然后在msrvtt数据集进行finetune。
CLIP模型:视觉encoder采用vit-large-patch16结构,文本encoder采用bert-base结构。
Interaction: 采用weighted token-wise interaction。如上图所示。
初始LR为 0.0001,共训练5个epoch。
使用方式:
MSRVTT test,R@1:53%,达到sota结果。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
video_multi_modal= pipeline(
Tasks.video_multi_modal_embedding,
model='damo/multi_modal_clip_vtretrival_msrvtt_53')
video_path = 'your video path.mp4'
caption = ('your text caption', None, None)
_input = {'video': video_path, 'text': caption}
result = video_multi_modal(_input)