VoP: 通用跨模态视频检索模型

论文 [点击阅读]

VoP是第一个同时具有视频和文字Prompt的端到端视频文本跨模态检索框架，基于Prompt的高效微调与完全微调相比，VoP利用0.1%的训练参数在5个公开的数据集(MSR-VTT-9k, MSR-VTT-7k, DiDeMo, ActivityNet, LSMDC)中获得了1.4%的平均R@1增益，参数开销却减少了6倍。VoP可以实现输入一段自然语言文本做视频特征检索，返回最相关的视频，或是输入一支本地视频做文本特征检索，返回最相关的文本。

利用VoP实现文本（自然语言）直接搜索视频的可视化样例，如下所示：

可视化展示

系列工作：

模型描述

模型结构

期望模型使用方式以及适用范围

如何使用

VoP是基于CLIP的快速微调框架，可以适用于任何需要做视频文本跨模态检索的“视频-文本对”数据当中。

代码范例

文本搜索视频

import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

vop_pipeline = pipeline(Tasks.vop_retrieval, 
                       model='damo/cv_vit-b32_retrieval_vop')

# 输入文本query
input_text = 'a squid is talking'
# 运行pipeline获得结果
result = vop_pipeline(input_text)

print(f'vop output: {result}.')
print('finished!')

视频搜索文本

import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

vop_pipeline = pipeline(Tasks.vop_retrieval, 
                       model='damo/cv_vit-b32_retrieval_vop')

# 输入视频名称
# 如果自定义视频，请放到 'damo/cv_vit-b32_retrieval_vop' 根目录下即可
input_video = 'video10.mp4'
# 运行pipeline获得结果
result = vop_pipeline(input_video)

print(f'vop output: {result}.')
print('finished!')

模型局限性以及可能的偏差

考虑GPU精度、视频解码工具的差异，可能带来一定的性能差异(<0.5%)
测试使用的GPU是Tesla T4，显存16127MiB
当前版本在python 3.7.9环境测试通过，其他环境下可用性待测试
默认基于MSR-VTT-9K数据作为检索底库

训练数据介绍

MSR-VTT 包含10,000个视频，每个视频与大约20个标题配对，我们用MSR-VTT-9k和MSR-VTT-7k来分别指代两种数据分割
DiDeMo 包含10,000个Flickr视频，有40,000段文本
ActivityNet 包含20,000个YouTube视频，一个视频的所有描述被串联成一个单一的查询
LSMDC 包含从202部电影中提取的118,081个视频片段

数据评估及结果

VoP在5个公开数据集上的评估结果如下，红色表示相对于基线(全量微调)是负向性能变化，绿色表示正向，"Ours"括号内的是VoP的结果：

实验结果