针对视频理解领域的「场景偏差」难题(例如:一段「在篮球场跳舞」的视频,会被识别为打篮球,而非跳舞),我们提出一种自监督视频表征学习方案,通过在代理任务(pretext tasks)中显式地解耦场景与运动信息(context and motion decoupling),强制视频模型同时捕捉静态背景与动态行为两方面特征。值得注意的是,本方案中,解耦的场景与运动数据均从「视频压缩编码」(例如:H.264) 中提取得到,其中场景由关键帧 (keyframes) 表示,运动由运动向量 (motion vectors) 表示,二者在CPU上的提取速度达500 fps,是光流 (另一种运动表示) 的100倍。基于该解藕方案预训练的视频网络模型,迁移至行为理解和视频检索两项下游任务,性能均显著超过SOTA。
其模型结构如下所示:
使用方式:
使用范围:
目标场景:
提供输入视频,即可以通过简单的Pipeline调用来提取视频特征向量。
import os
import cv2
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
os.system('wget -O test.mp4 https://modelscope.oss-cn-beijing.aliyuncs.com/test/videos/action_recognition_test_video.mp4')
videossl_pipeline = pipeline(Tasks.video_embedding, 'damo/cv_r2p1d_video_embedding')
result = videossl_pipeline('test.mp4')
print(f'video embedding: {result}.')
Kinetics-400 常用行为识别的公开数据集,包含400类,总共有接近30万视频;
UCF101 包含13,320视频共计101种动作分类;
HMDB51 包含6,766视频片段共计51种动作分类。
预训练(论文):在UCF101数据集上,使用64的batch size训练120 epochs. 在Kinetics400数据集上,以512的batch size训练120 epochs. 基准学习率为0.0005xB,其中B为batch size大小,训练过程中先采用线性预热策略,然后采用cosine的退火策略降低学习率。优化器采用SGD,weight decay和momentum分别为0.005和0.9。
微调(论文):在UCF101数据集上,基准学习率设置为0.0001xB, SGD优化器的weight decay设置为0.003;在HMDB51数据集上,基准学习率设置为0.0002xB, SGD优化器的weight decay设置为0.002。两个数据集均采用batch size为8,训练120 epochs。
暂时不支持通过ModelScope接口进行微调。
在行为识别和视频检索两个任务上进行测试:
Pretrained | Resolution | Architecture | UCF101 | HMDB51 |
---|---|---|---|---|
UCF101 | 112x112 | C3D | 78.6 | 46.9 |
UCF101 | 112x112 | R(2+1)D-26 | 79.7 | 48.6 |
UCF101 | 112x112 | R3D-26 | 76.6 | 47.2 |
Kinetics400 | 112x112 | C3D | 83.4 | 52.9 |
Kinetics400 | 112x112 | R(2+1)D-26 | 85.7 | 54.0 |
Kinetics400 | 112x112 | R3D-26 | 83.7 | 55.2 |
Pretrained | Resolution | Architecture | UCF101 | HMDB51 |
---|---|---|---|---|
UCF101 | 112x112 | C3D | 66.9 | 50.0 |
UCF101 | 112x112 | R(2+1)D-26 | 65.2 | 48.5 |
UCF101 | 112x112 | R3D-26 | 65.8 | 51.4 |
如果你觉得这个该模型对你有所帮助,请考虑引用下面的论文:
@inproceedings{huang2021self,
title={Self-supervised video representation learning by context and motion decoupling},
author={Huang, Lianghua and Liu, Yu and Wang, Bin and Pan, Pan and Xu, Yinghui and Jin, Rong},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={13886--13895},
year={2021}
}