中文CLIP

News

2022年11月：
- 发布ModelScope 1.0版本，以下能力请使用1.0.2及以上版本。
- 上线Huge模型(224分辨率)
- 上线创空间，更强大的demo展示：中文图文检索应用
- 支持finetune能力，具体参考中文CLIP Tutorial 3.3节。
- 推出中文CLIP论文，欢迎查阅更多细节。
- 推出去除optimizer相关参数的ckpt，文件更小，大家可以使用v1.0.1的ckpt，具体方法示例代码已经更新。

模型与项目介绍

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），可用于图文检索和图像、文本的表征提取，应用于搜索、推荐等应用场景。
更多技术细节可以参考我们的技术报告和Github开源代码。

CLIP模型是来自OpenAI的经典图文表征模型，其采用双塔模型结构（如下图），利用大规模图文对平行语料进行对比学习，从而能够实现图片和文本的跨模态语义特征抽取。

CLIP模型结构

原始的CLIP模型基于英文图文语料，不能用于中文的图文表征提取场景。本项目以英文CLIP视觉侧参数和中文Roberta参数，作为模型初始化值。
基于大规模原生中文图文数据，通过如下图所示的二阶段预训练策略（一阶段仅训练文本侧，二阶段同时训练），实现了CLIP模型的中文化版本，未来将在此持续更新。

中文CLIP预训练机制

本系列还有如下模型，欢迎试用：

快速用起来

提取特征不过区区数行代码，就可以通过我们的服务得到图像或文本的特征。如果你觉得还不够方便，请点击右上角Notebook按钮，我们为你提供了配备了GPU的环境，你只需要在notebook里输入提供的代码，就可以把中文CLIP玩起来了！

注：使用Notebook要验证下当前modelscope的版本号，如果版本低于0.3.7，可以点击更新镜像并启动，如下图所示：

让我们开始代码实例

皮卡丘

# require modelscope>=0.3.7，目前默认已经超过，您检查一下即可
# 按照更新镜像的方法处理或者下面的方法
# pip install --upgrade modelscope -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
# 需要单独安装decord，安装方法：pip install decord
import torch
from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
from modelscope.preprocessors.image import load_image

pipeline = pipeline(task=Tasks.multi_modal_embedding,
    model='damo/multi-modal_clip-vit-large-patch14_336_zh', model_revision='v1.0.1')
input_img = load_image('https://yangan2.oss-cn-beijing.aliyuncs.com/pokemon.jpeg') # 支持皮卡丘示例图片路径/本地图片 返回PIL.Image
input_texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

# 支持一张图片(PIL.Image)或多张图片(List[PIL.Image])输入，输出归一化特征向量
img_embedding = pipeline.forward({'img': input_img})['img_embedding'] # 2D Tensor, [图片数, 特征维度]

# 支持一条文本(str)或多条文本(List[str])输入，输出归一化特征向量
text_embedding = pipeline.forward({'text': input_texts})['text_embedding'] # 2D Tensor, [文本数, 特征维度]

# 计算图文相似度
with torch.no_grad():
    # 计算内积得到logit，考虑模型temperature
    logits_per_image = (img_embedding / pipeline.model.temperature) @ text_embedding.t()
    # 根据logit计算概率分布
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

print("图文匹配概率:", probs)

为什么中文CLIP是你的最佳选择？

我们实现的中文版本CLIP在多个公开数据集上取得杰出的效果，基本超出市面同类型baseline模型。具体评测数据集包括MUGE（欢迎访问官网），Flickr30K-CN和COCO-CN，结果如下所示：

MUGE Text-to-Image Retrieval

Setup	Zero-shot				Finetune
Metric	R@1	R@5	R@10	MR	R@1	R@5	R@10	MR
Wukong_ViT-L	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2_ViT-L	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN-CLIP_ViT-L	56.3	79.8	86.2	74.1	63.3	85.6	91.3	80.1
CN-CLIP_ViT-L-336	59.0	81.4	87.8	76.1	65.3	86.7	92.1	81.3

Flickr30K-CN Retrieval

Task	Text-to-Image						Image-to-Text
Setup	Zero-shot			Finetune			Zero-shot			Finetune
Metric	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10
Wukong_ViT-L	51.7	78.9	86.3	77.4	94.5	97.0	76.1	94.8	97.5	92.7	99.1	99.6
R2D2_ViT-L	60.9	86.8	92.7	84.4	96.7	98.4	77.6	96.7	98.9	95.6	99.8	100.0
CN-CLIP_ViT-L	68.0	89.7	94.4	82.7	96.7	98.6	80.2	96.6	98.2	96.1	99.5	99.9
CN-CLIP_ViT-L-336	69.0	90.7	95.4	84.4	97.1	98.7	83.3	97.2	98.5	96.6	99.8	100.0

COCO-CN Retrieval

Task	Text-to-Image						Image-to-Text
Setup	Zero-shot			Finetune			Zero-shot			Finetune
Metric	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10
Wukong_ViT-L	53.4	80.2	90.1	74.0	94.4	98.1	55.2	81.0	90.6	73.3	94.0	98.0
R2D2_ViT-L	56.4	85.0	93.1	79.1	96.5	98.9	63.3	89.3	95.7	79.3	97.1	98.7
CN-CLIP_ViT-L	64.0	89.2	94.4	78.9	96.3	99.0	60.4	84.2	92.9	80.2	96.7	99.2
CN-CLIP_ViT-L-336	64.7	89.6	94.6	80.1	96.7	99.2	63.4	87.2	94.4	81.2	97.2	99.1

模型训练流程

训练数据介绍

本模型训练数据集是预训练数据集。

训练流程

已经支持，具体请您查阅中文CLIP Tutorial 3.3节。

使用方式及场景

使用方式：

对输入的图像、文本数据进行特征提取

使用场景:

通用的图文跨模态检索任务
通用图文特征提取器

模型局限性以及可能的偏差

训练数据集自身有局限，有可能产生一些偏差，请用户自行评测后决定如何使用。