OFA-图像描述(英文)

News

2023年1月:
- 优化了finetune流程，支持参数更新、自定义数据及脚本分布式训练等，见finetune示例。
2022年12月：
- 支持了batch inference，具体见本页快速玩起来demo示例
2022年11月：
- 发布ModelScope 1.0版本，以下能力请使用1.0.2及以上版本。
- 上线6B Caption模型
- 支持finetune能力，新增OFA Tutorial，finetune能力参考1.4节。

图像描述是什么？

如果你希望为一张图片配上一句文字，或者打个标签，OFA模型就是你的绝佳选择。你只需要输入任意1张你的图片，3秒内就能收获一段精准的描述。本页面右侧提供了在线体验的服务，欢迎使用！

本系列还有如下模型，欢迎试用：

快速玩起来

玩转OFA只需区区以下6行代码，就是如此轻松！如果你觉得还不够方便，请点击右上角Notebook按钮，我们为你提供了配备了的环境，CPU和GPU都支持哦，你只需要在notebook里输入提供的代码，就可以把OFA玩起来了!

donuts

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys

img_captioning = pipeline(Tasks.image_captioning, model='damo/ofa_image-caption_coco_huge_en', model_revision='v1.0.1')
result = img_captioning('http://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/image-captioning/donuts.jpg')
print(result[OutputKeys.CAPTION][0]) # 'a bunch of donuts on a wooden board with popsicle sticks'
# 目前caption支持了batch inference，方式非常简单，具体如下：
result = img_captioning([{'image': 'https://shuangqing-public.oss-cn-zhangjiakou.aliyuncs.com/donuts.jpg'} for _ in range(3)], batch_size=2)
for r in result:
    print(r[OutputKeys.CAPTION][0])

OFA是什么？

OFA(One-For-All)是通用多模态预训练模型，使用简单的序列到序列的学习框架统一模态（跨模态、视觉、语言等模态）和任务（如图片生成、视觉定位、图片描述、图片分类、文本生成等），详见我们发表于ICML 2022的论文：OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework，以及我们的官方Github仓库https://github.com/OFA-Sys/OFA。

Github ｜ Paper ｜ Blog

OFA模型规模：

Model	Params-en	Params-zh	Backbone	Hidden size	Intermediate size	Num. of heads	Enc layers	Dec layers
OFA_Tiny	33M	-	ResNet50	256	1024	4	4	4
OFA_Medium	93M	-	ResNet101	512	2048	8	4	4
OFA_Base	180M	160M	ResNet101	768	3072	12	6	6
OFA_Large	470M	440M	ResNet152	1024	4096	16	12	12
OFA_Huge	930M	-	ResNet152	1280	5120	16	24	12

为什么OFA是图像描述的最佳选择？

OFA在图像描述（image captioning）任务的权威数据集Microsoft COCO Captions官方榜单成功登顶（想看榜单，点这里），并在经典测试集Karpathy test split取得CIDEr 154.9的分数。具体如下：

Stage	Cross Entropy Optimization				CIDEr Optimization
Metric	BLEU-4	METEOR	CIDEr	SPICE	BLEU-4	METEOR	CIDEr	SPICE
OFA_Base	41.0	30.9	138.2	24.2	42.8	31.7	146.7	25.8
OFA_Large	42.4	31.5	142.2	24.5	43.6	32.2	150.7	26.2
OFA_Huge	43.9	31.8	145.3	24.8	44.9	32.5	154.9	26.6

模型训练流程

训练数据介绍

本模型训练数据集是MS COCO Caption。

训练流程

模型及finetune细节请参考OFA Tutorial 1.4节。

Finetune示例

import tempfile
from modelscope.msdatasets import MsDataset
from modelscope.metainfo import Trainers
from modelscope.trainers import build_trainer
from modelscope.utils.constant import DownloadMode
from modelscope.utils.hub import snapshot_download


train_dataset = MsDataset(
    MsDataset.load(
        "coco_2014_caption", 
        namespace="modelscope", 
        split="train[:100]",
        download_mode=DownloadMode.REUSE_DATASET_IF_EXISTS).remap_columns({
        'image': 'image',
        'caption': 'text'
    }))
test_dataset = MsDataset(
    MsDataset.load(
        "coco_2014_caption", 
        namespace="modelscope", 
        split="validation[:20]",
        download_mode=DownloadMode.REUSE_DATASET_IF_EXISTS).remap_columns({
        'image': 'image',
        'caption': 'text'
    }))


def cfg_modify_fn(cfg):
    cfg.train.hooks = [{
        'type': 'CheckpointHook',
        'interval': 2
    }, {
        'type': 'TextLoggerHook',
        'interval': 1
    }, {
        'type': 'IterTimerHook'
    }]
    cfg.train.dataloader.batch_size_per_gpu = 1
    cfg.train.max_epochs=2
    return cfg


args = dict(
    model='damo/ofa_image-caption_coco_huge_en',
    model_revision='v1.0.1',
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    cfg_modify_fn=cfg_modify_fn,
    work_dir = tempfile.TemporaryDirectory().name)
trainer = build_trainer(name=Trainers.ofa, default_args=args)
trainer.train()

模型局限性以及可能的偏差

训练数据集自身有局限，有可能产生一些偏差，请用户自行评测后决定如何使用。