文本生成图像即根据输入的文本,生成与文本描述一致的图像。在本模型中,OFA将根据给定文本输出分辨率为256*256的图片。
注1:OFA实现文本生成图像这个任务是在以One For All的理念进行的学术探索,使用的是seq2seq的思路,通过标准自回归的方式生成图像,和目前学术界比较流行的diffusion model不一样。
注2:本模型采样得到的图片将基于CLIP计算的图文相似度进行排序,返回与文本最相符的一张图片。通常采样数量越多,返回结果质量越高,但同时生成过程的显存占用也更大,可以通过增大beam_size的方式增大采样数量,建议设置16及以上。
注:此处效果图为采样数量(beam_size)为24时得到
玩转OFA只需区区以下数行代码,就是如此轻松!如果你觉得还不够方便,请点击右上角Notebook
按钮,我们为你提供了配备了GPU的环境,你只需要在notebook里输入提供的代码,就可以把OFA玩起来了!
注:目前我们测试EAIS环境有些问题,还请您使用DSW资源,如下图所示:
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.preprocessors.multi_modal import OfaPreprocessor
from modelscope.outputs import OutputKeys
model = 'damo/ofa_text-to-image-synthesis_coco_large_en'
preprocessor = OfaPreprocessor(model_dir=model)
ofa_pipe = pipeline(task=Tasks.text_to_image_synthesis,
model=model, preprocessor=preprocessor)
# 可以通过修改generator的beam_size的方式扩大采样数,理论上采样数量越多效果越好,但显存占用也越大
# 模型采样数建议设置16及以上,notebook内(16G-V100)使用最大仅可设置为4,效果可能不理想
ofa_pipe.model.generator.beam_size=16
# 可以通过修改generator的temperature的方式调整生成质量,temperature越大生成纹理细节越多,相应地,生成结果有更大的可能会有形变
# 建议调整范围为0.8-1.3
ofa_pipe.model.generator.temperature=1.2
result = ofa_pipe({"text":'A photo of a golden palace in the middle of a lake, digital art, HD.'})
result[OutputKeys.OUTPUT_IMGS][0].save('result.png')
OFA(One-For-All)是通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态(跨模态、视觉、语言等模态)和任务(如图片生成、视觉定位、图片描述、图片分类、文本生成等),详见我们发表于ICML 2022的论文:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework以及我们的官方Github仓库https://github.com/OFA-Sys/OFA。
Github  |  Paper   |  Blog
Model | Params-en | Params-zh | Backbone | Hidden size | Intermediate size | Num. of heads | Enc layers | Dec layers |
---|---|---|---|---|---|---|---|---|
OFATiny | 33M | - | ResNet50 | 256 | 1024 | 4 | 4 | 4 |
OFAMedium | 93M | - | ResNet101 | 512 | 2048 | 8 | 4 | 4 |
OFABase | 180M | 160M | ResNet101 | 768 | 3072 | 12 | 6 | 6 |
OFALarge | 470M | 440M | ResNet152 | 1024 | 4096 | 16 | 12 | 12 |
OFAHuge | 930M | - | ResNet152 | 1280 | 5120 | 16 | 24 | 12 |
本模型训练数据集是coco caption数据集。
开发中,敬请等待。
训练数据集自身有局限,有可能产生一些偏差,请用户自行评测后决定如何使用。
模型生成存在随机性性,采样数量(beam size)较小时生成结果可能不理想,建议在显存较大的gpu上将beam_size设置为16及以上。
如果你觉得OFA好用,喜欢我们的工作,欢迎引用:
@article{wang2022ofa,
author = {Peng Wang and
An Yang and
Rui Men and
Junyang Lin and
Shuai Bai and
Zhikang Li and
Jianxin Ma and
Chang Zhou and
Jingren Zhou and
Hongxia Yang},
title = {OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence
Learning Framework},
journal = {CoRR},
volume = {abs/2202.03052},
year = {2022}
}