通义-文本生成图像大模型-中英文-通用领域
本模型基于多阶段文本到图像生成扩散模型, 输入描述文本,返回符合文本描述的2D图像。整体模型参数约50亿,支持中英双语输入,通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。
  • 模型资讯
  • 模型资料
目前模型在ModelScope提供在线体验功能,暂不支持pipeline推理、下载和训练,后续迭代更新版本会开放下载,敬请期待。

通义-文本生成图像大模型-中英文-通用领域

本模型基于多阶段文本到图像生成扩散模型, 输入描述文本,返回符合文本描述的2D图像。支持中英双语输入。

例如,输入 “A photo of a confused grizzly bear in calculus class.”,可能会得到如下图像:

A photo of a confused grizzly bear in calculus class.

更多生成结果如下:

More samples.

上述生成图像对应prompt为:

1. a highly detailed, realistic photograph of a frog wearing small sunglasses and smoking a cigarette while sitting on a beautiful mid-century modern style chair, designed by sonia delaunay. beautiful colors. vintage film camera.
2. A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome
3. A photo of a confused grizzly bear in calculus class.
4. A pyramid made of falafel with a partial solar eclipse in the background.
5. Photograph of a baby chicken wearing sunglasses
6. An abandoned expansive brutalist city made of concrete, overgrown by green plants and lit by sunlight. Beautiful lighting, highly detailed digital art, trending on Artstation.
7. a Nikola Tesla terminator , leds, high detail, sharp, studio, digital art
8. A moai statue wearing sunglasses and a biker jacket
9. Portrait of Jimi Hendrix in the style of Basquiat.
10. A brightly coloured, detailed icon of a fox emoji, 3D low poly render, isometric perspective on white background
11. Oil Painting of a steampunk flying machine, flying over land, view from the sky
12. Godzilla becomes a professional boxer
13. A Japanese woodblock print of a formula one race in the snow
14. A photo of a dog wearing glasses using an iphone, 8k
15. A portrait of a bipedal cat wearing 19th century men's clothing.
16. An astronaut riding a horse.

模型描述

文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿,支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。知识重组示意图如下:

knowledge arrangement

可变维度扩散模型示意图如下:

varying dimensional diffusion

期望模型使用方式以及适用范围

本模型适用范围较广,能基于任意中英文文本描述进行推理,生成图像。

如何使用

目前模型在ModelScope提供在线体验功能,暂不支持pipeline推理、下载和训练,后续迭代更新版本会开放下载,敬请期待。

模型局限性以及可能的偏差

  • 模型基于LAION5B等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
  • 该模型无法实现完美的照片级生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要是用英文语料训练的,在其他语言中效果不及英文语境。
  • 该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

  • 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
  • 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
  • 禁止用于涉黄、暴力和血腥内容生成。
  • 禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5B, ImageNet, FFHQ, AFHQ, WikiArt等公开数据集。经过美学得分、水印得分、去重等预处理进行图像过滤。

模型训练流程

训练

模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。

数据评估及结果

CLIP score 0.28,超过同样测试参数下的Imagen (0.275)。

更多应用

图像多样化

将输入图像经过CLIP image encoder得到image embeeding,并通过diffusion model decoding实现图像多样化生成,生成的新图保留了原始输入图的语义信息,但实现了其他细节的变化。
framework

framework

图像融合

将输入的两张图像均经过CLIP image encoder得到image embeeding,将两个image embedding进行插值、并通过diffusion model decoding实现图像多样化生成,生成的新图保留了融合了原始两张输入图的风格和内容。

framework

framework

相关论文以及引用信息

@article{lhhuang2023composer,
  title={Composer: Creative and Controllable Image Synthesis with Composable Conditions},
  author={Huang, Lianghua and Chen, Di and Liu, Yu and Yujun, Shen and Zhao, Deli and Jingren, Zhou},
  booktitle={arXiv preprint arxiv:2302.09778},
  year={2023}
}
@article{hanzhang2022varing,
  title={Dimensionality-Varying Diffusion Process},
  author={Han Zhang, Ruili Feng, Zhantao Yang, Lianghua Huang, Yu Liu, Yifei Zhang, Yujun Shen, Deli Zhao, Jingren Zhou, and Fan Cheng},
  journal={To be avaiable at arXiv soon},
  year={2022}
}
@article{ramesh2022hierarchical,
  title={Hierarchical text-conditional image generation with clip latents},
  author={Ramesh, Aditya and Dhariwal, Prafulla and Nichol, Alex and Chu, Casey and Chen, Mark},
  journal={arXiv preprint arXiv:2204.06125},
  year={2022}
}
@inproceedings{radford2021learning,
  title={Learning transferable visual models from natural language supervision},
  author={Radford, Alec and Kim, Jong Wook and Hallacy, Chris and Ramesh, Aditya and Goh, Gabriel and Agarwal, Sandhini and Sastry, Girish and Askell, Amanda and Mishkin, Pamela and Clark, Jack and others},
  booktitle={International Conference on Machine Learning},
  pages={8748--8763},
  year={2021},
  organization={PMLR}
}