UniDiffuser是一个统一的diffusion框架,用于在一个转换器中拟合与有一组多模态数据相关的所有分布.
UniDiffuser能够通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像文本对生成,而无需额外的开销.
具体来说, UniDiffuser采用了一种称为 U-ViT的transformers变体,他对联合噪声预测网络进行参数化。其他组件充当不同模态的编码器和解码器,包括来自Stable Diffusion的预训练图像自动编码器, 预训练image ViT-B/32 CLIP encoder, 预训练 text ViT-L CLIP encoder, 以及我们微调的 GPT-2 文本解码器.
我们提供了两个版本的UniDiffuser:
我们提供了UniDiffusion的下载链接 this link, 并且也提供了UniDiffuser文件 this link.
这是文件是:
autoencoder_kl.pth
is the weight of the image autoencoder converted from Stable Diffusion.caption_decoder.pth
is the weight of the finetuned GPT-2 text decoder.uvit_v0.pth/uvit_v1.pth
is the weight of U-ViT for UniDiffuser-v0/UniDiffuser-v1.请注意,UniDiffuser-v0和UniDiffuser-v1共享 autoencoder_kl.pth
和 caption_decoder.pth
. 只需要下载一次.
其他组件, 将自动下载.
该模型应按照 agpl-3.0 许可证使用。 可能的用法包括
该模型不应用于故意创建或传播对人们造成敌对或疏远环境的图像。 这包括生成人们会预见到会感到不安、痛苦或冒犯的图像; 或传播历史或当前刻板印象的内容。
该模型未经过训练以真实或真实地表示人物或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
使用该模型生成对个人残忍的内容是对该模型的滥用。 这包括但不限于: