unidiffuser-v1
UniDiffuser是一个统一的diffusion框架,用于在一个转换器中拟合与有一组多模态数据相关的所有分布. UniDiffuser能够通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像文本对生成,而无需额外的开销.
  • 模型资讯
  • 模型资料

UniDiffuser是一个统一的diffusion框架,用于在一个转换器中拟合与有一组多模态数据相关的所有分布.
UniDiffuser能够通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像文本对生成,而无需额外的开销.

具体来说, UniDiffuser采用了一种称为 U-ViT的transformers变体,他对联合噪声预测网络进行参数化。其他组件充当不同模态的编码器和解码器,包括来自Stable Diffusion的预训练图像自动编码器, 预训练image ViT-B/32 CLIP encoder, 预训练 text ViT-L CLIP encoder, 以及我们微调的 GPT-2 文本解码器.

我们提供了两个版本的UniDiffuser:

  • UniDiffuser-v0: 这个版本是基于 LAION-5B训练的, 包含了文本图像对的嘈杂网络数据.
  • UniDiffuser-v1: 这个版本基于UniDiffuser-v0, 并使用了一组噪声较小的内部文本图像对继续训练. 他使用标志作为输入,并在训练期间区分网络数据和内部数据。

下载

我们提供了UniDiffusion的下载链接 this link, 并且也提供了UniDiffuser文件 this link.
这是文件是:

  • autoencoder_kl.pth is the weight of the image autoencoder converted from Stable Diffusion.
  • caption_decoder.pth is the weight of the finetuned GPT-2 text decoder.
  • uvit_v0.pth/uvit_v1.pth is the weight of U-ViT for UniDiffuser-v0/UniDiffuser-v1.

请注意,UniDiffuser-v0和UniDiffuser-v1共享 autoencoder_kl.pthcaption_decoder.pth. 只需要下载一次.
其他组件, 将自动下载.

用法

参考 UniDiffuser codebase.

模型细节

  • Model type: Diffusion-based multi-modal generation model
  • Language(s): English
  • License: agpl-3.0
  • Model Description: This is a model that can perform image, text, text-to-image, image-to-text, and image-text pair generation. Its main component is a U-ViT, which parameterizes the joint noise prediction network. Other components perform as encoders and decoders of different modalities, including a pretrained image autoencoder from Stable Diffusion, a pretrained image ViT-B/32 CLIP encoder, a pretrained text ViT-L CLIP encoder, and a GPT-2 text decoder finetuned by ourselves.
  • Resources for more information: GitHub Repository, Paper.

直接使用方法

该模型应按照 agpl-3.0 许可证使用。 可能的用法包括

  • 安全部署可能产生有害内容的模型。
  • 探索和理解生成模型的局限性和偏见。
  • 艺术作品的产生以及在设计和其他艺术过程中的使用。
  • 在教育或创意工具中的应用。
  • 生成模型研究。
    排除的用途如下所述。

滥用、恶意使用和模型局限性

该模型不应用于故意创建或传播对人们造成敌对或疏远环境的图像。 这包括生成人们会预见到会感到不安、痛苦或冒犯的图像; 或传播历史或当前刻板印象的内容。

模型局限性

该模型未经过训练以真实或真实地表示人物或事件,因此使用该模型生成此类内容超出了该模型的能力范围。

滥用和恶意使用

使用该模型生成对个人残忍的内容是对该模型的滥用。 这包括但不限于:

  • 对人或其环境、文化、宗教等进行贬低、非人化或其他有害的表述。
  • 故意宣传或传播歧视性内容或有害的刻板印象。
  • 未经个人同意冒充个人。
  • 未经可能看到它的人同意的色情内容。
  • 错误信息和虚假信息
  • 极端暴力和血腥的表现
  • 违反其使用条款共享受版权保护或许可的材料。
  • 共享违反其使用条款更改版权或许可材料的内容。