Skip to main content

DALL·E mini - 根据任意文本提示生成图像

DALL·E mini 是一种可根据任何给出的提示生成图像的人工智能模型!
Created on June 17|Last edited on June 25
本报告是作者Boris Dayma所写的"DALL·E mini - Generate Images from Any Text Prompt"的翻译


DALL·E mini 是一种可根据任何给出的提示生成图像的人工智能模型!
此模型仍在训练过程中,将会随着时间的推移不断改善。
关注 @borisdayma 了解最新动态!

如何使用?

您可以使用我们的应用程序创建自己的图像。
We're saving prompts so we can share how people interact with this model in the near future.


如果您是一名开发人员,也可参考我们的GitHub库运行或训练自己的模型!

它的工作原理是什么?

历史

OpenAI借助DALL·E打造了其首个可用于生成图像的优秀模型。
DALL·E mini 则是一种利用开源模型对此类结果进行重现的尝试。

简单解释

模型通过观看来自互联网的数百万张带有相关标题的图像进行训练。随着时间的推移,模型逐渐学会了如何根据文本提示来绘制图像。
部分概念会来自记忆,因为它可能之前见过类似的图像。不过,模型也能学习如何通过将多个概念结合在一起创建不存在的独特图像,比如:“埃菲尔铁塔正降落在月球上”。
在实现此类结果的过程中结合使用了多个模型:
  • 一个图像解码器,可通过相关解码器将原始图像转换为数字序列
  • 一个可将文本提示转换为编码图像的模型
  • 一个可对生成图像质量进行判断以便于更好地拟合的模型

技术解释

请参考我们的技术报告以了解更多详情。

什么是DALL·E mega?

DALL·E mega是最大规模的已训练版本DALL·E mini,其中包含多项改进:

模型仍在训练中。


查看DALL·E mega训练日志以了解更多详情。

模型是否可用?

是的!
虽然模型仍在训练过程中,但最新版本仍在定期发布:
还可采用以下程序化方式下载:
import wandb
run = wandb.init()
artifact = run.use_artifact('dalle-mini/dalle-mini/mega-1:latest')
artifact_dir = artifact.download()
See the notebooks from our GitHub repository for how to use it or just go to our app!
查看我们GitHub库中的笔记本以了解如何使用,也可直接使用我们的应用

最新模型的结果




资源

致谢

  • 🤗感谢组织FLAX/JAX 社区周的Hugging Face以及展现超凡协调与支持的 Patrick von PlatenSuraj Patil
  • 感谢谷歌TPU研究云(TRC)项目提供计算资源
  • 感谢 Weights & Biases 为实验追踪和模型管理所提供的基础架构
  • DALL·E mini原创人员:Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê Khắc、Luke Melas、Ritobrata Ghosh
  • 感谢Rohan Anil、Phil Wang、Katherine Crowson、Gradio 团队以及LAION & EleutherAI社区的贡献和支持

推荐阅读


Iterate on AI agents and models faster. Try Weights & Biases today.