DALL·E mini - 根据任意文本提示生成图像
DALL·E mini 是一种可根据任何给出的提示生成图像的人工智能模型!
Created on June 17|Last edited on June 25
Comment
DALL·E mini 是一种可根据任何给出的提示生成图像的人工智能模型!
如何使用?
您可以使用我们的应用程序创建自己的图像。
它的工作原理是什么?
历史
DALL·E mini 则是一种利用开源模型对此类结果进行重现的尝试。
简单解释
模型通过观看来自互联网的数百万张带有相关标题的图像进行训练。随着时间的推移,模型逐渐学会了如何根据文本提示来绘制图像。
部分概念会来自记忆,因为它可能之前见过类似的图像。不过,模型也能学习如何通过将多个概念结合在一起创建不存在的独特图像,比如:“埃菲尔铁塔正降落在月球上”。
在实现此类结果的过程中结合使用了多个模型:
- 一个图像解码器,可通过相关解码器将原始图像转换为数字序列
- 一个可将文本提示转换为编码图像的模型
- 一个可对生成图像质量进行判断以便于更好地拟合的模型
技术解释
什么是DALL·E mega?
DALL·E mega是最大规模的已训练版本DALL·E mini,其中包含多项改进:
- 基于 NormFormer 和 GLU 变体的全新架构。之前已对transformer变体进行了比较,包括:DeepNet、Swin v2、NormFormer、Sandwich-LN、带GeLU/Swish/SmeLU参数的RMSNorm。
模型仍在训练中。
模型是否可用?
是的!
虽然模型仍在训练过程中,但最新版本仍在定期发布:
还可采用以下程序化方式下载:
import wandbrun = wandb.init()artifact = run.use_artifact('dalle-mini/dalle-mini/mega-1:latest')artifact_dir = artifact.download()
最新模型的结果
资源
致谢
- DALL·E mini原创人员:Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê Khắc、Luke Melas、Ritobrata Ghosh
- 感谢Rohan Anil、Phil Wang、Katherine Crowson、Gradio 团队以及LAION & EleutherAI社区的贡献和支持
推荐阅读
Generating Digital Painting Lighting Effects via RGB-space Geometry
Exploring the paper "Generating Digital Painting Lighting Effects via RGB-space Geometry" in which the authors propose an image processing algorithm to generate digital painting lighting effects from a single image.
Deep Learning on the M1 Pro with Apple Silicon
Let's take my new Macbook Pro for a spin and see how well it performs, shall we?
Using OpenAI's GPT-3 to Generate 'Doctor Who' Episode Synopses
You can now track your GPT-3 fine-tunes with Weights & Biases! Here's how to do just that, but with more David Tennant than you were otherwise expecting
The Infrastructure Behind Serving DALL·E Mini
In this article, we explore the technology underpinning Dall-E mini and set up a high-load backend infrastructure on Google TPUs.
Add a comment
Iterate on AI agents and models faster. Try Weights & Biases today.