DALL·E mini - テキストプロンプトからの画像生成
DALL·E miniは、あらゆるプロンプトから画像を生成できるAIモデルです!
Created on June 17|Last edited on June 25
Comment
DALL·E miniは、あらゆるプロンプトから画像を生成できるAIモデルです!
使い方
あなたは私たちのアプリであなた自身の画像を作成することができます
仕組み
歴史
DALL・E miniは、これらの結果をオープンソースモデルで再現する挑戦です。
簡易説明
このモデルは、インターネットからの何百万枚もの画像とそれに関連するキャプションを調べることによってトレーニングされます。時間の経過とともに、テキストプロンプトから画像を生成する方法を学びます。
似たような画像を目にするケースがあるように、一部のコンセプトは、メモリから学習されます。ただし、複数のコンセプトを組み合わせることで、「月面着陸するエッフェル塔」など、存在しない独自の画像を作る方法も学ぶことができます。
これらの結果を達成するために、複数のモデルが組み合わされています:
- 未処理の画像を関連するデコーダーで一連の数字に変換する画像エンコーダー
- テキストプロンプトをエンコードされた画像に変換するモデル
- より高精度なフィルタリング向けに生成された画像の品質を判断するモデル
技術的な説明
DALL・E Megaとは?
DALL・E Megaは、訓練されたDALL・E miniの最大バージョンであり、いくつかの改善が含まれています。
- DeepNet 、 Swin v2、 NormFormer 、Sandwich-LN、 RMSNormとGeLU / Swish/ SmeLUなどのトランスフォーマーバリアントの比較後のバリアントに続くNormFormerとGLUに基づく新しいアーキテクチャ
このモデルはまだトレーニング中です。
モデルは利用できますか?
はい!
モデルはまだトレーニング中ですが、最新バージョンが定期的にアップされています。
次のように、プログラムでダウンロードすることも可能です:
import wandbrun = wandb.init()artifact = run.use_artifact('dalle-mini/dalle-mini/mega-1:latest')artifact_dir = artifact.download()
最新モデルの結果
リソース
謝辞
- Original DALL・E miniの作者:Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê Khắc、Luke Melas、Ritobrata Ghosh
- Rohan Anil、Phil Wang、Katherine Crowson、Gradioチーム、LAION & EleutherAIコミュニティからの貢献と支援
関連記事
Generating Digital Painting Lighting Effects via RGB-space Geometry
Exploring the paper "Generating Digital Painting Lighting Effects via RGB-space Geometry" in which the authors propose an image processing algorithm to generate digital painting lighting effects from a single image.
Deep Learning on the M1 Pro with Apple Silicon
Let's take my new Macbook Pro for a spin and see how well it performs, shall we?
Using OpenAI's GPT-3 to Generate 'Doctor Who' Episode Synopses
You can now track your GPT-3 fine-tunes with Weights & Biases! Here's how to do just that, but with more David Tennant than you were otherwise expecting
The Infrastructure Behind Serving DALL·E Mini
In this article, we explore the technology underpinning Dall-E mini and set up a high-load backend infrastructure on Google TPUs.
Add a comment
Iterate on AI agents and models faster. Try Weights & Biases today.