DALL·E mini - テキストプロンプトからの画像生成

DALL·E miniは、あらゆるプロンプトから画像を生成できるAIモデルです！
Created on June 17|Last edited on June 25
Comment
このレポートは、Boris Daymaによる「DALL·E mini - Generate Images from Any Text Prompt」の翻訳です。
﻿
DALL·E miniは、あらゆるプロンプトから画像を生成できるAIモデルです！
﻿このモデルはまだトレーニング中であり、時間とともに改良され続けています。
最新のアップデートについては、 @borisdaymaをチェックしてください！
使い方あなたは私たちのアプリであなた自身の画像を作成することができます
We're saving prompts so we can share how people interact with this model in the near future.
﻿
﻿
If you're a developer, you can also refer to our GitHub repository to run or train your own models!
開発者の方は、 当社のGitHubリポジトリを参照して、独自モデルを実行またはトレーニングすることもできます！
仕組み
歴史OpenAIは、 DALL・Eを使用して画像生成するための素晴らしい初代モデルでした
DALL・E miniは、これらの結果をオープンソースモデルで再現する挑戦です。
簡易説明このモデルは、インターネットからの何百万枚もの画像とそれに関連するキャプションを調べることによってトレーニングされます。時間の経過とともに、テキストプロンプトから画像を生成する方法を学びます。
似たような画像を目にするケースがあるように、一部のコンセプトは、メモリから学習されます。ただし、複数のコンセプトを組み合わせることで、「月面着陸するエッフェル塔」など、存在しない独自の画像を作る方法も学ぶことができます。
これらの結果を達成するために、複数のモデルが組み合わされています：
未処理の画像を関連するデコーダーで一連の数字に変換する画像エンコーダー
テキストプロンプトをエンコードされた画像に変換するモデル
より高精度なフィルタリング向けに生成された画像の品質を判断するモデル
技術的な説明詳しくは、当社のテクニカルレポートを参照してください。
DALL・E Megaとは？DALL・E Megaは、訓練されたDALL・E miniの最大バージョンであり、いくつかの改善が含まれています。
﻿さまざまなオプティマイザを比較した結果、より効率的であることが証明された、Distributed Shampooにアップデートされたオプティマイザ
DeepNet 、 Swin v2、 NormFormer 、Sandwich-LN、 RMSNormとGeLU / Swish/ SmeLUなどのトランスフォーマーバリアントの比較後のバリアントに続くNormFormerとGLUに基づく新しいアーキテクチャ 
FIDおよびCLIPスコアに影響を与えるスーパーコンディショニングの使用（パレート曲線を参照） 。
﻿CLIPスコア探索によるデータセットの改善
このモデルはまだトレーニング中です。
﻿
﻿
﻿
詳しくは、DALL・E Megaトレーニングジャーナルを参照してください。
モデルは利用できますか？はい！
モデルはまだトレーニング中ですが、最新バージョンが定期的にアップされています。
• 単精度（ float32 ）﻿
• 半精度（ float16 ）﻿
次のように、プログラムでダウンロードすることも可能です：
import wandb
run = wandb.init()
artifact = run.use_artifact('dalle-mini/dalle-mini/mega-1:latest')
artifact_dir = artifact.download()
使い方については、当社のGitHubリポジトリのノートブックを参照するか、当社のアプリにアクセスしてください！
最新モデルの結果﻿
﻿
リソース﻿Githubリポジトリ﻿
﻿LAION Discord﻿﻿﻿
謝辞﻿FLAX /JAXコミュニティウィーク開催へのハグマーク🤗、 Patrick von PlatenとSuraj Patilからの素晴らしい調整とサポート
コンピューティングリソースを提供するためのGoogle TPU Research Cloud（TRC）プログラム﻿
実験追跡とモデル管理のためのインフラストラクチャを提供するためのWeights & Biases﻿
Original DALL・E miniの作者：Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê Khắc、Luke Melas、Ritobrata Ghosh
Rohan Anil、Phil Wang、Katherine Crowson、Gradioチーム、LAION ＆ EleutherAIコミュニティからの貢献と支援
関連記事
Generating Digital Painting Lighting Effects via RGB-space Geometry
Exploring the paper "Generating Digital Painting Lighting Effects via RGB-space Geometry" in which the authors propose an image processing algorithm to generate digital painting lighting effects from a single image.
Deep Learning on the M1 Pro with Apple Silicon 
Let's take my new Macbook Pro for a spin and see how well it performs, shall we?
Using OpenAI's GPT-3 to Generate 'Doctor Who' Episode Synopses 
You can now track your GPT-3 fine-tunes with Weights & Biases! Here's how to do just that, but with more David Tennant than you were otherwise expecting
The Infrastructure Behind Serving DALL·E Mini
In this article, we explore the technology underpinning Dall-E mini and set up a high-load backend infrastructure on Google TPUs.
﻿
﻿
Add a comment
Tags: Articles, Experiment, DALL-E, GAN, Intermediate
Iterate on AI agents and models faster. Try Weights & Biases today.