VON E 2 es ist eins CLIP-System die Textinformationen in Bilder übersetzt. Es ist ein Beispiel für einen Encoder-Decoder, was bedeutet, dass eingegebener Text zuerst in Maschineneingabe umgewandelt, dann vom System verarbeitet und schließlich einem Decoder zugeführt wird, der die codierten Daten in ein Bild umwandelt.
Was ist DALL·E 2?
Es ist die neueste Generation von DALL·E, einem Produktionssprachenmodell, das Phrasen verwendet, um völlig neue Grafiken zu erstellen. DALL·E 2 ist ein riesiges Modell mit 3,5-B-Parametern, obwohl es nicht so riesig ist wie GPT-3. Interessanterweise ist es auch leichter als sein Vorgänger (12B). In Bezug auf Beschreibungsausrichtung und Fotorealismus wird DALL·E 2 trotz seiner größeren Größe von menschlichen Richtern gegenüber DALL·E in +70 % der Fälle bevorzugt.
DALL.E 2- für Einsteiger mit Beispielen erklärt
Insbesondere ist DALL·E 2 ein Text-Conditional Hierarchical Image Synthesis-Modell, das Deep Learning für die Verarbeitung natürlicher Sprache mit Computer Vision für die Bilderzeugung kombiniert. Sein Zweck besteht darin, zwei Modelle zu trainieren, und der Trainingssatz besteht aus gepaarten Bildern und Beschreibungen. Der erste ist ein Prior, der, wenn ihm eine schriftliche Beschriftung gegeben wird, trainiert werden kann, eine CLIP-Bildeinbettung zu erzeugen. Dann haben wir einen Decoder, der, wenn er eine CLIP-Bildeinbettung (und, falls vorhanden, eine Beschriftung) erhält, ein trainiertes Bild erzeugen kann.
DALLE 2 wird mit Hunderten Millionen beschrifteter Fotos aus dem Internet trainiert, und einige dieser Bilder werden entfernt und neu gewichtet, um zu variieren, was das Modell lernt. Es bringt viele Variationen des Bildes CLIP-Integrationen und verwendet es dann Entschlüsseler gehen Sie durch jeden von ihnen. Es erstellt dann eine interessante Verschmelzung all dieser Informationen, wobei die Eingaben des Benutzers berücksichtigt werden.
Beispiel DALL·E 2
Lassen Sie uns ein kleines Spiel spielen, um DALL·E zu verstehen. Lassen Sie es uns in die folgenden drei Schritte unterteilen.
- Stellen Sie sich Regenbogen, Wolken und Einhörner vor, die am blauen Himmel fliegen. Stellen Sie sich vor, wie sich das Design in Ihrem Kopf entwickeln kann. Menschen kommen einem perfekten Analogon einer bildlichen Verkörperung am nächsten, und das Bild, das gerade in Ihrem Kopf aufgetaucht ist, ist ein perfektes Beispiel dafür. Sie können das Endprodukt nur erahnen, aber Sie haben eine gute Vorstellung davon, was enthalten sein sollte. Das Prior-Modell führt den Leser von den Worten eines Satzes zu der Szene in seinem Kopf.
- Sie können jetzt mit der Gestaltung beginnen. UnCLIP verwandelt das mentale Bild, das Sie haben, in eine tatsächliche Skizze. Sie können jetzt einen anderen Charakter aus derselben Beschreibung genau nachbilden, mit denselben Grundfunktionen, aber einem völlig neuen visuellen Stil. DALL·E 2 könnte auch einzigartige Bilder aus einem auf diese Weise eingebetteten vorhandenen Bild erstellen.
- Sehen Sie sich die Skizze an, die Sie gemacht haben. Das passiert, wenn Sie die Beschreibung „ein Einhorn mitten in den Wolken, mit dem Regenbogen, der im Hintergrund des Himmels aufgeht“ skizzieren. Untersuchen Sie nun das Bild und den Text, um festzustellen, welches das andere am besten repräsentiert (die Sonne, das Haus, der Baum usw.) und welches das beste Beispiel für das Thema, den Stil, die Farben usw. ist. Was CLIP tut, ist die Merkmale eines Textes und eines Bildes zu codieren.
Nachdem wir nun wissen, was DALL-E ist, gehen wir zum nächsten Abschnitt und verstehen seine Funktionen.
Tipps: So erstellen Sie realistische Bilder mit dem KI-Dienst DALL-E-2
Merkmale von DALL·E 2
Im Folgenden sind die Funktionen von DALL·E 2 aufgeführt.
- Variationen
- Malerei
- Textunterschiede
Lassen Sie uns im Detail darüber sprechen.
1]Variationen
DALL·E 2 geht über die einfache Satz-zu-Bild-Übersetzung hinaus. OpenAI ist in der Lage, mit dem Generierungsprozess zu experimentieren, indem es aufgrund der leistungsstarken Integrationen von CLIP unterschiedliche Ergebnisse für eine bestimmte Beschriftung generiert. Was CLIP in seinem „Gedanken“ „sieht“, ist das, was es von der Eingabe als entscheidend erachtet (bleibt über die Bilder hinweg gleich) und was ersetzt werden kann (Wechsel zwischen Bildern). Wenn möglich, wird DALL·E 2 sowohl “semantische Informationen … als auch ästhetische Aspekte” beibehalten.
2]Malerei
DALL·E 2 kann vorhandene Fotos durch automatisches Malen ändern. Im folgenden Fall ist das linke Bild das Original, während auf dem mittleren und rechten Foto ein Objekt an unterschiedlichen Positionen gemalt ist. DALL·E 2 entspricht dem Plugin im Bildstil. Es aktualisiert auch die Texturen und Reflexionen, um das neue Element widerzuspiegeln.
Lektüre: Dinge, die Sie mit ChatGPT tun können
3]Textunterschiede
DALL·E 2 transformiert Bilder anhand von Textunterschieden. DALL·E 2 verfügt außerdem über erweiterte Interpolationsfähigkeiten, die eine Objektmodifikation ermöglichen. Einer der Twitter-Nutzer konnte sein iPhone “fallen lassen”, gehen Sie zu twitter.com um es zu überprüfen.
Wenn Ihnen diese Funktionen gefallen, müssen Sie nur auf openai.com gehen und sich dann registrieren. Sie können ein neues Konto erstellen oder Ihre vorhandenen Microsoft- oder Google-Konten verwenden, um sich anzumelden. Sobald Sie dies getan haben, erhalten Sie einige kostenlose Credits. Wenn Sie mehr möchten, müssen Sie dafür bezahlen.
Dies sind einige der Funktionen von DALL·E 2, es hat viele großartige Anwendungsfälle, aber es ist immer eine gute Idee, sich nicht zu sehr auf KI-Tools zu verlassen. Am Ende des Tages sind sie nur Werkzeuge, um die Arbeit zu erledigen, sie können niemals die emotionale Intelligenz eines Mannes ersetzen.
Lesen Sie auch: Die besten Deepfake-Apps, -Software und -Websites.