DALL-E

DALL-E (stilisiert als DALL·E) und die Nachfolger DALL-E 2 und DALL-E 3 sind von OpenAI entwickelte Computerprogramme, die Bilder aus Textbeschreibungen aufgrund von maschinellem Lernen erstellen können. Der Name ist ein Kofferwort aus dem kleinen animierten Roboter Wall-E aus dem gleichnamigen Film und dem spanischen Surrealisten Salvador Dalí.[1] Das Programm nutzt künstliche neuronale Netzwerke, ⁣um Wörter als Input in Anordnungen von Pixeln als Output zu transferieren. Mithilfe von Textanordnungen können von dem Programm fotorealistische Bilder erstellt werden.[2] Die künstliche Intelligenz kann dabei völlig neue Konzepte abbilden und Bilder in verschiedenen künstlerischen Stilrichtungen kreieren.[3] Um Bilder erzeugen zu können, wurde das Modell mithilfe von Millionen im Internet verfügbaren Bildern trainiert. Das Programm basiert auf dem ebenfalls von OpenAI entwickelten Generative Pre-trained Transformer 3 (GPT-3), einem Textgenerator, welcher Texte, Textzusammenfassungen und sogar Gedichte verfassen kann.[4]

DALL-E
Ein Bildgenerator basierend auf einer AI mit modernster Technik
Bild-Generator
Sprachen Englisch
Gründer OpenAI
Betreiber OpenAI
Benutzer mehr als 1.500.000
Registrierung Ja
Online seit Jan. 2021
(aktualisiert 12. Mai 2023)
https://labs.openai.com/

Technologie

Von DALL-E 2.0 generiertes Bild zum Text “A Shiba Inu dog wearing a beret and black turtleneck”

Das Generative Pre-Trained-Transformer-(GPT)-Modell wurde ursprünglich von OpenAI im Jahr 2018 unter Verwendung einer Transformer-Architektur entwickelt.[5] Die erste Iteration, GPT, wurde skaliert, um GPT-2 im Jahr 2019 zu produzieren; 2020 wurde es erneut skaliert, um GPT-3 mit 175 Milliarden Parametern zu produzieren. Das Modell von DALL-E ist eine multimodale Implementierung von GPT-3 mit 12 Milliarden Parametern, die „Text gegen Pixel austauscht“, trainiert mit Text-Bild-Paaren aus dem Internet. DALL-E 2 verwendet 3,5 Milliarden Parameter, weniger als sein Vorgänger.[5]

DALL-E wurde in Verbindung mit CLIP (Contrastive Language-Image Pre-training) entwickelt und der Öffentlichkeit vorgestellt. CLIP ist ein separates Modell, das auf Zero-Shot-Lernen basiert und mit 400 Millionen Bildpaaren mit Textbeschriftungen aus dem Internet trainiert wurde. Seine Aufgabe besteht darin, die Ausgabe von DALL-E zu „verstehen und einzustufen“, indem vorhergesagt wird, welche Beschriftung aus einer Liste von 32.768 zufällig aus dem Datensatz ausgewählten Beschriftungen (von denen eine die richtige Antwort war) für ein Bild am besten geeignet ist. Dieses Modell wird verwendet, um eine größere anfängliche Liste von Bildern zu filtern, die von DALL-E generiert wurden, um die am besten geeigneten Ausgaben auszuwählen.

DALL-E 2 verwendet ein Diffusionsmodell, das auf CLIP-Bildeinbettungen konditioniert ist, die während der Inferenz aus CLIP-Texteinbettungen durch ein früheres Modell generiert werden.

Versionsüberblick

DALL-E wurde am 5. Januar 2021 von OpenAI vorgestellt.[6] Bei der Ankündigung hieß es, die Software befinde sich noch in der Forschungsphase und der Zugang sei auf vorab ausgewählte Betanutzer beschränkt. Das Modell kann immer noch schwerwiegende Fehler machen, auch solche, die kein Mensch machen würde.[7] Die verbesserte Version DALL-E 2.0 wurde im April 2022 vorgestellt.[8] Öffentlich verfügbar ist seit dem 21. April 2022 die weniger leistungsfähige Version Craiyon (anfangs bekannt als DALL-E mini), welche auf dem Quellcode von DALL-E beruht. Die surrealen Bilder des Modells wurden prompt von Internetnutzern zur Erstellung von Memes benutzt.[9][10]

Im September 2022 wurde die allgemeine Verfügbarkeit von DALL-E 2.0 bekannt gegeben.[11][12]

Meinungen zu DALL-E

Die Leistungsfähigkeit des Modells wurde als „beeindruckend“[1] und „unheimlich“[13] bezeichnet. Manche Beobachter sahen es als Zeichen für die starken Fortschritte im Machine Learning. Entwickler von OpenAI und Sam Altman, der CEO, erklärten DALL-E zu einem entscheidenden Schritt auf dem Weg zu Artificial General Intelligence. Andere widersprachen, es handle sich bei DALL-E um keine mit dem Menschen vergleichbare Intelligenz, da es keinerlei generelles Verständnis von Konzepten ausweist. Zudem würde es weiterhin viele Fehler machen, die auf dem fehlenden Verständnis für Objekte in der physischen Welt beruhen.[14] Das Modell könnte dennoch starken Einfluss auf Künstler und Grafikdesigner haben.[15] Die Generierung von Desinformation und gefälschten Bildern wurde in einem Artikel der New York Times befürchtet.[16] Auch könnte das Programm eine kulturelle Voreingenommenheit besitzen, da es allein auf der englischen Sprache beruht und die Bilder zum Training des Programms zum größten Teil aus dem westlichen Kulturkreis stammen und generierte Bilder deshalb stereotype Vorstellungen widerspiegeln können.[9]

Siehe auch

Commons: DALL-E – Sammlung von Bildern

Literatur

  • Jens Knappe: Genesis. Eine Schöpfungsgeschichte in Zusammenarbeit mit einer Künstlichen Intelligenz. Berlin 2022, ISBN 978-3-940948-45-8.

Einzelnachweise

  1. AI draws dog-walking baby radish in a tutu. In: BBC News. 6. Januar 2021 (bbc.com [abgerufen am 25. Juni 2022]).
  2. Vladimir Alexeev: Kann DALL-E 2 fotorealistische Bilder erzeugen? In: MIXED. 19. Juni 2022, abgerufen am 25. Juni 2022 (deutsch).
  3. OpenAI’s DALL-E creates plausible images of literally anything you ask it to. In: TechCrunch. Ehemals im Original (nicht mehr online verfügbar); abgerufen am 25. Juni 2022 (amerikanisches Englisch).@1@2Vorlage:Toter Link/social.techcrunch.com (Seite nicht mehr abrufbar. Suche in Webarchiven)
  4. Farhad Manjoo: Opinion | How Do You Know a Human Wrote This? In: The New York Times. 29. Juli 2020, ISSN 0362-4331 (nytimes.com [abgerufen am 25. Juni 2022]).
  5. Was ist GPT-3 und spricht das Modell Deutsch? In: Lernen wie Maschinen – Blog über KI, Maschinelles Lernen & Robotik. KI-Pedia, 13. Januar 2023, abgerufen am 16. Januar 2023.
  6. DALL·E: Creating Images from Text. In: OpenAI. 5. Januar 2021, abgerufen am 25. Juni 2022 (englisch).
  7. Move over Photoshop: OpenAI has just revolutionized digital image making. In: Fortune. Abgerufen am 25. Juni 2022 (englisch).
  8. DALL·E 2. In: OpenAI. Abgerufen am 25. Juni 2022 (englisch).
  9. Jörg Breithut: DALL-E 2 und Google Imagen: Die Text-zu-Quatsch-Generatoren. In: Der Spiegel. 18. Juni 2022, ISSN 2195-1349 (spiegel.de [abgerufen am 25. Juni 2022]).
  10. Ana Diaz: People are using DALL-E mini to make meme abominations — like pug Pikachu. In: Polygon. 15. Juni 2022, abgerufen am 25. Juni 2022 (amerikanisches Englisch).
  11. DALL·E Now Available Without Waitlist. In: openai.com. 28. September 2022, abgerufen am 30. Oktober 2022 (englisch).
  12. Bildgenerator DALL-E 2 ist jetzt offen für alle. In: Spiegel Online. 29. September 2022, abgerufen am 30. Oktober 2022.
  13. Jeff Parsons: Dall.E mini: The AI image generator everyone's using to make wild memes. In: Metro. 10. Juni 2022, abgerufen am 25. Juni 2022 (englisch).
  14. Gary Marcus: Horse rides astronaut. In: The Road to AI We Can Trust. 28. Mai 2022, abgerufen am 25. Juni 2022.
  15. Artnet News: A New System Called DALL-E Seems to Have Cracked the Code on True AI-Generated Art. The Implications Are Staggering. 13. April 2022, abgerufen am 25. Juni 2022 (amerikanisches Englisch).
  16. Cade Metz: Meet DALL-E, the A.I. That Draws Anything at Your Command. In: The New York Times. 6. April 2022, ISSN 0362-4331 (nytimes.com [abgerufen am 25. Juni 2022]).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.