KI-Programm "Dall E"

Wie Künstliche Intelligenz aus Sprachanweisungen Bilder macht

Liebe KI, male mir ... einen Rettich im Pyjama mit Laserschwert! Die "Dall E"-Anwendung von Open AI wandelt textbasierte Anweisungen in Illustrationen um – und ist dabei erstaunlich kreativ. Was bedeutet das für Redaktionen und die Kunst?

Hätte ich einen schlechten Tag, würde ich vielleicht die Headline texten: "Skandal: KI droht mit Vernichtung tausender Design-Jobs!" oder "Wir haben’s gewusst! KI diskriminiert Kunstwelt." Da aber heute nicht gestern ist, möchte ich dennoch von meiner letzten kribbelnden Begegnung mit Künstlichen Intelligenzen berichten. "Dall E" wurde von Open AI entwickelt und trainiert, Open AI wurde hier vor einigen Monaten schon vorgestellt, als es noch um Deepfake-Musik ging. "Dall E"ist ein poetisches Kofferwort aus Dalí und Wall E. Surrealismus und Pixar-Filme, das klingt doch abstrus wie vielversprechend.

Kurz zum Technischen. "Dall E" basiert auf dem Sprachmodell GPT-3 und arbeitet bis dato mit zwölf Milliarden Parametern, um aus Textinformationen Bilder zu generieren. GPT-3 hatte sich im Bereich Text bereits gut beweisen können. Dass der Algorithmus nun nach ausreichend Training in der Lage ist, Sprachbefehle in Bilder zu verwandeln, ist auch aus Sicht der Verantwortlichen ein großer Schritt. Es tun sich nämlich viele Anwendungsbereiche auf. Erklärt sich alles viel besser, wenn man paar Bilder dazu sieht. Ein möglicher Textbefehl könnte lauten: "Eine Illustration eines Baby-Rettichs im Pyjama mit blauem Laserschwert!"

Schon ziemlich putzig. Wie wäre es mit einem Emoji, das ein deprimiertes Salamipizzastück darstellt?

Sogar Essen unterschiedlicher Länder kann "Dall E" imaginieren. Hier erkennt man, wie "oberflächlich" tatsächlich die KI funktioniert. Gerade das Essen selbst scheint immer wieder abstrakt, teilweise Alien-haft. Es gibt formal Ähnlichkeiten zu Würsten, aber das Konzept, oder philosophisch gesprochen, die Idee von Wurst erkennt die KI nicht. Wie auch? So zum Beispiel Essen aus Deutschland:

Auch am Beispiel von Essen aus Südkorea ist das Phänomen gut zu erkennen: Äußere Faktoren wie metallene Essstäbchen, Keramikgeschirr, Banchan, eingelassene Tischgrille – alles sehr koreanisch. Das Essen selber – noch nie gesehen.

Ich kann mir für den Redaktionsalltag so eine KI (und die Entwicklung geht ja erst los) dennoch gut vorstellen. Gerade im (Online-)Journalismus stellt man sich oft die Frage, welches Bild für einen Beitrag genutzt werden kann oder darf, ohne gleich Post vom Anwalt zu bekommen. Und die Datenbank von Unsplash hat gefühlt jede Redaktion auch schon zehnmal durchgenudelt.

Oder wenn Textverantwortliche für das Grafik-Team mal wieder tolle Ideen haben: "Wie wär’s fürs Cover mit einer Wurst, die aussieht wie Angela Merkel, die auf die Impfung wartet? Von wegen Tönnies und so?" Mit "Dall E" wäre so etwas ja schnell skizziert – und hoffentlich genauso schnell wieder vom Tisch.

Mir gefallen ästhetisch auch die fehlerhaften Artefakte der Darstellungen. Dass Zeichnungen, Bilder und Fotos von Gegenständen mit Textbefehlen aus dem Nichts entstehen, bleibt faszinierend und wirft doch auch einige kunsthistorische Fragen auf: Kann hier von bildnerischer Gestaltung, geschweige denn von Intention die Rede sein? Wem gehört die Urheberschaft und was machen solche Maschinenbilder eigentlich mit Künstler:innen? Reagieren oder gar einbetten? Ja, aber wie? Und: Was ist ein Bild? Und wartete die Menschheit nicht schon viel zu lange auf Designer-Stühle, die wie Avocados aussehen?