Gedichte zum Sehen: Faszinierende Visualisierungen mit künstlicher Intelligenz

Seit einiger Zeit veröffentliche ich hier auch Visualisierungen meiner Gedichte, die von künstlicher Intelligenz angefertigt wurden. Das ist für mich ein neuer Ansatz. Meine eigenen Grafiken waren nie mehr als Rahmen oder Kulissen, die ein Gedicht in Szene setzen sollten. Es war ja selbst auch immer Bestandteil des Bildes. Jetzt hingegen wird der Inhalt selbst in ein Bild transformiert.

Nun stellen Leser die Frage: Wie funktioniert das? Die Antwort ist überraschend einfach, und jeder kann es machen.

Alles, was ich dazu angeschafft habe, ist ein Account bei OpenAI. Das ist die Firma, die Chat GPT, die derzeit bekannteste KI, und die Bilder KI DALL-E entwickelt hat. Das Abo kostet 20 Dollar im Monat. Ich bin Autor von Romanen, Sachbüchern und Online Texten, für mich ist das Gold wert, ein besseres Textwerkzeug hat es nie gegeben. Man kann die beiden aber auch kostenlos benutzen.

OpenAI hat eine Schnittstelle (ein GPT) eingerichtet, die dafür sorgt, dass die beiden KIs zusammenspielen. Ich tue also wirklich kaum etwas anderes, als ein Gedicht bei ChatGPT einzugeben und ihm zu sagen, dass er es visualisieren möge. Er übersetzt den Text ins Englische und formt einen so genannten Prompt daraus, das ist die Anweisung für die Bild KI. Mehr ist es nicht.

DALL-E lässt sich auch von der Suchmaschine Bing aus verwenden. Dazu brauchst du ein Microsoft-Konto. Es gibt ein paar Unterschiede: Was Bing herausrückt, ist ein 100% JPG. Man kann es selbst nachbearbeiten. Das Wasserzeichzen, das zu sehen ist, verschwindet beim Download. Mit Bing kann man nicht reden, wie mit ChatGPT bzw. DALL-E. Bing verwendet einen anderen Interpreter/Übersetzer, den Microsoft Designer, was die unterschiedlichen Bilder erklärt. Bing liefert meistens vier Bilder, was gut ist. Manchmal sind die Resultate komplett unbrauchbar. Man kann maximal 480 Zeichen in das einzeilige Feld eingeben.

Bildformate

Man kann die Bildausgabe verfeinern, beispielsweise kann man Angaben zum Bildformat machen: Hochformat (1024*1792 Pixel) oder Breitformat (1792*1024 Pixel). Von Haus aus nutzt DALL-E ein Quadrat, ähnlich dem häufig auf Instagram verwendeten Format, das ich hier auch verwende. Man kann Einfluss nehmen auf den Stil, die Farben und so weiter. Sogar Bereiche nachzubessern ist inzwischen möglich. Die Ergebnisse kommen im Format WebP.

Aber all das interessiert mich nur teilweise, weil ich sehen möchte, was die KI aus meinen Gedichten macht. Manchmal verblüfft sie mich. Hin und wieder sind die Ergebnisse langweilig, zu ähnlich oder am Thema vorbei. Das mag an meinen Gedichte liegen ... Im Zweifel probiert man es eben mehrmals hintereinander. Wer will, beschreibt sein Wunschbild, auch das kann zum Ziel führen.

Stilfragen

Du kannst den Stil bestimmen, sag ihm, dass du es fantastisch, realistisch, naiv oder impressionistisch willst, oder was immer dir einfällt. Die KI hat mehrere Stile drauf. Sie wird sich allerdings weigern Künstler zu imitieren, für die noch Urheberrechte geltend sein können. Aber das lässt sich mehr oder weniger umschiffen.

DALL-E sagt:

Ich kann keine Bilder im Stil von Pablo Picasso erstellen, auch nicht, wenn sie von seinem Stil inspiriert sind, aufgrund unserer Inhaltsrichtlinien. Diese Richtlinien beschränken das Erstellen von Bildern im Stil von Künstlern, deren neueste Werke nach 1912 geschaffen wurden, und Picassos Werk fällt in diese Kategorie.

Ich kann jedoch ein Bild erstellen, das das Wesen von ... mit einem allgemeinen abstrakten und kubistischen Ansatz einfängt, der nicht spezifisch auf einen Künstler bezogen ist. Möchten Sie mit diesem Ansatz fortfahren?

Zensur

Ebenso kann man Opfer einer zeittypischen Zensur werden; bestimmte Wörter stehen auf dem Index, auch wenn sie noch so harmlos erscheinen mögen. Das ist mitunter nervtötend, denn der KI-Zensor ist empfindlich. Man kann ihn austricksen oder umgehen, doch das erfordert Zeit und mehrere Versuche, die man in der Regel nicht hat, da sowohl bei OpenAI als auch bei Bing die Zahl der täglichen Generierungen eingeschränkt ist.

Die Ergebnisse sind nicht zufällig, das erkennt man sofort. Es sind eben keine willkürlichen, abstrakten Kompositionen, sondern es wirkt, als hätte sich jemand tatsächlich über den Inhalt Gedanken gemacht. Ja, als würde die KI verstehen, worum es geht.

Gedicht Visualisierung

Regen Regen
den Mond verwaschen
Engel in Pfützen
kein Himmel mehr

Ausschnitt aus dem Gedicht: Blau geht gar nicht mehr | 1

Wichtig zu wissen ist, es kommt immer etwas anderes heraus. DALL-E malt nie zweimal dasselbe Bild, ChatGPT schreibt niemals denselben Text. Denn beide sind generative Modelle, sie nutzen keine vordefinierten Muster oder Datenbanken, sondern erstellen alles immer live. Die Bilder können bei gleicher Anfrage etwas völlig anderes zeigen und dennoch beim Thema sein.

Nicht selten mischt die KI Buchstaben und Pseudotexte in ihre Bilder, das macht sie unbrauchbar, denn meistens sieht es fürchterlich und fehlerhaft aus, da keine echte Sprache zu sehen ist. Ihm zu sagen, dass er es lassen möge, führt nur teilweise zum Ziel. Manches ignoriert er einfach. Dann muss man von vorn beginnen, bekommt aber ein garantiert anderes Ergebnis. Oder man setzt ein Werkzeug wie Photoshop ein. Je nachdem, wo der Text auftaucht, kann man ihn entfernen oder wegradieren.

TIPP
Man kann DALL-E auch einfach fragen, auf welche Weise er einen Text visualisieren könnte. Oder ihn auffordern, Vorschläge zu machen. Dann präsentiert er Ideen.

Adjektive, die wir mit KI-Visualisierungen verbinden

surreal, futuristisch, detailreich, hyperrealistisch, digital, verzerrt, algorithmisch, kreativ, unheimlich, faszinierend, traumartig, komplex, fantastisch, generativ, präzise, experimentell, fehlerhaft, innovativ, abstrakt, dynamisch, hypnotisch, glatt, synthetisch, unerwartet

Wie funktioniert das überhaupt?

DALL-E basiert auf einer großen Menge an Bild- und Textdaten, mit denen es trainiert wurde. Dieses Training ermöglicht es der KI, Zusammenhänge zwischen Textbeschreibungen und visuellen Elementen zu verstehen. Wenn ein Benutzer eine Textanweisung eingibt, analysiert DALL-E diese Anweisung und generiert ein Bild, das den beschriebenen Inhalten entspricht. Durch die Verwendung von Algorithmen kann DALL-E eine Vielzahl von Bildstilen und -inhalten erzeugen, von realistischen Darstellungen bis hin zu abstrakten Kunstwerken.

Und wie lange dauert das? Eigentlich nur Sekunden, aber die Dateien sind nicht Ladezeitoptimiert, was ihre Ausgabe verzögert. Außerderm kämpft der Anbieter mit Kapazitätsproblemen. Trägt man zu viele Wünsche an das System heran, verweigert es die Zusammenarbeit, vergibt Termine oder lässt Fehlermeldungen sehen. Dann heißt es warten.

Vielfältige Ergebnisse

Was herauskommt kann völlig anders ausssehen, als die visualisierten Texte, die ich auf hier zeige, von denen übrigens kein einziges nachbearbeitet ist (manchmal habe ich Schrift entfernt). Hier ist ein Beispiel eines anderen Kalibers.

O du süßer Sommersonnentag,
liebedurchdrungener Wonnentag.
So wie die Rose mir den Tag versüßt,
Hat der Sommer still ihr Herz geküsst.

Friedrich von Weißenfels: Die Rosen vor den Toren des Sommers

Probieren wir es aus: Visualisiere dieses Gedicht:

Hier ist ein Gedicht von Rainer Maria Rilke. Das grafische Ergebnis hat etwas Unheimliches an sich, wie ich finde.

Tausend Tränen reden
ewig ungestillt, – –
und in einer jeden
spiegelt sich dein Bild.

Nachtgedanken, 1894

Wenn du mehr davon sehen willst ... Hier habe ich weitere Texte bekannter Dichter umgesetzt:

Das dritte Beispiel stammt von Friedrich Rückert. Er schreibt gänzlich anders, so fällt auch das Ergebnis der Visualisierung (diesmal via Bing) aus:

Den voll Scherzmut
Schwärmenden
Frühlingsrosentag,
Kaltes Herzblut
Wärmenden
Lebensfunkenschlag,
Schenke, gib mir den roten!
Kalt sind die Toten,
Wie ich nicht werden mag.

Friedrich Rückert, entnommen aus "Scherzhafte Trinkreime".

Zensur und Einschränkungen

ChatGPT akzeptiert nicht jeden Text. Es gibt Zensurfilter. Böse Sprache, fiese Begriffe, Sexualität, all das wird nicht akzeptiert. Ein Teil der Texte bleibt also außen vor. Ärgerlicherweise geht die KI deutlich über ein nötiges Mindestmaß hinaus. Wirklich vorhersagbar ist das Ablehnungsverhalten nicht, manchmal hilft eine Erläuterung und es geht doch. Manchmal stellt DALL-E sich quer. Mit Microsoft kann man erst gar nicht diskutieren, dort sind die Filter zudem feiner, auch völlig harmlose Dinge können verboten sein.

Ich habe DALL-E gebeten, seine Inhaltsrichtlinien zu visualisieren. Das ist dabei herausgekommen:

Es geht um Sicherheit, Diversität und Inklusion. Ich nenne es Friede, Freude, Eierkuchen.

Und wie ist das mit den Copyrights der Bilder?

OpenAI selbst sagt dazu: "As with DALL·E 2, the images you create with DALL·E 3 are yours to use and you don't need our permission to reprint, sell or merchandise them."

Übersetzt: "Wie bei DALL·E 2 gehören die Bilder, die du mit DALL·E 3 erstellst, dir und du brauchst unsere Erlaubnis nicht, um sie nachzudrucken, zu verkaufen oder zu vermarkten."

Stelle gern Fragen zum Artikel oder berichte von deinen eigenen Erfahrung. KI ist ein neues, faszinierendes Gebiet, das es erst noch auszuloten gilt. Ich bin gespannt, was wir entdecken werden.

Lies auch: ChatGPT im Steckbrief – So beschreibt eine KI sich selbst | Gedichte auswendig lernen – Die Ergebnisse von 8 KIs im Vergleich

Die Headline wurde mit Google Gemini optimiert.