Stable Diffusion 3 als Early Preview – Bildgenerator lernt Schreiben

Mit Version 3 von Stable Diffusion kann der Bildgenerator besser mit Text umgehen. Bildqualität und Multi-Subjects-Prompts sind auch verbessert worden.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

(Bild: Stability AI Blogbeitrag)

Lesezeit: 3 Min.

Stability AI hat Stable Diffusion 3 veröffentlicht, allerdings nur als Early Preview, wie es für KI-Anwendungen derzeit sehr typisch ist. Um die neue Version auszuprobieren, muss man sich auf einer Warteliste eintragen. Dann soll der Bildgenerator deutlich besser mit Text umgehen, also Schrift in den Bildern erzeugen können. Auch die Bildqualität ist laut Stability insgesamt verbessert worden. Zudem kann Stable Diffusion 3 Multi-Subject-Prompts besser verarbeiten, wenn also mehrere Subjekte zu sehen sein sollen, vermengt der Bildgenerator diese nicht mehr in eins.

Den Bildgenerator gibt es derzeit mit 800M bis 8B Parametern. Das soll Nutzern eine "Vielzahl von Optionen für Skalierbarkeit und Qualität bieten, die ihren kreativen Anforderungen am besten gerecht werden". Stable Diffusion 3 kombiniert eine Diffusion-Transformer-Architektur mit Flow Matching. Ein detaillierter Bericht, wie das Modell arbeitet, soll folgen. Freilich habe man auch reichlich Sicherheitsplanken eingebaut, die Missbrauch verhindern sollen. Wie die genau aussehen, ist ebenfalls bisher unbekannt.

Zuletzt hatten die Leitplanken von Googles KI-Chatbot Gemini für derart untragbare Ergebnisse gesorgt, dass der Bildgenerator derzeit keine Bilder mit Personen mehr erstellen darf. Forderte man Gemini auf, Bilder von Soldaten im Zweiten Weltkrieg zu generieren, erzeugte Google Bilder, die Personen afroamerikanischer und asiatischer Abstammung zeigten – keine typischen Soldaten im Zweiten Weltkrieg. Aber: Wie Google bei X erklärt, sollte Gemini eine große Bandbreite verschiedener Menschen zeigen. Ein Versuch, den Bias und Stereotype zu umgehen, ist also quasi zu weit gegangen.

Stability AI verspricht, kontinuierlich in Gesprächen mit Experten und Testern und der Community zu bleiben, um eventuellen Missbrauch und Probleme rechtzeitig zu erkennen. Man gehe auch davon aus, dass das Modell noch weiterentwickelt werde, bevor es für die breiten Massen veröffentlicht wird. "Mit Stable Diffusion 3 möchten wir anpassungsfähige Lösungen anbieten, die es Einzelpersonen, Entwicklern und Unternehmen ermöglichen, ihre Kreativität zu entfesseln, und die mit unserer Mission übereinstimmen, das Potenzial der Menschheit zu aktivieren", heißt es im Blogbeitrag.

Neben Stable Diffusion hat Stability AI auch weitere Bildgeneratoren veröffentlicht, unter dem Namen StableStudio etwa eine Open-Source-Variante. Das unter einer MIT-Lizenz bei Github veröffentlichte StableStudio dient wie das kommerzielle DreamStudio als Interface für die Bilderstellungsmodelle von Stability AI. Das angegliederte Team DeepFloyd hat zudem mit If einen Bildgenerator entwickelt, der auf Schrift in den Bildern spezialisiert ist.

Stability AI steht allerdings auch in der Debatte um generative KI und das Urheberrecht im Fokus. Die Bildagentur Getty Images hat das Startup in Großbritannien verklagt. Es geht um die Frage, ob Stability AI Bilder von Getty nutzen durfte, um die KI-Modelle zu trainieren. Mit den richtigen Prompts generieren Bildgeneratoren sogar das Wasserzeichen, das auf Fotos von Getty Images stets zu sehen ist. Stability AI hat dafür einen Datensatz genutzt, den der eingetragene Verein Laion zur Verfügung gestellt hat. Wobei Laion nicht die Bilder selbst anbietet, sondern Verweise auf die URLs zu den Bildern. Deshalb richtet sich die Klage von Getty Images gegen Stability AI und nicht gegen Laion. Gegen die klagt wiederum ein Fotograf aus Deutschland.

(emw)