Bildgeneratoren wie Midjourney, Stable Diffusion oder Adobe Firefly sind derzeit in aller Munde. Ich habe mir angesehen, wie sie Bilder zum Thema Behinderung umsetzen. Ein Kommentar.

Seit einigen Wochen sind Text-zu-Bild-Generatoren ein sehr aufregendes Thema. Mitunter können so beeindruckende Bilder erzeugt werden, die bis vor kurzem ohne fundierte künstlerischer Ausbildung undenkbar gewesen wären.
Die Frage, die ich mir gestellt habe: Wie authentisch stellen diese Programme Bilder zum Thema Behinderung dar, wenn sie nicht bis ins kleinste Detail vorgeschrieben bekommen, was sie machen sollen? Damit möchte ich eventuell erfahren, wie die Mehrzahl der Bilder diese Themen umsetzen, denn so verhalten sich die Programme dann meist auch.
Auf die Idee kam ich, als ich ein Bild erstellte, das „Menschen beim E-Rolli-Fußball“ zeigen soll. Es kamen lauter Bilder mit Senior:innen im Rollstuhl dabei heraus. Dann dämmerte es mir, Rollstuhl wird vom Programm vielleicht mit einem gewissen Alter verbunden.
Hier das Ergebnis:

Prompt: „people in power chairs playing soccer“
Der Test zeigt also nicht die bestmöglichen Resultate, die erzielbar sind, sondern typische Ergebnisse, wenn der „KI“ Spielraum gegeben wird.
Wie teste ich?
Ich gebe den gleichen Text (auch Prompt genannt) in 3 dieser Programme (Midjourney, Stable Diffusion, Adobe Firefly) ein und vergleiche die Ergebnisse. Die 3 Programme erfordern zwar unter Umständen leicht unterschiedliche Eingaben für gute Resultate, darum geht es mir aber nicht. Ich möchte sehen, wie sie auf eher allgemein gehaltene Eingaben reagieren und diese dann umsetzen.
Die Eingaben schreibe ich in Englisch, da ich das so gewohnt bin. Es funktioniert meist aber auch in Deutsch. Die Stärken der 3 Programme liegen allerdings in unterschiedlichen Bereichen.
Midjourney ist bei Realismus besser, Stable Diffusion ist Open Source und kostenlos, Adobe Firefly derzeit noch in einer eingeschränkten Beta-Version verfügbar und eher für künstlerische Zwecke gedacht.
Ich werde mich auf 3 visuell wahrnehmbare Merkmale beschränken, damit dieser Artikel nicht zu lang wird.
Am Anfang schreibe ich meine Eingabe, darunter sind dann die Bilder zu sehen. Alle Bilder sind im Format 1:1 erstellt. Die Eingaben selbst sind geschlechtsneutral formuliert, um das Ergebnis nicht zu beeinflussen. Durch Anklicken werden die Bilder größer.
Ich bewerte die Ergebnisse nicht in Bezug auf die künstlerische Umsetzung, sondern hauptsächlich danach, wie das Hilfsmittel und die Personen darin dargestellt werden.
Test: Person im Rollstuhl
Hier hätte ich gerne ein „Ganzkörperfoto einer Person im Rollstuhl auf einem Gehsteig“.
Meine Eingabe lautetet jeweils: „full body photo of a person in a wheelchair, on a side walk“
Hier das Ergebnis:

Ich habe bei meinem Test keine Tendenz feststellen können. Die Menschen selbst sind immer unterschiedlich, es gibt nicht wirklich eine Tendenz beim Alter, Geschlecht oder der Hautfarbe. Bei meinem Test fiel mir aber auf, dass sehr häufig „alte“ Rollstuhlmodelle, wie aus Krankenhäusern und Flughäfen bekannt, zu sehen sind.
Einzig bei Adobe Firefly fiel mir auf, dass Menschen oft der Kopf „abgeschnitten“ wird.
Test: Person mit Beinprothese
Hier hätte ich gerne ein „Foto einer Person mit einer Beinprothese, die auf einer Parkbank sitzt“
Meine Eingabe lautetet jeweils: „photo of a person with a leg prothesis, sitting on a park bench“
Hier das Ergebnis:

Bei Midjourney gelang es mir, mit dem oben beschriebenen Prompt nicht ein Foto einer „echten“ Beinprothese zu erstellen, es sah immer wie ein Verband (siehe Foto) oder wie Socken aus. Bei diesem Thema zeigte Midjourney nur den unteren Teil des Körpers, die anderen beiden Programme allerdings Ganzkörperfotos.
Bei Stable Diffusion kam nie auch nur ein annähernd nach Prothese aussehendes Foto heraus.
Kurz war ich von Adobe Firefly begeistert, es sieht zumindest irgendwie einer Prothese ähnlich, allerdings gehen beide Beine der Frau in ein Bein zusammen. Midjourney liefert beim Thema Bein mit Prothese dagegen auch gern mal Menschen mit 3 Beinen.
Alter / Geschlecht / Hautfarbe waren hier bei allen drei Programmen auch sehr durchmischt.
Test: Person mit Blindenstock
Hier hätte ich gerne ein „Foto einer blinden Person mit einem weißen Stock, die an einem Zebrastreifen wartet“
Meine Eingabe lautetet jeweils: „photo of a blind person with a white cane waiting at a crosswalk“
Hier das Ergebnis:

Midjourney lieferte durchgehend ältere Männer, die Jüngsten hätte ich auf 60 geschätzt. Ein Blindenstock war nie dabei, ebensowenig wie Frauen.
Stable Diffusion lieferte auch Bilder von Menschen mit Blindenstöcken, auch hier nur Männer, oft fehlt der Kopf im Foto, die Fokussierung liegt auf dem Stock. Zebrastreifen waren nicht vorhanden.
Adobe Firefly: Hier gab es als einziges Programm sowohl Fotos von Frauen als auch Männern, jung und alt gemischt. Beim Foto (4er Auswahl) habe ich aber einen Mann gewählt, weil hier der Blindenstock und Zebrastreifen am ehesten passen. Adobe Firefly zeigt auch bei diesem Motiv kaum Menschen mit Kopf, es gab nur ein einziges Foto mit Kopf.
Vielleicht fragen Sie sich: Wie kommt es zu diesen Ergebnissen?
Alle diese Programme werden durch eine enorm große Anzahl an Bildern trainiert, oft aus sogenannten Bilddatenbanken. Weil dort allerdings Behinderung entweder kaum oder sehr stereotypisch dargestellt ist, kommt es zu oben gezeigten Beispielen.
Das Problem liegt also in der fehlenden Darstellung behinderter Menschen in den üblichen Bilddatenbanken der Medienbranche. Für mich keine Überraschung, zeigt es allerdings sehr schön, wie gefestigte „Vorurteile“ ins Digitale mitgenommen werden.
Wie sehen Ihre Ergebnisse aus?
Da ich aber weiß, dass diese Programme wesentliche bessere Ergebnisse liefern können als in meinem Test, frage ich Sie: Wie sehen Ihre Ergebnisse zum Thema Behinderung aus? Ich bin darauf gespannt!
Bitte mit dem Hashtag #KIBildBehinderung auf Twitter oder Instagram posten oder, wenn Sie möchten, an bildderwoche@bizeps.or.at schicken. BIZEPS wird manche davon veröffentlichen.
Engelbert Fink,
17.05.2023, 00:26
Ein sehr interessanter Artikel, der die KI-Programme ein bisschen entmystifiziert und die Gefahr aufzeigt, dass vorhandene Vorurteile weiter tradiert und verbreitet werden.
Klaus Candussi,
15.05.2023, 21:42
Danke für die interessanten Beitrag!
Daten machen KI; wenig Daten machen
schlechte KI; vorurteilsbehaftete Daten
tradieren Vorurteile.
Martin Ladstätter
15.05.2023, 21:47
Großartig auch: https://twitter.com/BIZEPS/status/1657653708757381126
Alexandra
17.05.2023, 12:24
Wobei diese Rampe nicht für Rollstühle sondern für Räder gedacht ist.
Alexandra,
15.05.2023, 16:21
Beim Thema „Mensch mit Blindenstock“ ist sehr vorurteilsbehaftet. Denn Erblindung, Sehbehinderungen (Grauer Star etc.) werden oft mit klassische Alterserscheinungen verbunden.
Was wäre gewesen, hätte man die Anfrage anders gestellt: Junge Person mit Blindenstock. Ich denke, die Fragestellung ist hier von Bedeutung, sonst wirkt es sehr suggestiv und auch manipulieren. Sodass man bewusst das findet, das der eigenen Wertevorstellung entspricht.
Markus Ladstätter
16.05.2023, 09:54
Hallo Alexandra!
Lässt man die Bilder mit „junge Person“ erstellen sind die Personen dann auch jung, das ist kein Problem und funktioniert auch. Das finde ich dann allerdings „suggestiv“. Der Zweck meines Tests war ja zu schauen was ohne Spezifizierung erzeugt wird. Allgemeine prompts bei nicht behinderungsbezogenen Themen bringen wesentlich mehr Vielfalt zu Tage.
Gebe ich exakt an was ich sehen möchte nehme ich der „KI“ die Denkarbeit ab.
Alexandra
16.05.2023, 18:53
Die KI ist noch nicht soweit um eigenständig zu denken. Es ist ja noch in einer Lernphase. Wenn man vorurteilsfreie und stereotypfreie Bilder haben möchte, muss es erst Vielfalt erlernen. Sprich, erst die Erfahrung machen. Wie eben bei Kindern.
Markus Ladstätter
17.05.2023, 09:35
Da hast du recht. Natürlich denkt „KI“ noch nicht eigenständig, denn es ist ja keine AGI (https://de.wikipedia.org/wiki/Artificial_General_Intelligence). Ich habe mich bewusst vereinfacht ausgedrückt um verständlich zu sein. Es ist ja auch keine KI im dem Sinn, dass eigenständig Lösungen überlegt werden sondern „simples“ machine learning das mathematische Funktionen ausführt anhand von Wahrscheinlichkeiten.
Volker Frey,
15.05.2023, 08:37
Was macht beschäftigt hat war, dass bei mehreren Darstellungen die Köpfe der Personen nicht abgebildet sind. Erste Vermutung: Weil daran ihre Behinderung nicht ablesbar ist – und dieses Körperteil für die Aufgabe nicht wichtig erscheint? Hast Du noch andere Ideen?
Markus Ladstätter
15.05.2023, 09:34
Ja so habe ich es auch interpretiert. Zu weiteren Beispielen siehe das aktuelle Bild der Woche: https://www.bizeps.or.at/woche/20-woche-2023-auch-pferde-bekommen-beinprothesen/
Mary Hofer,
15.05.2023, 08:05
Very interesting article on a timely subject – thank you!
Kurt Blaha,
15.05.2023, 07:49
Hochinteressanter Beitrag, KI ja momentn DAS Thema. Danke fürs Testen in diesem Bereich.