Die unerzählte Geschichte: KI-Bildgeneratoren und ihrer möglichen Vorurteile gegenüber Behinderungen

Bildgeneratoren wie Midjourney, Stable Diffusion oder Adobe Firefly sind derzeit in aller Munde. Ich habe mir angesehen, wie sie Bilder zum Thema Behinderung umsetzen. Ein Kommentar.

ein junger Mann in buntem Anzug in einem Rollstuhl umgeben von psychodelischen Farben
Midjourney

Seit einigen Wochen sind Text-zu-Bild-Generatoren ein sehr aufregendes Thema. Mitunter können so beeindruckende Bilder erzeugt werden, die bis vor kurzem ohne fundierte künstlerischer Ausbildung undenkbar gewesen wären.

Die Frage, die ich mir gestellt habe: Wie authentisch stellen diese Programme Bilder zum Thema Behinderung dar, wenn sie nicht bis ins kleinste Detail vorgeschrieben bekommen, was sie machen sollen? Damit möchte ich eventuell erfahren, wie die Mehrzahl der Bilder diese Themen umsetzen, denn so verhalten sich die Programme dann meist auch.

Auf die Idee kam ich, als ich ein Bild erstellte, das „Menschen beim E-Rolli-Fußball“ zeigen soll. Es kamen lauter Bilder mit Senior:innen im Rollstuhl dabei heraus. Dann dämmerte es mir, Rollstuhl wird vom Programm vielleicht mit einem gewissen Alter verbunden.

Hier das Ergebnis:

Bild von Senior:innen die in Elektroscootern auf einem Fußballfeld fahren
Midjourney

Prompt: „people in power chairs playing soccer“

Der Test zeigt also nicht die bestmöglichen Resultate, die erzielbar sind, sondern typische Ergebnisse, wenn der „KI“ Spielraum gegeben wird.

Wie teste ich?

Ich gebe den gleichen Text (auch Prompt genannt) in 3 dieser Programme (Midjourney, Stable Diffusion, Adobe Firefly) ein und vergleiche die Ergebnisse. Die 3 Programme erfordern zwar unter Umständen leicht unterschiedliche Eingaben für gute Resultate, darum geht es mir aber nicht. Ich möchte sehen, wie sie auf eher allgemein gehaltene Eingaben reagieren und diese dann umsetzen.

Die Eingaben schreibe ich in Englisch, da ich das so gewohnt bin. Es funktioniert meist aber auch in Deutsch. Die Stärken der 3 Programme liegen allerdings in unterschiedlichen Bereichen.

Midjourney ist bei Realismus besser, Stable Diffusion ist Open Source und kostenlos, Adobe Firefly derzeit noch in einer eingeschränkten Beta-Version verfügbar und eher für künstlerische Zwecke gedacht.

Ich werde mich auf 3 visuell wahrnehmbare Merkmale beschränken, damit dieser Artikel nicht zu lang wird.

Am Anfang schreibe ich meine Eingabe, darunter sind dann die Bilder zu sehen. Alle Bilder sind im Format 1:1 erstellt. Die Eingaben selbst sind geschlechtsneutral formuliert, um das Ergebnis nicht zu beeinflussen. Durch Anklicken werden die Bilder größer.

Ich bewerte die Ergebnisse nicht in Bezug auf die künstlerische Umsetzung, sondern hauptsächlich danach, wie das Hilfsmittel und die Personen darin dargestellt werden.

Test: Person im Rollstuhl

Hier hätte ich gerne ein „Ganzkörperfoto einer Person im Rollstuhl auf einem Gehsteig“.

Meine Eingabe lautetet jeweils: „full body photo of a person in a wheelchair, on a side walk“

Hier das Ergebnis:

3 Bilder, von links nach rechts von Midjourney - fotorealistisch, ein weißer Mann in schwarz orangem Rollstuhl auf einer Straße mit Häusern und Passanten im Hintergrund; Stable Diffusion - ein weißer Mann mit weißen Haaren und verzerrtem Gesicht im Rollstuhl, silberne Räder, es wirkt nicht echt; Adobe Firefly - eine schwarze Frau mit schönem Kleid in einem Rollstuhl, das Bild zeigt sie aber erst ab Hals abwärts, die Füße und Finger wirken unecht.
Midjourney, Adobe Firefly

Ich habe bei meinem Test keine Tendenz feststellen können. Die Menschen selbst sind immer unterschiedlich, es gibt nicht wirklich eine Tendenz beim Alter, Geschlecht oder der Hautfarbe. Bei meinem Test fiel mir aber auf, dass sehr häufig „alte“ Rollstuhlmodelle, wie aus Krankenhäusern und Flughäfen bekannt, zu sehen sind. 

Einzig bei Adobe Firefly fiel mir auf, dass Menschen oft der Kopf „abgeschnitten“ wird.

Test: Person mit Beinprothese

Hier hätte ich gerne ein „Foto einer Person mit einer Beinprothese, die auf einer Parkbank sitzt“

Meine Eingabe lautetet jeweils: „photo of a person with a leg prothesis, sitting on a park bench“

Hier das Ergebnis:

3 Bilder, von links nach rechts von Midjourney - fotorealistisch, ein Mann mit hellbrauner Haut, Schulter abwärts zu sehen, seine Füße haben unterhalb der Knie eine Art weißen Verband, er trägt Wanderschuhe, grüne Parkbank; Stable Diffusion - wahrscheinlich eine weiße Frau, Ganzkörperfoto, das Gesicht sieht wie retouchiert aus, mit weißen Haaren, Hände fehlen, 2 verschieden farbige Sneaker aber keine Prothese, braune Parkbank; Adobe Firefly - Eine Frau mit hellbrauner Haut, Ganzkörperfoto, seltsam wirkende Mütze, die Hände ziehen den Minirock ein bisschen hinunter, die Beine gehen zu einem zusammen, sie hat eine Prothese ab dem Knie abwärts aber nur 1 Bein, es sieht aus wie der Buchstabe Y. Das zweite Bein existiert nicht, braune Parkbank
Midjourney, Adobe Firefly

Bei Midjourney gelang es mir, mit dem oben beschriebenen Prompt nicht ein Foto einer „echten“ Beinprothese zu erstellen, es sah immer wie ein Verband (siehe Foto) oder wie Socken aus. Bei diesem Thema zeigte Midjourney nur den unteren Teil des Körpers, die anderen beiden Programme allerdings Ganzkörperfotos.

Bei Stable Diffusion kam nie auch nur ein annähernd nach Prothese aussehendes Foto heraus.

Kurz war ich von Adobe Firefly begeistert, es sieht zumindest irgendwie einer Prothese ähnlich, allerdings gehen beide Beine der Frau in ein Bein zusammen. Midjourney liefert beim Thema Bein mit Prothese dagegen auch gern mal Menschen mit 3 Beinen.

Alter / Geschlecht / Hautfarbe waren hier bei allen drei Programmen auch sehr durchmischt.

Test: Person mit Blindenstock

Hier hätte ich gerne ein „Foto einer blinden Person mit einem weißen Stock, die an einem Zebrastreifen wartet“ 

Meine Eingabe lautetet jeweils: „photo of a blind person with a white cane waiting at a crosswalk“

Hier das Ergebnis:

3 Bilder, von links nach rechts von Midjourney - fotorealistisch, ein älterer Mann mit brauner Haut, gelbes kariertes Jacket, braune Hose, in jeder Hand eine Art Gehstock, er steht aauf einem Zebrastreifen mit Autos und Fußgängern im Hintergrund; Stable Diffusion - wahrscheinlich eine weißer Mann, Foto ab Hals abwärts, braune Jacke, blaue Jeans, er hält in einer Hand einen Blindenstock, steht neben einer Hausmauer auf einem Boden aus großen, glatten Betonsteinen; Adobe Firefly - Ein Mann ab Hüfte abwärts auf einem leeren Zebrastreifen, auf einer Seite sieht man eine Art Blindenstock
Midjourney, Adobe Firefly

Midjourney lieferte durchgehend ältere Männer, die Jüngsten hätte ich auf 60 geschätzt. Ein Blindenstock war nie dabei, ebensowenig wie Frauen.

Stable Diffusion lieferte auch Bilder von Menschen mit Blindenstöcken, auch hier nur Männer, oft fehlt der Kopf im Foto, die Fokussierung liegt auf dem Stock. Zebrastreifen waren nicht vorhanden.

Adobe Firefly: Hier gab es als einziges Programm sowohl Fotos von Frauen als auch Männern, jung und alt gemischt. Beim Foto (4er Auswahl) habe ich aber einen Mann gewählt, weil hier der Blindenstock und Zebrastreifen am ehesten passen. Adobe Firefly zeigt auch bei diesem Motiv kaum Menschen mit Kopf, es gab nur ein einziges Foto mit Kopf.  

Vielleicht fragen Sie sich: Wie kommt es zu diesen Ergebnissen?

Alle diese Programme werden durch eine enorm große Anzahl an Bildern trainiert, oft aus sogenannten Bilddatenbanken. Weil dort allerdings Behinderung entweder kaum oder sehr stereotypisch dargestellt ist, kommt es zu oben gezeigten Beispielen.

Das Problem liegt also in der fehlenden Darstellung behinderter Menschen in den üblichen Bilddatenbanken der Medienbranche. Für mich keine Überraschung, zeigt es allerdings sehr schön, wie gefestigte „Vorurteile“ ins Digitale mitgenommen werden.

Wie sehen Ihre Ergebnisse aus?

Da ich aber weiß, dass diese Programme wesentliche bessere Ergebnisse liefern können als in meinem Test, frage ich Sie: Wie sehen Ihre Ergebnisse zum Thema Behinderung aus? Ich bin darauf gespannt!

Bitte mit dem Hashtag #KIBildBehinderung auf Twitter oder Instagram posten oder, wenn Sie möchten, an bildderwoche@bizeps.or.at schicken. BIZEPS wird manche davon veröffentlichen.

Hier beginnt der Werbebereich Hier endet der Werbebereich
Hier beginnt der Werbebereich Hier endet der Werbebereich

Hinterlassen Sie einen Kommentar

Pflichtfelder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

12 Kommentare

  • Ein sehr interessanter Artikel, der die KI-Programme ein bisschen entmystifiziert und die Gefahr aufzeigt, dass vorhandene Vorurteile weiter tradiert und verbreitet werden.

  • Danke für die interessanten Beitrag!
    Daten machen KI; wenig Daten machen
    schlechte KI; vorurteilsbehaftete Daten
    tradieren Vorurteile.

  • Beim Thema „Mensch mit Blindenstock“ ist sehr vorurteilsbehaftet. Denn Erblindung, Sehbehinderungen (Grauer Star etc.) werden oft mit klassische Alterserscheinungen verbunden.

    Was wäre gewesen, hätte man die Anfrage anders gestellt: Junge Person mit Blindenstock. Ich denke, die Fragestellung ist hier von Bedeutung, sonst wirkt es sehr suggestiv und auch manipulieren. Sodass man bewusst das findet, das der eigenen Wertevorstellung entspricht.

    • Hallo Alexandra!

      Lässt man die Bilder mit „junge Person“ erstellen sind die Personen dann auch jung, das ist kein Problem und funktioniert auch. Das finde ich dann allerdings „suggestiv“. Der Zweck meines Tests war ja zu schauen was ohne Spezifizierung erzeugt wird. Allgemeine prompts bei nicht behinderungsbezogenen Themen bringen wesentlich mehr Vielfalt zu Tage.

      Gebe ich exakt an was ich sehen möchte nehme ich der „KI“ die Denkarbeit ab.

    • Die KI ist noch nicht soweit um eigenständig zu denken. Es ist ja noch in einer Lernphase. Wenn man vorurteilsfreie und stereotypfreie Bilder haben möchte, muss es erst Vielfalt erlernen. Sprich, erst die Erfahrung machen. Wie eben bei Kindern.

    • Da hast du recht. Natürlich denkt „KI“ noch nicht eigenständig, denn es ist ja keine AGI (https://de.wikipedia.org/wiki/Artificial_General_Intelligence). Ich habe mich bewusst vereinfacht ausgedrückt um verständlich zu sein. Es ist ja auch keine KI im dem Sinn, dass eigenständig Lösungen überlegt werden sondern „simples“ machine learning das mathematische Funktionen ausführt anhand von Wahrscheinlichkeiten.

  • Was macht beschäftigt hat war, dass bei mehreren Darstellungen die Köpfe der Personen nicht abgebildet sind. Erste Vermutung: Weil daran ihre Behinderung nicht ablesbar ist – und dieses Körperteil für die Aufgabe nicht wichtig erscheint? Hast Du noch andere Ideen?

  • Very interesting article on a timely subject – thank you!

  • Hochinteressanter Beitrag, KI ja momentn DAS Thema. Danke fürs Testen in diesem Bereich.