Am 13. Mai 2024 hat OpenAI ihr neuestes Sprachmodell namens GPT-4o vorgestellt. Es wird spannend!
Künstliche Intelligenz und im Speziellen ChatGPT sind mittlerweile in der Bevölkerung angekommen. ChatGPT erlaubt es, in natürlich Sprache mit dem Computer zu kommunizieren und sich Fragen beantworten zu lassen.
Das neue Modell GPT-4o von OpenAI ist am 13. Mai 2024 vorgestellt worden. Es ist ein sogenanntes multimodales Modell, das heißt, es kann Text, Sprache, Bilder und Videos verarbeiten.
Veröffentlicht wurde bisher nur die Sprachverarbeitung, die Bildverarbeitungsmöglichkeiten werden nach und nach freigeschalten. Spannend aber werden die audiovisuellen Möglichkeiten von Echtzeit-Sprachübersetzungen bis hin zur Live-Unterstützung. Beim Lernen soll vieles möglich sein.
Aus der Barrierefreiheitsperspektive hat folgendes Video für Aufsehen gesorgt, bei dem Andy von Be My Eyes sich seine Umgebung live beschreiben lässt, also nicht – wie bisher – durch Foto machen und auf die Beschreibung warten.
Es gibt zwar bereits Apps, die Umgebungsbeschreibungen in Echtzeit durchführen, wie beispielsweise Seeing AI oder Lookout, aber nicht in so einer natürlichen Art und mit dieser Qualität. Ich bin gespannt, wann diese Funktionen freigeschalten werden.
Die App „Be My Eyes“ wird voraussichtlich wieder von Anfang an dabei sein, wie damals bei GPT-4 und den Bildbeschreibungen.
Welche neuen Anwendungsfälle sich damit für KI-basierte Assistenztechnologien ergeben, ist noch gar nicht vollständig abzusehen.