KI im Vergleich zu menschlicher Intelligenz: aktuell gezeigt an vier Bildern (Mat7961)

Worum es hier geht

Vor ein paar Tagen (Stand: 22.6.2024) haben wir Bing/Copilot den Auftrag gegeben, eine junge Mutter auf einem Waldweg zu zeigen, die mit einem Kinderwagen unterwegs ist und telefoniert.

Herausgekommen sind diese vier Bildvorschläge:

Vier KI-generierte Bildvorschläge: Junge Mutter mit Kinderwagen im Wald
KI-generierte Bildvorschläge zu „Junge Mutter mit Kinderwagen im Wald“ (Bing/Copilot, Juni 2024)

Was die KI (noch) nicht kann

Das Interessante ist, dass die KI sich anscheinend nur auf die einzelnen Bildelemente konzentriert hat, aber nicht daran gedacht hat, dass niemand einen zweiten Kinderwagen einsam im Wald stehen lässt – und wohl kaum eine Mutter mit zwei Kinderwagen unterwegs ist.

Das zweite bemerkenswerte Detail: Die Mutter auf dem Bild oben rechts fährt direkt in den Wald hinein. Das ist sehr viel weniger wahrscheinlich als die Situation auf dem Bild unten rechts, wo die Frau möglicherweise vom Telefonieren etwas abgelenkt ist und deshalb nicht mehr geradeaus fährt.

Insgesamt macht die Bildzusammenstellung sehr gut deutlich, was die KI zurzeit noch nicht kann: auf Gedanken kommen, die uns als Menschen sofort kommen würden.

Das ist dieses Über-den-direkten-Auftrag-hinausdenken-Können, das uns Menschen kennzeichnet. Es ist sehr unwahrscheinlich, dass diese Fähigkeit in absehbarer Zeit bei der KI hinzukommt, denn sie hängt mit individuellen Erfahrungen zusammen, die nur ein Mensch für sich machen kann.

Beispiel: Jemand sieht etwas und sagt spontan: „Schau mal, das da vorne erinnert mich an was.“ Das dürfte in dem Fall einmalig sein. Kein anderer hat die gleiche Erfahrung gemacht, ist jetzt in der gleichen Situation und denkt auch noch zur gleichen Zeit daran.

Hoffnung für menschliche Intelligenz

Es gibt also Hoffnung für ein Fortbestehen menschlicher Intelligenz – hoffen wir, dass das in Gesellschaft und Wirtschaft auch genügend gewürdigt wird.

Sind diese Fehler inzwischen überholt? – Und was Weltmodelle damit zu tun haben

Die vier Bilder stammen aus dem Juni 2024 – und man könnte fragen, ob KI-Bildgeneratoren solche Fehler heute noch machen würden. Die Antwort ist zweigeteilt.

Zur Bildqualität: Neuere Modelle (Stand 2025) erzeugen deutlich realistischere und stimmigere Bilder. Die grobe Häufung von Kinderwagen oder die unwahrscheinliche Waldeinfahrt würde heute vielleicht seltener auftreten – aber nicht, weil die KI die Alltagslogik verstanden hat, sondern weil sie mehr und bessere Trainingsdaten gesehen hat. Das ist ein Unterschied, der entscheidend ist.

Das eigentliche Problem bleibt dasselbe: Klassische Bild-KI prüft nicht aktiv, ob eine dargestellte Situation sinnvoll ist. Sie kombiniert Bildelemente statistisch – ohne ein Modell davon, wie die Welt funktioniert. Deshalb sind diese alten Bilder kein überholtes Kuriosum, sondern ein nach wie vor lehrreiches Beispiel: Sie zeigen strukturell, was fehlt.

Der nächste Schritt: Weltmodelle

Genau an dieser Lücke setzen die sogenannten Weltmodelle (englisch: World Models) an, die aktuell intensiv erforscht werden. Die Grundidee: Ein KI-System soll nicht nur Muster aus Daten abrufen, sondern ein internes Modell der Realität aufbauen – mit kausalen Zusammenhängen, räumlichem Verstehen und Alltagslogik. Es soll also „wissen“, dass ein Kinderwagen nicht einfach allein im Wald steht, weil das in der realen Welt keinen Sinn ergibt.

Der KI-Forscher Yann LeCun (Meta AI) argumentiert, dass heutige Sprachmodelle und Bildgeneratoren genau deshalb an ihre Grenzen stoßen: Ihnen fehlt dieses Weltmodell. Seine Forschungsgruppe arbeitet daran, KI-Systeme zu entwickeln, die nicht nur vorhersagen, was als nächstes kommt, sondern die Welt in ihrer Ursache-Wirkungs-Logik simulieren können.

Damit ergibt sich eine doppelte Entwicklung, die man an diesen Bildern gut ablesen kann:

  1. Kurzfristig wird die Bildqualität besser – Fehler werden seltener, aber nicht aus echtem Verstehen heraus, sondern durch mehr Training.
  2. Mittelfristig könnte das Weltmodell-Prinzip tatsächlich dazu führen, dass KI solche Situationen nicht nur besser darstellt, sondern auch bewertet: „Ergibt das Sinn?“

Ob und wann das gelingt, ist offen. Aber die alten Bilder aus dem Wald zeigen auf anschauliche Weise, warum diese Forschungsrichtung überhaupt nötig ist – und welcher Abstand zwischen statistischem Mustererkennen und echtem Weltverstehen noch zu überbrücken ist.

Weitere Infos, Tipps und Materialien