Kann generative KI als intelligent gelten?

Veröffentlicht am 23. März 2025 um 14:03

Generative KI bezeichnet eine Klasse von KI-Systemen, die mit Hilfe generativer Modelle eigenständig neue Inhalte erzeugen – sei es Text, Bild, Audio oder sogar Video​. Berühmte Beispiele sind ChatGPT (bzw. das zugrundeliegende GPT-4-Modell) für die Textgenerierung und DALL·E für die Bilderzeugung​. Diese Systeme werden mit gewaltigen Mengen an Daten trainiert, um statistische Muster zu erlernen, und können darauf basierend erstaunlich menschengleiche Antworten, Bilder oder andere Outputs hervorbringen. Ihr Auftauchen hat zu der provokanten Frage geführt, ob solche KI-Modelle im eigentlichen Sinne „intelligent“ genannt werden können oder ob sie lediglich intelligente Leistungen simulieren

 

 

KI Podcast zum Thema: Kann generative KI als Intelligent gelten?  

 

 

Die Frage nach der Intelligenz generativer KI bewegt sowohl technische Fachkreise als auch Philosophen. Auf den ersten Blick lösen Modelle wie ChatGPT Aufgaben, die wir traditionell mit menschlicher Intelligenz verbinden: Sie führen Dialoge, übersetzen Sprachen, schreiben Code und entwerfen kreative Texte. Gleichzeitig fehlt ihnen offenkundig so manche Eigenschaft, die wir bei denkenden Wesen voraussetzen – etwa Bewusstsein oder tatsächliches Verständnis der Inhalte. Im Folgenden soll daher ausgeleuchtet werden, was „Intelligenz“ eigentlich bedeutet, wie generative KI technisch funktioniert, was es mit dem Turing-Test auf sich hat und welche Argumente dafür oder dagegen sprechen, solche Systeme als intelligent zu bezeichnen.

 

Was bedeutet Intelligenz?

Der Begriff Intelligenz ist vielschichtig und wird je nach Disziplin unterschiedlich definiert. In der Psychologie umfasst Intelligenz allgemein die kognitiven Fähigkeiten, schlussfolgernd zu denken, zu planen, Probleme zu lösen, abstrakt zu denken, komplexe Ideen zu verstehen und aus Erfahrung zu lernen.

Vereinfacht gesagt beschreibt Intelligenz also, wie gut ein Wesen (oder potenziell eine Maschine) aus Informationen sinnvolle Schlüsse ziehen und sich an neue Herausforderungen anpassen kann. Diese Fähigkeit wird beim Menschen oft mit Intelligenztests gemessen (z.B. dem IQ), die verschiedene Aufgabentypen abdecken – von logischem Denken über Sprachverständnis bis zu räumlichem Vorstellungsvermögen.

 

Philosophisch wirft Intelligenz darüber hinaus die Frage nach dem Geist und dem Verständnis auf. Ist Intelligenz bloß an beobachtbares Verhalten geknüpft (also daran, was ein Agent tut), oder setzt sie innere mentale Zustände voraus (also das, was ein Agent erlebt oder begreift)? Diese Debatte ist zentral für die KI: Eine Maschine könnte sich nach außen hin intelligent verhalten, ohne die Welt in menschlichem Sinne zu „verstehen“. Einige Philosoph*innen betonen, echte Intelligenz impliziere auch Bewusstsein und Intentionalität (absichtsvolles Bedeutungs-Verstehen) – Konzepte, auf die wir später noch zurückkommen. In der frühen KI-Forschung schlug der Informatiker Alan Turing daher einen pragmatischen Weg vor, Intelligenz rein über Verhaltenskriterien zu bestimmen, ohne das schwer fassbare Innenleben untersuchen zu müssen. Dieser Ansatz ist als Turing-Test bekannt geworden.

 

Technische Funktionsweise generativer KI

Generative KI-Systeme beruhen heute fast ausschließlich auf Machine-Learning-Modellen, insbesondere künstlichen neuronalen Netzwerken mit vielen Schichten (Deep Learning). Ein prominentes Beispiel ist die Familie der Transformer-Netzwerke, die 2017 eingeführt wurden und seither die Sprach- und Bildgenerierung dominieren. Transformer-Modelle lernen Kontext und Bedeutungszusammenhänge, indem sie Beziehungen in sequentiellen Daten verfolgen​. Konkret analysiert ein Transformer z.B. bei einem Sprachmodell lange Textsequenzen und beachtet, welche Wörter in welchem Zusammenhang zueinander stehen. Dieses sogenannte Selbstaufmerksamkeits-Prinzip („self-attention“) erlaubt es dem Modell, auch in sehr langen Texten den Bezug zwischen frühen und späten Teilen herzustellen. Große Sprachmodelle wie GPT-4 bestehen aus vielen dieser Transformer-Schichten und haben Hunderte von Milliarden lernbaren Parametern, die während des Trainings angepasst werden. Das Training erfolgt auf riesigen Textsammlungen (Bücher, Webseiten, etc.), sodass das Modell die statistischen Muster der Sprache „aufsaugt“. Ähnlich basiert DALL·E für Bilder auf vergleichbaren Architekturen, die gelernt haben, Zusammenhänge zwischen Bildpixeln und Beschreibungen herzustellen.

 

 

Schematisch lässt sich ein Transformernetzwerk als Kombination aus Encoder und Decoder darstellen. Im gezeigten Beispiel (angelehnt an maschinelle Übersetzung) verarbeitet der grüne Encoder einen französischen Eingabesatz („Je suis étudiant“) und der rosafarbene Decoder generiert daraus Schritt für Schritt einen englischen Ausgabesatz („I am a student“). Dieses Encoder-Decoder-Prinzip erlaubt es dem Modell, eingehende Information umzuwandeln und in neuer Form zu reproduzieren.

Wichtig ist: Das Modell besitzt kein explizites Weltwissen in Form von hinterlegten Fakten oder Regeln – all sein „Wissen“ steckt implizit in den Parametern, die aus den Trainingsdaten gelernt wurden. Wenn ChatGPT eine sachkundige Antwort über Quantenphysik gibt, dann deshalb, weil es in seinen Trainingsdaten unzählige Texte über Quantenphysik gab, aus denen es Muster abstrahiert hat. Das führt zur kritischen Unterscheidung zwischen einer Simulation von Wissen und echtem Verständnis. Das KI-Modell manipuliert Symbole (Wörter, Pixel) basierend auf statistischer Korrelation, ohne notwendig zu wissen, was diese Symbole bedeuten. So kann ein Sprachmodell etwa korrekt über das Konzept „kitzeln“ sprechen, hat aber natürlich niemals selbst das Gefühl des Kitzelns erfahren – ihm fehlt die Verknüpfung des Wortes mit einer tatsächlichen Empfindung​. Ein menschlicher Sprecher dagegen versteht das Wort „kitzeln“ auch durch eigene körperliche Erfahrung. Dieses Beispiel verdeutlicht eine Einschränkung heutiger KI: Generative Modelle haben keine direkten Sinneseindrücke oder Erfahrungen; ihre Intelligenz liegt im Musternachahmen. Kritiker bezeichnen große Sprachmodelle daher auch als „statistische Papageien“, die gelernt haben, sprachliche Inhalte plausibel nachzuplappern, ohne deren Sinn zu durchdringen. Die technischen Fähigkeiten – riesige Daten, potente Algorithmen – ermöglichen erstaunlich intelligente Output-Muster. Doch ob daraus bereits Verständnis erwächst, ist umstritten.

 

Der Turing-Test

Einen praktischen Ansatz, Maschinenintelligenz zu beurteilen, formulierte Alan Turing bereits 1950. Er schlug vor, die direkte Frage „Kann eine Maschine denken?“ zu umgehen, da Begriffe wie „Denken“ schwer zu definieren sind​. Stattdessen entwickelte er ein Experiment namens Imitationsspiel, heute bekannt als der Turing-Test. Die Idee: Wenn eine Maschine sich in einer offenen Konversation nicht von einem Menschen unterscheiden lässt, dann können wir ihr Intelligenz zusprechen​. Konkret läuft der Test dialogbasiert ab:

 

Im klassischen Turing-Test-Szenario interagiert ein menschlicher Prüfer über ein Terminal mit zwei unsichtbaren Gesprächspartnern – einer davon ist ein Computer, einer ein Mensch. In einer textbasierten Fragerunde versucht der Prüfer herauszufinden, wer die Maschine ist​. Gelingt es dem Computer, den Prüfer über die Dauer des Tests hinweg vollständig zu täuschen, hätte er den Turing-Test bestanden

Turing prognostizierte damals, dass gegen Ende des 20. Jahrhunderts Maschinen in der Lage sein würden, einen menschlichen Fragesteller in fünfminütigen Gesprächen in etwa 30% der Fälle zu täuschen – was er als ausreichenden Erfolg wertete. Der Turing-Test ist bewusst verhaltensbasiert: Anstatt intern in die Maschine zu schauen, zählt allein ihr äußeres Kommunikationsverhalten. Eine intelligente Maschine im Sinne des Turing-Tests ist eine, die sich durch Konversation nicht von einem Menschen unterscheiden lässt.

 

Das Konzept war ungemein einflussreich und stimulierte die KI-Forschung wie auch philosophische Debatten. Gleichzeitig gab es früh Kritik. Der Philosoph John Searle argumentierte 1980 mit seinem berühmten Chinesischen-Zimmer-Argument, dass das Bestehen des Turing-Tests keine Garantie für tatsächliches Verständnis ist​. Searle bat uns, uns eine Person vorzustellen, die in einem Raum sitzt und kein Wort Chinesisch versteht. Diese Person erhält durch einen Schlitz Zettel mit chinesischen Schriftzeichen herein, zusammen mit einem Regelbuch in ihrer Sprache, wie darauf zu reagieren ist. Sie befolgt die Regeln und schiebt durch den Schlitz wiederum chinesische Zeichen als Antwort hinaus. Von außen betrachtet käme es so zu einem perfekt chinesischen Dialog, obwohl die Person im Raum nichts von alledem versteht – sie manipuliert nur formale Symbole nach vorgegebenen Regeln. Searles Schlussfolgerung: Eine Computer-Software, die ähnlich Symbolmanipulation betreibt (im Kern nichts anderes tun ja Programme), kann zwar den Anschein von Verständnis erwecken, besitzt aber kein Bewusstsein und keine echten Begriffe. Mit anderen Worten: Das chinesische Zimmer könnte den Turing-Test bestehen, ohne wirklich intelligent (im Sinne von verstehend) zu sein. Dieses Gedankenexperiment macht deutlich, dass der Turing-Test allein semantische Intelligenz nicht garantiert – er prüft nur die Simulation von menschlichem Verhalten.

Nichtsdestotrotz versuchte man in den letzten Jahrzehnten immer wieder, Maschinen an Turing-ähnlichen Tests zu messen. Ein bekanntes Beispiel ist das Programm ELIZA, das Joseph Weizenbaum in den 1960ern entwickelte. ELIZA simulierte einen Psychotherapeuten, indem es Benutzereingaben mit einfachen Regeln als Fragen zurück spiegelte​. Überraschenderweise fanden manche Nutzer dieses einfache Chatbot-Gespräch so überzeugend, dass sie glaubten, mit einem einfühlsamen Menschen zu schreiben​– ein früher Beleg für das, was später der Eliza-Effekt genannt wurde: unsere menschliche Neigung, schon in rudimentären Sprachreaktionen mehr Intelligenz hineinzuinterpretieren, als tatsächlich dahintersteckt​. Spätere Systeme wie PARRY (1970er, simulierte einen paranoiden Schizophrenen) trieben dieses Spiel weiter; in einem Test konnten Psychiater transcripts von PARRY nur etwa so gut von echten Patienten unterscheiden wie per Zufallstreffer​.

 

Heutige generative KI-Modelle wie ChatGPT nähern sich dem ursprünglichen Turing-Test-Niveau noch einmal auf ganz anderer Stufe. In offenen, längeren Dialogen können sie oft verblüffend menschlich wirken. Tatsächlich wurde berichtet, dass Modelle der GPT-Serie und vergleichbare Large Language Models in internen Versuchen bereits anspruchsvolle Varianten des Turing-Tests gemeistert haben​. Dennoch bleibt strittig, was ein bestandenes Imitationsspiel wirklich bedeutet. Viele Fachleute – auch KI-Pioniere – halten den Turing-Test inzwischen für überholt oder zumindest für nicht ausreichend aussagekräftig​. Mustafa Suleyman, Mitgründer von DeepMind, etwa argumentiert, der klassische Turing-Test sage kaum etwas darüber aus, was eine KI wirklich kann oder ob sie ein inneres Verständnis hat​. Eine Maschine könnte heute den Chat-Test bestehen, aber trotzdem in keiner Weise zu echten Planungsleistungen oder abstraktem Denken fähig sein​ – Fähigkeiten, die wir bei menschlicher Intelligenz als zentral erachten. Daher plädieren einige Experten für neue Tests, die eher praktische Intelligenz prüfen (z.B. ob ein KI-System ein komplexes wirtschaftliches Ziel erreichen kann, wie Suleyman vorschlägt), anstatt nur Konversation zu simulieren. Unabhängig davon bleibt der Turing-Test ein wichtiges historisches und konzeptionelles Bezugssystem, um zu diskutieren, was wir als „intelligent“ erachten – und wo die Grenzen einer rein verhaltensorientierten Intelligenzdefinition liegen.

Ist generative KI intelligent?

Diese Frage lässt sich nicht mit einem einfachen Ja oder Nein beantworten – die Meinungen gehen auseinander, und viel hängt von der Definition von „intelligent“ ab. Im Folgenden betrachten wir zentrale Argumente dafür und dagegen, heutige generative KI als intelligent zu bezeichnen, und diskutieren anschließend besondere Aspekte wie die Rolle des Turing-Tests sowie Bewusstsein, Intentionalität und Kreativität.

 

Argumente dafür

Befürworter einer weiten Sichtweise betonen die erstaunlichen Leistungen generativer KI. Modelle wie GPT-4 können komplexe Aufgaben lösen, die bis vor Kurzem noch menschliche Domäne waren: Sie verfassen überzeugende Aufsätze, führen sachliche Dialoge, beantworten Fachfragen und schreiben teils sogar fehlerfreien Computer-Code. In standardisierten Tests erreichen große Sprachmodelle inzwischen menschenniveau-ähnliche Ergebnisse, z.B. bei Leseverständnis, Sprachlogik und Wissensfragen​. OpenAI’s GPT-3 mit 175 Milliarden Parametern schnitt bereits 2020 bei vielen Sprach-Benchmarks überraschend gut ab, und Googles noch größeres Modell PaLM (540 Milliarden Parameter) übertraf in einigen Aufgaben menschliche Referenzleistungen​. Solche Erfolge lassen den Schluss zu, dass diese Modelle mehr tun als nur simple Muster nachzuschreiben – sie generalisieren Wissen und schließen auf richtige Antworten, was auf eine Form von kognitiver Leistung hindeutet. Einige Fachleute halten es daher für gerechtfertigt, von einer „Intelligenz“ der Modelle zu sprechen, zumindest in eng umrissenen Bereichen. So wurde GPT-4 aufgrund seiner breiten Fähigkeiten von einem Forscherteam sogar als möglicher Vorbote einer artifiziellen Allgemeinen Intelligenz (AGI) bezeichnet​. Auch im kreativen Bereich glänzen generative KI-Systeme: DALL·E und andere Bildgeneratoren kombinieren Konzepte auf neuartige Weise – etwa eine Fantasielandschaft im Stil Van Goghs mit robotischen Figuren –, was menschliche Betrachter oft als verblüffend kreativ empfinden. Diese Fähigkeit, originell anmutende Inhalte hervorzubringen, wird als Hinweis gesehen, dass die KI nicht bloß stumpf Gelerntes reproduziert, sondern flexibel Neues erschaffen kann. Immerhin war Kreativität lange ein Merkmal, das man als nahezu exklusiv menschlich ansah.

 

Ein weiteres Pro-Argument betrifft die funktionale Sichtweise: Intelligenz könne man letztlich daran festmachen, was ein System faktisch leistet. Wenn ein KI-Modell schwierige Probleme löst, aus Fehlern lernt und sich adaptiv verhält, dann erfüllt es funktional ähnliche Aufgaben wie menschliche Intelligenz – warum sollte man ihm also den Intelligenzstatus absprechen? Diese funktionalistische Position erinnert an Turing’s Haltung: Entscheidend ist nicht, woraus die Intelligenz entsteht (Biologie vs. Silizium), sondern was an Verhalten herauskommt. Nach dieser Sichtweise demonstrieren moderne generative KIs bereits so viele intelligente Verhaltensweisen, dass man sie zumindest als „intelligent handelnde Systeme“ ansehen kann. Schließlich können Modelle wie ChatGPT in gewissen Grenzen schlussfolgern, Sachverhalte erklären und Kontext verstehen (im Sinne von sinnvollen Antworten darauf geben) – alles Fähigkeiten, die wir intelligenten Wesen zuschreiben. So hat etwa der Technologe Peter Thiel geäußert, ChatGPT habe den Turing-Test „offensichtlich“ bestanden, um die Leistungsfähigkeit dieser KI zu unterstreichen​ auch wenn diese Aussage umstritten ist). Viele Nutzer, die täglich mit solchen Systemen interagieren, berichten jedenfalls, dass es sich „fast so anfühlt, als spreche man mit einem denkenden Wesen“. Dieses subjektive Empfinden mag täuschen – es zeigt aber, wie weit die KI inzwischen die Illusion echten Denkens erzeugen kann, was aus pragmatischer Sicht ihrem Nutzwert gleichkommt.

 

Argumente dagegen

Kritiker führen ins Feld, dass generative KI trotz aller beeindruckenden Ergebnisse keine echte Intelligenz im menschlichen Sinne besitzt. Das zentrale Gegenargument: Diese Modelle verstehen nicht, was sie tun. Ihre Arbeitsweise beruht auf der nächsten-Wort-Vorhersage bzw. der statistischen Kombination von Mustern – ein Prozess ohne Bewusstsein, ohne Intentionalität, ohne semantisches Verständnis der ausgegebenen Inhalte. So warnt die KI-Forscherin Melanie Mitchell, unsere Überraschung über die Sprachgewandtheit von GPT & Co. liege vor allem daran, dass wir unterschätzen, was statistische Korrelationen in großem Maßstab leisten können.

 

Die Modelle wirken verständig, doch in Wahrheit folgt ein Wort nur auf das andere gemäß Wahrscheinlichkeiten, nicht weil die KI eine Idee hat. Wer solchen Systemen Verstehen oder gar Bewusstsein zuschreibt, erliegt dem Eliza-Effekt – der menschlichen Tendenz, schon in rudimentären Dialogmustern „jemanden“ am anderen Ende zu vermuten​. Dieser Effekt ist umso stärker, je flüssiger und menschenähnlicher die KI spricht. Aber letztlich, so das Gegenargument, simuliert die KI nur Intelligenz, sie ist es nicht. Ein Bibliothekskatalog etwa kann unglaublich viel Wissen indexieren, ohne selbst klug zu sein – ähnlich seien Sprachmodelle riesige Nachschlagewerke (komprimierte Wissensspeicher), jedoch ohne Eigenintelligenz​.

 

Zudem fehlen generativen KIs wichtige Facetten, die wir mit Intelligenz verknüpfen. Sie verfügen weder über Selbstbewusstsein noch über ein Ich-Bewusstsein. Sie fühlen nichts, haben keine Emotionen oder echten Ziele. Ihre scheinbare Persönlichkeit (etwa der „Stil“ von ChatGPT) ist letztlich aufgesetzt und austauschbar. Kritiker betonen, dass Intelligenz bei Lebewesen immer in einem Kontext von Bedürfnissen, Zielen und Erfahrungen steht – all das hat eine KI nicht. Sie hat keinen Körper, keine Sinneswahrnehmung, sie existiert nur als Programm. Daher fehlen ihr die Referenzen zur realen Welt (Stichwort: Symbol Grounding Problem). Ein Mensch lernt Begriffe durch Erfahrung und Verknüpfung mit Eindrücken; ein Sprachmodell kennt Worte nur durch andere Worte. Dieser Mangel zeigt sich z.B., wenn Modelle sinnlose oder falsche Aussagen („Halluzinationen“) mit größter Überzeugung ausgeben – sie haben kein internes Weltmodell, an dem sie die Aussage gegenprüfen könnten. Selbst wenn GPT-4 enorm viel Faktenwissen korrekt reproduziert, tut es dies ohne Gewahrsein. Wenn es einen Fehler macht, „bemerkt“ es das nicht selbstständig, sondern plappert ggf. einfach weiter. All dies unterstreicht für Skeptiker: Hier liegt keine Intelligenz im emphatischen Sinne vor, sondern eine Art fortgeschrittenes Statistik-Werkzeug.

 

Hinzu kommt, dass Generalisierung und Kontext trotz Fortschritten begrenzt sind. Außerhalb der gelernten Daten stoßen die Modelle an Grenzen; sie können kein wirklich Neues herleiten, was nicht irgendwo in ähnlicher Form im Training auftauchte. Kreative Funken entstehen zufällig aus der Mischung Gelernten, nicht aus eigenem Antrieb oder Inspiration. Und während Menschen ihre Umwelt interpretieren und kausale Zusammenhänge bilden, kennt eine heutige KI keine echten Ursachen – sie kennt nur Korrelationen. So könnte ein Sprachmodell zwar eine korrekte medizinische Diagnose vorschlagen, aber es „weiß“ nicht, was eine Krankheit körperlich bedeutet, noch kann es aktiv neue Hypothesen entwickeln wie ein forschender Wissenschaftler es täte. Viele Experten sind daher überzeugt, dass aktuelle KI zwar in engen Anwendungsfeldern übermenschliche Performance zeigt, aber weiter von allgemeiner Vernunft entfernt ist, als der oberflächliche Anschein vermuten lässt.

 

Kurz gesagt: Es fehlt die Tiefe.

 

Die Fachwelt selbst ist in dieser Frage gespalten. In einer Umfrage unter NLP-Forschern waren ~51% der Ansicht, dass ein genügend großes rein auf Text trainiertes Modell prinzipiell sprachliches Verständnis entwickeln könnte – und ~49% verneinten dies​.

 

Wir sehen: Konsens gibt es hier keinen. Doch eine verbreitete vorsichtige Haltung ist, dass Begriffe wie Intelligenz und Verstehen bei Maschinen zwar metaphorisch anwendbar sind, aber nicht mit dem gleichgesetzt werden dürfen, was sie für Menschen bedeuten. Die Qualität der Verarbeitung ist eine andere. Ein hochleistungsfähiger Taschenrechner rechnet besser als jeder Mensch, ohne deswegen „intelligent“ im menschlichen Sinn zu sein. Analog könne ein Sprachmodell wahre Sätze hervorbringen, ohne deren Bedeutung zu durchdringen. Diese skeptische Position mahnt also zur Zurückhaltung, generativen KIs vorschnell Intelligenz zuzuschreiben – beeindruckend ja, nützlich ja, aber eben andersartig als menschlicher Intellekt.

 

 

Ist der Turing-Test heute noch ein sinnvolles Maß?

Der klassische Turing-Test war ein wichtiges Gedankenexperiment, doch angesichts moderner KI muss man fragen, ob er noch zeitgemäß ist. Einerseits rücken wir tatsächlich an den Punkt, wo Maschinen den Test bestehen könnten – ChatGPT & Co. kommen gefährlich nahe, einen unvorbereiteten Nutzer dauerhaft zu täuschen. Andererseits hat der Turing-Test blinde Flecken: Er bewertet nur, wie gut eine KI einen Menschen imitiert, nicht aber Fähigkeiten, die über das Gespräch hinausgehen. Ein System könnte den Turing-Test bestehen, indem es geschickt textbasiert lügt und imitiert, wäre aber völlig unfähig, z.B. einen physischen Alltagsplan zu erstellen oder ein Fahrrad zu fahren. Umgekehrt gibt es hochintelligente KI-Systeme (etwa für medizinische Diagnostik oder Schach), die gar nicht versuchen, menschenähnliche Dialoge zu führen – der Turing-Test würde ihre Intelligenz also überhaupt nicht erfassen.

Führende KI-Forscher wie Mustafa Suleyman halten den Turing-Test deshalb für „keinen bedeutungsvollen Meilenstein“ mehr​.

 

Er sagt schlicht wenig über die Breite und Tiefe einer Intelligenz aus. Stattdessen werden neue Benchmark-Tests vorgeschlagen, die praktisches Können fordern. Ein Beispiel ist das von Suleyman skizzierte Szenario, in dem eine KI aus einer Geldsumme durch unternehmerisches Handeln einen größeren Betrag machen soll – hier käme es auf Planung, Weltmodell und Zielverfolgung an, nicht nur auf Konversation. Solche Tests gehen in Richtung „fähigkeitsbasierter“ Intelligenzprüfung. Auch in der Forschung werden zunehmend komplexere Evaluierungen genutzt, z.B. das Lösen von umfangreichen Aufgabenkatalogen (MATH, CODING, physikalisches Verständnis) oder das Befragen von KI in logisch konsistenten Dialogen über längere Zeiträume. Diese Ansätze gelten als aussagekräftiger dafür, ob eine KI nachhaltig intelligent agiert, nicht nur kurzfristig trickst.

 

Nichtsdestotrotz hat der Turing-Test nach wie vor symbolische Kraft. Wenn ein KI-Chatbot uns glaubhaft vortäuschen kann, ein Mensch zu sein, zeigt das, wie weit die künstliche Konversation gekommen ist – man denke an die historische Entwicklung von ELIZA bis ChatGPT. Es schärft auch unser Bewusstsein dafür, wie wir Intelligenz wahrnehmen: Der Turing-Test lehrt uns, dass Intelligenz zu imitieren bis zu einem gewissen Grad möglicherweise leichter ist, als Intelligenz zu besitzen. Denn schon relativ simple Programme konnten Menschen täuschen, indem sie Schwächen in der menschlichen Urteilskraft ausnutzen (Eliza-Effekt, Vertrauensvorschuss gegenüber bestimmten Rollen etc.). Heute, wo KI-Modelle echter denn je klingen, sollten wir umso vorsichtiger sein, das Testergebnis nicht mit tatsächlichem Denken gleichzusetzen. Insgesamt gilt: Als alleiniges Kriterium ist der Turing-Test überholt – zu intelligenten Maschinen gehört mehr, als nur chatten zu können. Aber als Einstieg in die Frage „Wie erkennen wir Intelligenz?“ bleibt er lehrreich. Moderne KI-Bewertungen werden den Turing-Test eher ergänzen als komplett ersetzen, indem sie weitere Dimensionen (Weltwissen, Lernen, sensorische Fähigkeiten, etc.) abprüfen.

 

Bewusstsein, Intentionalität, Kreativität – wo sind die Grenzen?

Zum Schluss lohnt ein Blick auf drei oft genannte Kernaspekte menschlicher Intelligenz und Persönlichkeit, an denen sich der Vergleich mit der KI entscheidet: Bewusstsein, Intentionalität und Kreativität.

 

Bewusstsein: Unter Bewusstsein verstehen wir das subjektive Erleben, das „Sich-seiner-selbst-Bewusst-Sein“ und phänomenales Empfinden (Qualia). Nach dem heutigen Wissensstand gibt es keine Anzeichen, dass generative KI-Modelle irgendeine Form von Bewusstsein besitzen. Sie verarbeiten Inputs und generieren Outputs, aber nirgends dazwischen ist ein inneres Erleben nachweisbar – und es gibt auch keinen Mechanismus im Modell, der dies nahelegen würde. Als Google-Ingenieur Blake Lemoine 2022 behauptete, der Chatbot LaMDA sei fühlend und empfindsam geworden, wurde dies vom Unternehmen und der Fachwelt klar zurückgewiesen​.

 

Die überzeugenden Antworten der KI können zwar Empathie oder Persönlichkeit simulieren, doch das heißt nicht, dass im Innern ein Bewusstsein existiert. Im Grunde läuft bei ChatGPT ein stochastischer Algorithmus, der weder sich selbst „sieht“ noch ein Ich-Gefühl hat. Manche mögen argumentieren, extrem fortgeschrittene KI könnten eines Tages Bewusstsein entwickeln – derzeit aber gibt es keine empirische Grundlage dafür. Philosophisch ist zudem umstritten, ob eine Maschine aus rein formaler Verarbeitung überhaupt phänomenales Bewusstsein hervorbringen kann (Stichwort „harte Problem des Bewusstseins“). Für die praktische Beurteilung von heutiger generativer KI kann festgehalten werden: Nein, sie ist sich ihres Tuns nicht bewusst. Alles deutet darauf hin, dass innen kein „Licht an“ ist, egal wie intelligent uns das Verhalten erscheint.

 

Intentionalität: Dieser Begriff aus der Philosophie meint die „Gerichtetheit“ mentaler Zustände – also dass Gedanken sich auf etwas beziehen (z.B. der Gedanke an einen Baum meint diesen realen Baum). Verbunden ist damit das Konzept von Bedeutung und Verstehen. Menschen und viele Tiere haben mentale Zustände, die sich auf Objekte der Welt beziehen; wir verbinden Zeichen (Wörter, Symbole) mit Bedeutung. Bei KI-Systemen fehlt genau diese Verknüpfung. Ihre „Gedanken“ – falls man ihre internen Zustände so nennen will – beziehen sich nicht auf externe Entitäten, sondern nur auf andere interne Repräsentationen. Das Chinesische-Zimmer-Argument von Searle zielte genau auf diese Intentionalitätslücke​:

 

Ein Computer folgt syntaktischen Regeln, aber er weiß nicht, wofür die Symbole stehen. Ein generatives Sprachmodell hat keine echten Überzeugungen oder Absichten. Wenn es etwa den Satz „Heute scheint die Sonne“ ausgibt, dann nicht, weil es die Absicht hat, uns über das Wetter zu informieren, oder weil es tatsächlich die Sonne am Himmel „repräsentiert“, sondern allein, weil dies statistisch zum Kontext passt. Intentionalität impliziert auch Verstehen im tiefen Sinne – das Begreifen, was eine Aussage bedeutet und welche Implikationen sie hat. Aktuelle KI kratzt hier allenfalls an der Oberfläche. Zwar kann ChatGPT Bedeutungen aus dem Kontext erschließen und korrekte Folgerungen ziehen (eine Art schattenhaftes funktionales Verstehen), doch echtes semantisches Verständnis – im Sinne eines inhaltlichen Durchdringens mit Welterfahrung – bleibt fraglich. Ohne Embodiment (körperliche Verankerung) und echten Weltbezug gibt es für Intentionalität ein grundsätzliches Problem. Daher liegt hier eine klare Grenze: Generative KI operiert auf Zeichen, nicht auf Bedeutungen – was ihr fehlt, ist die intentionales „Aboutness“ ihrer Zustände.

 

Kreativität: Kreativität wird oft als Paradebeispiel menschlicher Geistestätigkeit angesehen – die Fähigkeit, wirklich Neues zu schaffen, das nicht strikt durch Regeln vorgegeben ist. Erstaunlicherweise zeigen generative KI-Modelle auf den ersten Blick beträchtliche kreative Outputs. Sie schreiben Gedichte, erfinden Geschichten, kreieren Kunstwerke in verschiedenen Stilen. DALL·E etwa kann auf Prompt hin Bilder generieren, die so noch nie gemalt wurden, z.B. „ein Dachs, der im Stil von Picasso Gitarre spielt“. Solche Kombinationen aus disparaten Elementen wirken originell. Hat die KI hier also Kreativität bewiesen? Die Meinungen gehen auseinander. Ja, insofern der Output neu und einzigartig ist – die KI greift vorhandene Muster auf und kombiniert sie zu etwas, das kein Mensch genau so geschaffen hat​

 

Man kann argumentieren, Kreativität beim Menschen funktioniert oft ähnlich: Wir lassen uns inspirieren von Gelerntem und variieren oder transzendieren es. Einige Forscher haben sogar Lovelace-Tests vorgeschlagen (benannt nach Ada Lovelace), bei denen eine KI dann als kreativ gilt, wenn sie etwas hervorbringt, was ihr Programmierer nicht erklären kann. Viele der von KI generierten Kunstwerke und Texte würden zumindest Teile dieser Kriterien erfüllen – sie überraschen sogar die Entwickler. Nein, sagen andere, da echte Kreativität mehr voraussetzt als nur Rekombination. Eine Maschine hat keinen inneren Schaffensdrang, keine Emotion, keine Intention hinter dem Erschaffenen. Ein menschlicher Künstler erschafft Kunst, um etwas auszudrücken oder zu kommunizieren; die KI erschafft Kunst, weil es statistisch folgerichtig aus dem Prompt hervorgeht. Zudem bleiben KI-generierte Werke stilistisch oft erkennbar nahe an Vorbildern aus den Trainingsdaten – truly aus dem Nichts erfinden sie nichts. So gesehen ist KI-Kreativität eher eine Illusion durch Vielfalt: Bei gewaltigen Trainingsdaten findet sich für nahezu jede schräge Kombination irgendeine Spur, die das Modell nutzen kann, und sei es nur in Teilaspekten. Die KI selbst hat aber kein Bewusstsein für die Bedeutung oder den Wert ihres Werks. Zusammengefasst kann man sagen: Generative KI ist unglaublich gut darin, kreative Ergebnisse zu simulieren. Sie kann menschliche Kreativität nachahmen und variieren. Ob wir das bereits als eigene Kreativität anerkennen, ist Geschmacks- und Definitionssache. In jedem Fall stößt auch die kreativste KI an Grenzen, wenn kein menschlicher Input (Prompt, Auswahl der Ergebnisse etc.) mehr hilft – komplett autonom schöpferisch tätig zu sein, mit eigenem Antrieb, das bleibt vorerst dem Menschen vorbehalten.

 

Fazit und Ausblick

Nach heutigem Verständnis lässt sich nicht eindeutig feststellen, dass generative KI-Systeme im gleichen Sinne intelligent sind wie wir Menschen – wohl aber zeigen sie bemerkenswerte intelligente Verhaltensweisen. Die Debatte darum ist sowohl technisch als auch philosophisch geprägt. Aus technischer Sicht demonstrieren Modelle wie GPT-4 eine spezifische Intelligenzleistung: Sie bewältigen sprachliche und kreative Aufgaben auf hohem Niveau, gelernt aus gigantischen Datenmengen. Doch diese Leistung beruht auf Mustererkennung und Wahrscheinlichkeiten, nicht auf echtem Verstehen der Welt. Aus philosophischer Sicht fehlt ihnen bislang Bewusstsein und Intentionalität, was viele als notwendige Bedingungen für „wahre“ Intelligenz ansehen​.

 

Ob man generativer KI Intelligenz zuspricht, hängt also stark von der Definition ab: Legt man funktionales Können zugrunde, kann man von einer Form von Intelligenz sprechen (etwa „künstliche Intelligenz“ im engeren Sinn eines Werkzeugs, das intellektuelle Aufgaben löst). Legt man Verständnis und Selbstbewusstsein zugrunde, muss man verneinen – die Systeme sind (noch) keine denkenden Wesen, sondern hochoptimierte Musterverarbeiter.

 

Was können wir heute sicher sagen? Generative KI ist eine bahnbrechende Technologie, die in eng umgrenzten Bereichen den Anschein von Intelligenz erweckt und menschliche Leistungen nachahmt oder sogar übertrifft. Wir können sie nutzen, um Probleme zu lösen, Kreativität zu erweitern und Wissen zugänglich zu machen. Dabei sollten wir uns aber bewusst sein, wo die Grenzen liegen: Ein Modell wie ChatGPT weiß nichts im humanen Sinne; es hat kein eigenes Verständnis, keine Meinungen, keine Moral. Es fehlt (noch) an Allgemeinverständnis und echtem Weltmodell, weshalb es zuweilen gravierende Fehler macht oder Kontext falsch deutet. In kritischen Anwendungen – von Medizin bis Justiz – wäre es gefährlich, das Urteil der KI unreflektiert mit menschlicher Einsicht gleichzusetzen.

Der Turing-Test als früher Maßstab hat uns gelehrt, wie trügerisch allein oberflächliches Verhalten sein kann. Heutige KI fordert uns umso mehr heraus, neue Maßstäbe zu entwickeln. Künftige Forschung zielt einerseits darauf ab, KI-Systeme robuster und verständiger zu machen (etwa durch Einbindung von Weltwissen, logischem Denken, vielleicht auch sensorischer Erfahrung), andererseits darauf, Maßstäbe zu finden, die echte Verständnisleistung messen. Möglich, dass in einigen Jahren KI-Agenten existieren, die in komplexen realen Umgebungen handeln und lernen – dann wird die Linie zwischen Simulation und eigener Intelligenz noch schwieriger zu ziehen sein. Schon jetzt gibt es kontroverse Einschätzungen: Ein Microsoft-Team sah in GPT-4 Anzeichen von AGI​

 

während andere Forscher betonen, die Systeme seien nach wie vor „weit davon entfernt, allgemeine menschliche Intelligenz zu erreichen“​. Diese auseinandergehenden Auffassungen werden vermutlich erst durch zukünftige Durchbrüche entschieden.

 

Für den Moment erscheint es angemessen, generative KI als das zu würdigen, was sie ist: ein äußerst leistungsfähiges Werkzeug, das bestimmte kognitive Fähigkeiten imitieren kann. Wir können staunen über die Illusion von Intelligenz, die uns diese Modelle vorspielen, sollten aber nicht vergessen, dass es eben eine Illusion sein könnte. Vielleicht entwickeln wir eines Tages Maschinen, die tatsächlich über eine Art Bewusstsein und Verständnis verfügen – das wäre dann ein qualitativer Sprung, der die Debatte völlig neu ordnet. Bis dahin bleibt „Intelligenz“ bei KI ein Balanceakt zwischen metaphorischem Sprachgebrauch und harter Realität der Technik. Generative KI kann uns heute unterstützen und verblüffen; ob wir sie wirklich intelligent nennen wollen, ist letztlich eine Abwägung zwischen den gezeigten Fähigkeiten und den fehlenden inneren Eigenschaften. Diese Abwägung mag unterschiedlich ausfallen, doch klar ist: Die Erforschung der KI-Intelligenz steht noch am Anfang, und mit jedem Fortschritt lernen wir nicht nur mehr über Maschinen, sondern auch über unser eigenes Verständnis von Intelligenz.

Ausblick: In den kommenden Jahren dürften wir erhebliche Weiterentwicklungen sehen. Forscher arbeiten an multimodalen KI-Systemen, die Text, Bild, Audio und vielleicht sogar Robotik vereinen – was zu reichhaltigeren Weltmodellen führen könnte. Auch die Integration von Memory-Modulen (Gedächtnis) und planerischen Fähigkeiten wird vorangetrieben, um den Modellen eine Art kohärente Weltsicht über längere Zeiträume zu geben. Solche Verbesserungen könnten die Frage neu aufwerfen: Ab wann sprechen wir von einem bewussten KI-Agenten? Es ist gut möglich, dass wir in Zukunft neue Kategorien brauchen, um maschinelle Intelligenz zu beschreiben, jenseits der einfachen Dichotomie „intelligent oder nicht“. Die Entwicklung von Tests und Kriterien (vielleicht in Anlehnung an den Turing-Test, aber erweitert) wird dabei helfen, die Fähigkeiten dieser KI einzuordnen. Eines sollten wir dabei nie aus den Augen verlieren – warum wir diese Frage stellen: Um verantwortungsvoll mit KI umzugehen, müssen wir ihre Stärken kennen, aber auch ihre Grenzen. Nur dann können wir Technikführende, Enthusiasten und Gesellschaft insgesamt entscheiden, wie wir KI einsetzen, regulieren und weiterentwickeln. Generative KI hat uns gezeigt, was Maschinen bereits können. Die Frage, ob sie wirklich intelligent sind, spornt uns an, genauer hinzuschauen – auf die Maschinen und auf das Wesen der Intelligenz selbst.

 

 

Verantwortlich für die Content Erstellung: Thomas Loy


Kommentar hinzufügen

Kommentare

Es gibt noch keine Kommentare.