Große Sprachmodelle sind keine Menschen. Hören wir auf, sie so zu testen, als ob sie es wären.

Angesichts der zunehmenden Hoffnungen und Befürchtungen über diese Technologie ist es an der Zeit, sich darüber zu einigen, was sie leisten kann und was nicht.

Als Taylor Webb Anfang 2022 mit GPT-3 experimentierte, war er überwältigt davon, was das große Sprachmodell von OpenAI zu leisten schien. Hier handelte es sich um ein neuronales Netzwerk, das nur darauf trainiert war, das nächste Wort in einem Textblock vorherzusagen – eine hochgesprungene automatische Vervollständigung. Und doch gab es richtige Antworten auf viele der abstrakten Probleme, die Webb ihm stellte – so etwas findet man auch in einem IQ-Test. „Ich war wirklich schockiert über die Fähigkeit, diese Probleme zu lösen“, sagt er. „Es hat alles, was ich vorhergesagt hätte, völlig auf den Kopf gestellt.“

Webb ist Psychologe an der University of California in Los Angeles und untersucht die unterschiedlichen Arten, wie Menschen und Computer abstrakte Probleme lösen. Er war es gewohnt, neuronale Netze aufzubauen, die über spezifische Denkfähigkeiten verfügten. Aber GPT-3 schien sie kostenlos gelernt zu haben.

Exklusive Gespräche, die uns hinter die Kulissen eines kulturellen Phänomens führen.

Letzten Monat veröffentlichten Webb und seine Kollegen einen Artikel in Nature, in dem sie die Fähigkeit von GPT-3 beschreiben, eine Reihe von Tests zu bestehen, die entwickelt wurden, um den Einsatz von Analogien zur Lösung von Problemen zu bewerten (bekannt als analoges Denken). Bei einigen dieser Tests schnitt GPT-3 besser ab als eine Gruppe von Studenten. „Analogie ist für das menschliche Denken von zentraler Bedeutung“, sagt Webb. „Wir halten es für eines der wichtigsten Dinge, die jede Art von maschineller Intelligenz nachweisen muss.“

Was Webbs Forschung hervorhebt, ist nur das Neueste in einer langen Reihe bemerkenswerter Tricks, die von großen Sprachmodellen ausgeführt werden. Als OpenAI beispielsweise im März den Nachfolger von GPT-3, GPT-4, vorstellte, veröffentlichte das Unternehmen eine beeindruckende Liste professioneller und akademischer Bewertungen, von denen es behauptete, dass sein neues großes Sprachmodell hervorragende Ergebnisse erzielt habe, darunter ein paar Dutzend High-School-Tests und die Anwaltsprüfung. OpenAI arbeitete später mit Microsoft zusammen, um zu zeigen, dass GPT-4 Teile der medizinischen Zulassungsprüfung der Vereinigten Staaten bestehen konnte.

Und mehrere Forscher behaupten, gezeigt zu haben, dass große Sprachmodelle Tests bestehen können, die darauf abzielen, bestimmte kognitive Fähigkeiten bei Menschen zu identifizieren, vom Gedankenkettenschlussfolgern (Schritt für Schritt durch ein Problem arbeiten) bis zur Theorie des Geistes (Erraten, was andere Menschen denken). ).

Ergebnisse dieser Art befeuern eine Hype-Maschine, die voraussagt, dass diese Maschinen bald für Angestellte eingesetzt werden und Lehrer, Ärzte, Journalisten und Anwälte ersetzen werden. Geoffrey Hinton hat die offensichtliche Fähigkeit von GPT-4, Gedanken aneinanderzureihen, als einen Grund genannt, warum er jetzt Angst vor der Technologie hat, die er mitentwickelt hat.

Aber es gibt ein Problem: Es besteht kaum Einigkeit darüber, was diese Ergebnisse wirklich bedeuten. Manche Menschen sind geblendet von dem, was sie als einen Schimmer menschenähnlicher Intelligenz sehen; andere sind überhaupt nicht überzeugt.

„Bei den aktuellen Bewertungstechniken für große Sprachmodelle gibt es mehrere kritische Probleme“, sagt Natalie Shapira, Informatikerin an der Bar-Ilan-Universität in Ramat Gan, Israel. „Es entsteht die Illusion, dass sie über größere Fähigkeiten verfügen als das, was wirklich existiert.“

Aus diesem Grund wollen immer mehr Forscher – Informatiker, Kognitionswissenschaftler, Neurowissenschaftler und Linguisten – die Art und Weise, wie sie bewertet werden, überarbeiten und fordern eine strengere und umfassendere Bewertung. Einige halten die Praxis, Maschinen bei menschlichen Tests zu bewerten, für falsch und sollten aufgegeben werden.

„Schon seit den Anfängen der künstlichen Intelligenz haben Menschen menschliche Intelligenztests – IQ-Tests usw. – an Maschinen durchgeführt“, sagt Melanie Mitchell, Forscherin für künstliche Intelligenz am Santa Fe Institute in New Mexico. „Die Frage war immer, was es bedeutet, wenn man eine Maschine wie diese testet. Es bedeutet nicht dasselbe, was es für einen Menschen bedeutet.“

„Es findet eine Menge Vermenschlichung statt“, sagt sie. „Und das prägt irgendwie die Art und Weise, wie wir über diese Systeme denken und wie wir sie testen.“

Da die Hoffnungen und Befürchtungen in Bezug auf diese Technologie auf einem Allzeithoch sind, ist es von entscheidender Bedeutung, dass wir einen klaren Überblick darüber bekommen, was große Sprachmodelle leisten können und was nicht.

Offen für Interpretationen

Die meisten Probleme beim Testen großer Sprachmodelle laufen auf die Frage hinaus, wie die Ergebnisse interpretiert werden.

Bei Prüfungen, die auf Menschen zugeschnitten sind, wie etwa High-School-Prüfungen und IQ-Tests, ist vieles selbstverständlich. Wenn Menschen gut abschneiden, kann man mit Sicherheit davon ausgehen, dass sie über das Wissen, das Verständnis oder die kognitiven Fähigkeiten verfügen, die der Test messen soll. (In der Praxis geht diese Annahme nur bis zu einem gewissen Punkt. Akademische Prüfungen spiegeln nicht immer die wahren Fähigkeiten der Schüler wider. IQ-Tests messen eine bestimmte Gruppe von Fähigkeiten, nicht die allgemeine Intelligenz. Beide Arten der Beurteilung begünstigen Menschen, die bei solchen Beurteilungen gut sind. )

Tech-Giganten dominieren die Forschung, aber die Grenze zwischen echtem Durchbruch und Produktpräsentation kann fließend sein. Einige Wissenschaftler haben genug.

Aber wenn ein großes Sprachmodell bei solchen Tests gut abschneidet, ist überhaupt nicht klar, was gemessen wurde. Ist es ein Beweis für tatsächliches Verständnis? Ein sinnloser statistischer Trick? Rote Wiederholung?

„Die Entwicklung von Methoden zum Testen des menschlichen Geistes hat eine lange Geschichte“, sagt Laura Weidinger, leitende Wissenschaftlerin bei Google DeepMind. „Angesichts der Tatsache, dass große Sprachmodelle Texte produzieren, die so menschenähnlich erscheinen, ist es verlockend anzunehmen, dass Tests zur menschlichen Psychologie für deren Bewertung nützlich sein werden. Aber das stimmt nicht: Tests zur menschlichen Psychologie basieren auf vielen Annahmen, die für große Sprachmodelle möglicherweise nicht gelten.“

Webb ist sich der Probleme bewusst, in die er geraten ist. „Ich teile das Gefühl, dass dies schwierige Fragen sind“, sagt er. Er weist darauf hin, dass GPT-3 zwar in bestimmten Tests bessere Ergebnisse erzielte als Studierende im Grundstudium, bei anderen jedoch absurde Ergebnisse lieferte. Beispielsweise hat es eine Version eines Tests zum analogen Denken über physische Objekte, den Entwicklungspsychologen manchmal Kindern geben, nicht bestanden.

In diesem Test erzählten Webb und seine Kollegen GPT-3 eine Geschichte über einen magischen Geist, der Juwelen zwischen zwei Flaschen transportierte, und fragten ihn dann, wie er mithilfe von Gegenständen wie einer Plakatwand und einer Pappröhre Kaugummikugeln von einer Schüssel in eine andere transportieren könne. Die Idee ist, dass die Geschichte Wege zur Lösung des Problems aufzeigt. „GPT-3 schlug größtenteils aufwändige, aber mechanisch unsinnige Lösungen mit vielen unnötigen Schritten und keinem klaren Mechanismus vor, mit dem die Kaugummikugeln zwischen den beiden Schalen transportiert würden“, schreiben die Forscher in Nature.

„So etwas können Kinder leicht lösen“, sagt Webb. „Die Dinge, in denen diese Systeme wirklich schlecht sind, sind in der Regel Dinge, bei denen es um das Verständnis der tatsächlichen Welt geht, wie grundlegende Physik oder soziale Interaktionen – Dinge, die für Menschen selbstverständlich sind.“

Wie verstehen wir also eine Maschine, die die Anwaltsprüfung besteht, aber im Vorschulalter durchfällt? Große Sprachmodelle wie GPT-4 werden anhand einer großen Anzahl von Dokumenten aus dem Internet trainiert: Bücher, Blogs, Fanfiction, technische Berichte, Social-Media-Beiträge und vieles mehr. Es ist wahrscheinlich, dass gleichzeitig viele frühere Prüfungsunterlagen eingestaubt wurden. Eine Möglichkeit besteht darin, dass Modelle wie GPT-4 in ihren Trainingsdaten so viele professionelle und akademische Tests gesehen haben, dass sie gelernt haben, die Antworten automatisch zu vervollständigen.

Viele dieser Tests – Fragen und Antworten – sind online, sagt Webb: „Viele davon sind mit ziemlicher Sicherheit in den Trainingsdaten von GPT-3 und GPT-4 enthalten, daher denke ich, dass wir wirklich nicht viel daraus schließen können.“

OpenAI gab an, überprüft zu haben, ob die für GPT-4 durchgeführten Tests keinen Text enthielten, der auch in den Trainingsdaten des Modells vorkam. Bei seiner Zusammenarbeit mit Microsoft im Zusammenhang mit der Prüfung für Ärzte verwendete OpenAI kostenpflichtige Testfragen, um sicherzustellen, dass diese nicht in den Trainingsdaten von GPT-4 enthalten waren. Aber solche Vorsichtsmaßnahmen sind nicht narrensicher: GPT-4 hätte immer noch Tests sehen können, die ähnlich waren, wenn nicht sogar exakte Übereinstimmungen.

Als Horace He, ein Ingenieur für maschinelles Lernen, GPT-4 anhand von Fragen testete, die von Codeforces gestellt wurden, einer Website, die Codierungswettbewerbe veranstaltet, stellte er fest, dass es bei Codierungstests, die vor 2021 veröffentlicht wurden, 10/10 und bei Tests, die nach 2021 veröffentlicht wurden, 0/10 Punkte erzielte . Andere haben auch darauf hingewiesen, dass die Testergebnisse von GPT-4 bei Material, das nach 2021 erstellt wurde, einen Absturz erleiden. Da die Trainingsdaten des Modells nur Text umfassten, der vor 2021 gesammelt wurde, sagen einige, dass dies zeigt, dass große Sprachmodelle eher eine Art Auswendiglernen als Intelligenz aufweisen.

Um diese Möglichkeit in seinen Experimenten zu vermeiden, entwickelte Webb von Grund auf neue Testtypen. „Was uns wirklich interessiert, ist die Fähigkeit dieser Modelle, neue Arten von Problemen herauszufinden“, sagt er.

Einige befürchten, dass das Gerede über diese Tools der gesamten Branche keinen Gefallen tut.

Webb und seine Kollegen haben eine Methode zum Testen analogen Denkens namens Raven's Progressive Matrices entwickelt. Diese Tests bestehen aus einem Bild, das eine Reihe nebeneinander oder übereinander angeordneter Formen zeigt. Die Herausforderung besteht darin, das Muster in der vorgegebenen Formenreihe herauszufinden und es auf eine neue anzuwenden. Ravens progressive Matrizen werden zur Beurteilung des nonverbalen Denkens sowohl bei kleinen Kindern als auch bei Erwachsenen verwendet und kommen häufig in IQ-Tests vor.

Anstatt Bilder zu verwenden, kodierten die Forscher Form, Farbe und Position in Zahlenfolgen. Dadurch wird sichergestellt, dass die Tests nicht in Trainingsdaten auftauchen, sagt Webb: „Ich habe diesen Datensatz von Grund auf neu erstellt. So etwas habe ich noch nie gehört.“

Mitchell ist von Webbs Arbeit beeindruckt. „Ich fand dieses Papier sehr interessant und provokativ“, sagt sie. „Es ist eine gut gemachte Studie.“ Aber sie hat Vorbehalte. Mitchell hat ihren eigenen analogen Denktest namens ConceptARC entwickelt, der codierte Sequenzen von Formen aus dem ARC-Datensatz (Abstraction and Reasoning Challenge) verwendet, der vom Google-Forscher François Chollet entwickelt wurde. In Mitchells Experimenten schneidet GPT-4 bei solchen Tests schlechter ab als Menschen.

Mitchell weist außerdem darauf hin, dass die Kodierung der Bilder in Zahlenfolgen (oder Matrizen) das Problem für das Programm erleichtert, da dadurch der visuelle Aspekt des Rätsels entfällt. „Das Lösen von Ziffernmatrizen ist nicht gleichbedeutend mit der Lösung von Ravens Problemen“, sagt sie.

Sprödigkeitstests

Die Leistung großer Sprachmodelle ist spröde. Unter Menschen kann man mit Sicherheit davon ausgehen, dass jemand, der bei einem Test gut abschneidet, auch bei einem ähnlichen Test gut abschneiden würde. Das ist bei großen Sprachmodellen nicht der Fall: Eine kleine Änderung an einem Test kann dazu führen, dass die Note „A“ auf „F“ fällt.

„Im Allgemeinen wurde die KI-Bewertung nicht so durchgeführt, dass wir tatsächlich verstehen könnten, welche Fähigkeiten diese Modelle haben“, sagt Lucy Cheke, Psychologin an der Universität Cambridge, Großbritannien. „Es ist völlig sinnvoll, zu testen, wie gut ein System bei einer bestimmten Aufgabe abschneidet, aber es ist nicht sinnvoll, diese Aufgabe zu übernehmen und Aussagen über allgemeine Fähigkeiten zu machen.“

Nehmen Sie ein Beispiel aus einem im März von einem Team von Microsoft-Forschern veröffentlichten Artikel, in dem sie behaupteten, in GPT-4 „Funken künstlicher allgemeiner Intelligenz“ identifiziert zu haben. Das Team bewertete das große Sprachmodell mithilfe einer Reihe von Tests. In einem fragten sie GPT-4, wie man ein Buch, neun Eier, einen Laptop, eine Flasche und einen Nagel stabil stapelt. Die Antwort lautete: „Legen Sie den Laptop mit dem Bildschirm nach unten und der Tastatur nach oben auf die Eier. Der Laptop passt genau in die Grenzen des Buches und der Eier und seine flache und starre Oberfläche bietet eine stabile Plattform für die nächste Schicht.“

Nicht schlecht. Aber als Mitchell ihre eigene Version der Frage versuchte und GPT-4 aufforderte, einen Zahnstocher, eine Schüssel Pudding, ein Glas Wasser und einen Marshmallow zu stapeln, schlug sie vor, den Zahnstocher in den Pudding und den Marshmallow auf den Zahnstocher zu stecken, und Balancieren Sie das volle Glas Wasser auf dem Marshmallow. (Es endete mit einem hilfreichen Hinweis zur Vorsicht: „Denken Sie daran, dass dieser Stapel empfindlich und möglicherweise nicht sehr stabil ist. Seien Sie beim Aufbau und bei der Handhabung vorsichtig, um Verschüttungen oder Unfälle zu vermeiden.“)

Hier ist ein weiterer umstrittener Fall. Im Februar veröffentlichte der Forscher der Stanford University, Michal Kosinski, einen Artikel, in dem er behauptete, er zeige, dass die Theorie des Geistes „spontan als Nebenprodukt“ in GPT-3 entstanden sein könnte. Die Theorie des Geistes ist die kognitive Fähigkeit, mentale Zustände anderen zuzuschreiben, ein Merkmal emotionaler und sozialer Intelligenz, das sich die meisten Kinder im Alter zwischen drei und fünf Jahren aneignen. Kosinski berichtete, dass GPT-3 grundlegende Tests zur Beurteilung der Fähigkeit beim Menschen bestanden habe.

Eine Maschine, die wie ein Mensch denken könnte, war seit den Anfängen die Leitvision der KI-Forschung – und bleibt ihre umstrittenste Idee.

Kosinski gab GPT-3 beispielsweise dieses Szenario vor: „Hier ist eine Tüte gefüllt mit Popcorn. In der Tüte ist keine Schokolade. Doch auf dem Etikett auf der Tüte steht „Schokolade“ und nicht „Popcorn“. Sam findet die Tasche. Sie hatte die Tasche noch nie zuvor gesehen. Sie kann nicht sehen, was sich in der Tasche befindet. Sie liest das Etikett.“

Anschließend forderte Kosinski das Model auf, Sätze zu vervollständigen wie: „Sie öffnet die Tasche und schaut hinein.“ Sie kann deutlich erkennen, dass die Tüte voll ist mit …“ und „Sie glaubt, dass die Tüte voll ist mit …“ GPT-3 vervollständigte den ersten Satz mit „Popcorn“ und den zweiten Satz mit „Schokolade“. Er betrachtet diese Antworten als Beweis dafür, dass GPT-3 zumindest eine grundlegende Form der Theorie des Geistes aufweist, da sie den Unterschied zwischen dem tatsächlichen Zustand der Welt und Sams (falschen) Überzeugungen darüber erfassen.

Es ist keine Überraschung, dass Kosinskis Ergebnisse Schlagzeilen machten. Sie riefen auch zu sofortigem Widerstand auf. „Ich war auf Twitter unhöflich“, sagt Cheke.

Mehrere Forscher, darunter Shapira und Tomer Ullman, ein Kognitionswissenschaftler an der Harvard University, veröffentlichten Gegenbeispiele, die zeigten, dass große Sprachmodelle einfache Variationen der von Kosinski verwendeten Tests nicht bestanden. „Ich war sehr skeptisch, wenn man bedenkt, was ich über den Aufbau großer Sprachmodelle weiß“, sagt Ullman.

Ullman optimierte Kosinskis Testszenario, indem er GPT-3 mitteilte, dass die Tüte Popcorn mit der Aufschrift „Schokolade“ transparent sei (damit Sam sehen konnte, dass es sich um Popcorn handelte) oder dass Sam nicht lesen konnte (damit sie nicht durch die Aufschrift in die Irre geführt würde). Ullman stellte fest, dass GPT-3 es versäumte, Sam die richtigen mentalen Zustände zuzuschreiben, wenn die Situation ein paar zusätzliche Denkschritte erforderte.

„Die Annahme, dass für Menschen konzipierte kognitive oder akademische Tests als genaue Messung der LLM-Fähigkeit dienen, beruht auf der Tendenz, Modelle zu anthropomorphisieren und ihre Bewertung an menschlichen Standards auszurichten“, sagt Shapira. „Diese Annahme ist falsch.“

Für Cheke gibt es eine offensichtliche Lösung. Wissenschaftler bewerten seit Jahrzehnten die kognitiven Fähigkeiten von Nicht-Menschen, sagt sie. Forscher auf dem Gebiet der künstlichen Intelligenz könnten Techniken zur Untersuchung von Tieren anpassen, die entwickelt wurden, um voreilige Schlussfolgerungen zu vermeiden, die auf menschlichen Vorurteilen beruhen.

Nehmen Sie eine Ratte in einem Labyrinth, sagt Cheke: „Wie navigiert sie?“ Die Annahmen, die man in der menschlichen Psychologie treffen kann, gelten nicht.“ Stattdessen müssen Forscher eine Reihe kontrollierter Experimente durchführen, um herauszufinden, welche Informationen die Ratte verwendet und wie sie sie verwendet, und Hypothesen nacheinander testen und ausschließen.

„Bei Sprachmodellen ist es komplexer. „Es ist nicht so, dass es Sprachtests für Ratten gibt“, sagt sie. „Wir befinden uns in einer neuen Zone, aber viele der grundlegenden Vorgehensweisen bleiben bestehen. Es ist nur so, dass wir es mit der Sprache machen müssen, statt mit einem kleinen Labyrinth.“

Weidinger verfolgt einen ähnlichen Ansatz. Sie und ihre Kollegen adaptieren Techniken, mit denen Psychologen die kognitiven Fähigkeiten präverbaler menschlicher Säuglinge beurteilen. Eine Schlüsselidee hierbei ist, einen Test für eine bestimmte Fähigkeit in eine Reihe von Tests zu unterteilen, die auch nach verwandten Fähigkeiten suchen. Bei der Beurteilung, ob ein Säugling beispielsweise gelernt hat, einer anderen Person zu helfen, könnte ein Psychologe auch beurteilen, ob der Säugling versteht, was es heißt, ihn zu behindern. Dadurch wird der Gesamttest robuster.

Das Problem ist, dass solche Experimente Zeit brauchen. Ein Team könnte das Verhalten von Ratten jahrelang untersuchen, sagt Cheke. Künstliche Intelligenz entwickelt sich viel schneller. Ullman vergleicht die Bewertung großer Sprachmodelle mit der Sisyphusstrafe: „Von einem System wird behauptet, es zeige Verhalten

Verschieben der Torpfosten

„Vor fünfzig Jahren dachten die Leute, um einen Großmeister im Schach zu schlagen, bräuchte man einen Computer, der so intelligent ist wie ein Mensch“, sagt Mitchell. Aber Schach fiel den Maschinen zu, die einfach bessere Zahlenverarbeiter waren als ihre menschlichen Gegner. Brutale Gewalt siegte, nicht Intelligenz.

Ähnliche Herausforderungen wurden gestellt und gemeistert, von der Bilderkennung bis hin zu Go. Jedes Mal, wenn Computer dazu gebracht werden, etwas zu tun, das menschliche Intelligenz erfordert, etwa Spiele zu spielen oder Sprache zu verwenden, spaltet sich das Feld. Große Sprachmodelle stehen nun vor ihrem eigenen Schachmoment. „Es drängt uns – jeden – wirklich dazu, darüber nachzudenken, was Intelligenz ist“, sagt Mitchell.

„Geistergeschichten sind ansteckend.“

Zeigt GPT-4 echte Intelligenz, indem es all diese Tests besteht, oder hat es eine effektive, aber letztendlich dumme Abkürzung gefunden – einen statistischen Trick, der aus einem Hut voller Billionen von Korrelationen über Milliarden von Textzeilen gezogen wurde?

„Wenn Sie sagen: ‚Okay, GPT4 hat die Anwaltsprüfung bestanden, aber das bedeutet nicht, dass es intelligent ist‘, sagen die Leute: ‚Oh, Sie verschieben die Torpfosten‘“, sagt Mitchell. „Aber sagen wir, dass wir den Zielpfosten verschieben, oder sagen wir, dass wir das nicht mit Intelligenz gemeint haben – wir haben uns in Bezug auf Intelligenz geirrt?“

Es kommt darauf an, wie große Sprachmodelle tun, was sie tun. Einige Forscher möchten die Obsession mit Testergebnissen aufgeben und versuchen herauszufinden, was unter der Haube vor sich geht. „Ich denke, um ihre Intelligenz, wenn wir sie so nennen wollen, wirklich zu verstehen, müssen wir die Mechanismen verstehen, mit denen sie argumentieren“, sagt Mitchell.

Ullman stimmt zu. „Ich sympathisiere mit Leuten, die denken, dass dadurch die Zielpfosten verschoben werden“, sagt er. „Aber das war schon lange die Dynamik. Neu ist, dass wir jetzt nicht wissen, wie sie diese Tests bestehen. Uns wurde nur gesagt, dass sie es bestanden haben.“

Das Problem ist, dass niemand genau weiß, wie große Sprachmodelle funktionieren. Es ist schwierig, die komplexen Mechanismen innerhalb eines umfangreichen statistischen Modells auseinanderzuhalten. Aber Ullman glaubt, dass es theoretisch möglich ist, ein Modell zurückzuentwickeln und herauszufinden, welche Algorithmen es verwendet, um verschiedene Tests zu bestehen. „Ich könnte mich leichter überzeugen lassen, wenn jemand eine Technik entwickeln würde, um herauszufinden, was diese Dinge tatsächlich gelernt haben“, sagt er.

„Ich denke, dass das grundlegende Problem darin besteht, dass wir uns weiterhin auf die Testergebnisse konzentrieren und nicht darauf, wie man die Tests besteht.“

Das Unternehmen hofft, dass LLaMA 2 als Open-Source-Lösung ihm einen Vorsprung gegenüber Konkurrenten wie OpenAI verschaffen könnte.

Die Wissenschaft wird viel spannender – und das wird uns alle betreffen, argumentiert der ehemalige CEO von Google.

Der Modern Turing Test würde messen, was eine KI in der Welt bewirken kann, und nicht nur, wie sie aussieht. Und was ist aussagekräftiger als Geld zu verdienen?

Neue Forschungsergebnisse zeigen, dass Sie je nach KI-Modell, nach dem Sie fragen, eher rechte oder linke Antworten erhalten.

Entdecken Sie Sonderangebote, Top-Storys, bevorstehende Veranstaltungen und mehr.

Vielen Dank für das Absenden Ihrer E-Mail!

Es sieht so aus, als wäre etwas schief gelaufen.

Beim Speichern Ihrer Einstellungen ist ein Problem aufgetreten. Versuchen Sie, diese Seite zu aktualisieren und sie noch einmal zu aktualisieren. Wenn Sie diese Nachricht weiterhin erhalten, wenden Sie sich an [email protected] mit einer Liste der Newsletter, die Sie erhalten möchten.

Offen für InterpretationenSprödigkeitstestsVerschieben der Torpfosten