Ein Modell des konzeptionellen Bootstrappings in der menschlichen Kognition

Nature Human Behavior (2023)Diesen Artikel zitieren

Details zu den Metriken

Um ein schwieriges Problem anzugehen, ist es oft sinnvoll, vorhandenes Wissen wiederzuverwenden und neu zu kombinieren. Eine solche Bootstrap-Fähigkeit ermöglicht es uns, trotz begrenzter kognitiver Ressourcen reichhaltige mentale Konzepte zu entwickeln. Hier präsentieren wir ein Rechenmodell des konzeptionellen Bootstrapping. Dieses Modell nutzt ein dynamisches konzeptionelles Repertoire, das Elemente früherer Erkenntnisse auf prinzipielle Weise zwischenspeichern und später wiederverwenden kann und das Lernen als eine Reihe kompositorischer Verallgemeinerungen modelliert. Dieses Modell sagt systematisch unterschiedliche erlernte Konzepte voraus, wenn dieselben Beweise in unterschiedlicher Reihenfolge verarbeitet werden, ohne zusätzliche Annahmen über frühere Überzeugungen oder Hintergrundwissen. In vier Verhaltensexperimenten (insgesamt n = 570) zeigen wir starke Curriculum-Ordnung- und konzeptionelle Garden-Pathing-Effekte, die unseren Modellvorhersagen sehr ähneln und sich von denen alternativer Konten unterscheiden. Insgesamt bietet diese Arbeit eine rechnerische Darstellung der Art und Weise, wie vergangene Erfahrungen zukünftige konzeptionelle Entdeckungen prägen, und zeigt die Bedeutung der Lehrplangestaltung für menschliche induktive Konzeptschlüsse.

Menschen verfügen über eine bemerkenswerte Fähigkeit, trotz begrenzter kognitiver Fähigkeiten reichhaltige und komplexe Konzepte zu entwickeln. Einerseits gibt es reichlich Belege dafür, dass Menschen begrenzte Denkfähigkeiten haben1,2,3,4,5, jeweils nur über eine relativ kleine Anzahl mentaler Optionen verfügen6,7,8,9,10 und im Allgemeinen von einer erschöpfenden Suche über eine große Anzahl abweichen Hypothesenräume11,12,13,14,15. Andererseits können diese begrenzten Denker reich strukturierte Konzeptsysteme entwickeln16,17,18, anspruchsvolle Erklärungen liefern19,20,21 und komplexe wissenschaftliche Theorien vorantreiben22. Wie sind Menschen in der Lage, solch komplexe Konzepte zu schaffen und zu begreifen, die so weit außerhalb ihrer Reichweite zu liegen scheinen?

Newton gab auf diese Frage eine berühmte Antwort: „Wenn ich weiter gesehen habe, dann dadurch, dass ich auf den Schultern von Riesen gestanden habe“23. Dies spiegelt die Intuition wider, dass Menschen begrenzt und dennoch mit der Fähigkeit gesegnet sind, nicht nur von anderen zu lernen, sondern auch vorhandenes Wissen zu erweitern und neu zu nutzen, um neue und wirkungsvollere Ideen zu entwickeln. Diese Fähigkeit gilt als Eckpfeiler der kognitiven Entwicklung24. Wenn beispielsweise kleine Kinder auf atomaren Konzepten der kleinen Zahlen Eins, Zwei, Drei und Zählen aufbauen, scheinen sie auf allgemeinere und abstraktere numerische Konzepte wie Nachfolgebeziehungen und die unendliche Linie der reellen Zahlen zuzugreifen25. Durch Bootstrapping muss vorhandenes, hart erarbeitetes Wissen nicht jedes Mal neu entdeckt werden, wenn es verwendet wird, was dem Lernenden Zeit und Mühe bei der Entwicklung neuer Konzepte erspart, die auf alten Konzepten aufbauen. Aufgrund einer solch effektiven Repräsentation des vorhandenen Wissens können Menschen schrittweise zu reichhaltigen mentalen Konstrukten gelangen26,27,28 und durch Ebenen der verschachtelten Wiederverwendung auf natürliche Weise eine Hierarchie von Konzepten aufbauen18.

Während Bootstrapping eine Schlüsselidee in Lern- und Entwicklungstheorien24 ist, sind sowohl Verhaltensstudien, die Bootstrapping direkt untersuchen, als auch kognitive Modelle, die seine Mechanismen artikulieren, relativ selten. Piantadosi et al.25 waren Vorreiter einer Forschungslinie, die Bootstrapping in einem Bayes'schen Konzept-Lernrahmen postulierte. Sie konzentrierten sich jedoch auf die Entdeckung einer rekursiven Funktion beim Erlernen numerischer Konzepte und ließen die Aufgabe offen, Bootstrapping als allgemeines Modell der induktiven Online-Inferenz zu untersuchen. Dechter et al. 29 formalisierte die Idee, dass ein künstlicher Lernender mit der Lösung einfacher Suchprobleme beginnen und dann einige der Lösungen wiederverwenden kann, um bei komplexeren Problemen voranzukommen. Dieser Ansatz entwickelte sich später zum Bayes'schen Bibliothekslernen, einer Klasse von Modellen, die auf die Extraktion gemeinsamer Funktionalitäten aus einer Sammlung von Programmen abzielen30,31. Diese Modelle haben eine Vielzahl von Aufgaben erfolgreich gelöst und nachweislich Aspekte der menschlichen Kognition erfasst32,33. Diese Arbeiten zielen jedoch in erster Linie darauf ab, optimale Bibliotheken zu erlernen oder anspruchsvolle Testprobleme zu lösen, anstatt zu erklären, wie Ressourcenbeschränkungen mit den Mechanismen des Bootstrapping interagieren und wie die Ausnutzung solcher Interaktionen menschliche Muster von Denkfehlern und Erfolgen erklären kann.

Hier stellen wir ein Rechenmodell dafür bereit, wie Menschen booten, und schlagen einen algorithmischen Mechanismus vor, der selbst mit begrenzten kognitiven Ressourcen nach und nach umfassende Konzepte hervorbringt. Wir betrachten die Art und Weise, wie Menschen Konzepte konstruieren, als Rechenproblem und modellieren Bootstrapping als einen Lernalgorithmus auf Prozessebene34, der zuvor erlernte Konzepte effektiv zwischenspeichert und sie durch prinzipielle Repräsentation für komplexere Konzepte wiederverwendet. Um dies zu erreichen, erweitern wir standardmäßige bayesianische Konzeptlern-Frameworks um eine dynamische Konzeptbibliothek, die im Laufe der Zeit erweitert werden kann und auf einer Formalisierung basiert, die aus Adaptergrammatiken stammt35,36. Anschließend entwerfen wir auf der Grundlage dieses Modells Experimente, um zu testen und zu messen, wie Menschen komplexe Konzepte konstruieren und wie sich dieser Prozess an die Reihenfolge anpasst, in der Menschen auf Beweise stoßen oder über sie nachdenken. Wir vergleichen dieses Bootstrap-Lernkonto mit einer Vielzahl alternativer Modelle des Konzeptlernens und zeigen, wie ein Cache-and-Reuse-Mechanismus eine Erklärung für menschliche Inferenzbeschränkungen bereitstellt und wie er es uns ermöglicht, zu Konzepten zu gelangen, die zunächst außerhalb unseres Verständnisses liegen. unter förderlichen Bedingungen.

Betrachten Sie die in Abb. 1a dargestellte kausale Lern- und Generalisierungsaufgabe. Ein Agentenobjekt A (in unseren Experimenten „magisches Ei“ genannt) bewegt sich auf ein Empfängerobjekt R (einen „Stab“ genannt) zu, und wenn sich Agentenobjekt A gegenseitig berührt, ändert sich die Anzahl der Segmente auf dem Empfängerobjekt R. Erzeugen dessen, was wir das Ergebnisobjekt R' nennen. Hier hat ein Agentenobjekt zwei numerische Merkmale – eine Anzahl von Streifen und eine Anzahl von Punkten – und die Leute werden gebeten, Hypothesen über die Natur der Kausalbeziehung zwischen Agenten- und Empfängerobjekten und dem Ergebnis oder formal dem Inhalt der Funktion f( Streifen(A), Fleck(A), Segment(R)), das Segment(R') erzeugt. Ohne Mehrdeutigkeit kürzen wir dies auf R' ← f(Streifen(A), Fleck(A), R).

a, Beispiel einer kausalen Interaktion mit (1) kausalen Objekten (links, Kreis) und Empfängerobjekten (rechts); (2) Agent A bewegt sich nach rechts zum Empfänger R; und (3) bei Berührung wechselt der Empfänger R in seine Ergebnisform R'. Der durchscheinende Marker dient hier nur zur Veranschaulichung der Animation. Zusammenfassung dieser Animation (4), wobei der graue Hintergrund den Agenten A und den Empfänger R vor der kausalen Interaktion zeigt und der weiße Hintergrund den Agenten A und das Ergebnis R' nach der kausalen Interaktion darstellt. b, Schematische Darstellung des Bootstrap-Lernmodells. Bäume stellen beispielhafte Konzeptprogramme dar. c, Beispiel für Bootstrap-Lernverläufe über sechs Beobachtungen (Erläuterung siehe Haupttext).

Trotz ihrer scheinbaren Einfachheit erfasst diese Aufgabe eine zentrale Herausforderung des Konzeptlernens: Der Raum potenzieller Hypothesen ist unendlich. Beispielsweise könnte es sein, dass Objekt A dem Empfänger R zwei Segmente hinzufügt, also R' ← R + 2; oder vielleicht verdoppelt A die Anzahl der Segmente von R, also R' ← 2 × R; oder jeder Streifen auf A ist ein Multiplikator, also R' ← Streifen(A) × R. Der Raum potenzieller Kausalhypothesen ist unbegrenzt. Man kann ein generatives Modell verwenden, um diesen unendlichen Raum mithilfe eines kleinen Satzes von Bausteinen auszudrücken37. Betrachten Sie in diesem Fall eine probabilistische kontextfreie Grammatik G mit den Grundelementen stripe(A), spot(A), R, kleinen ganzen Zahlen 0, 1, 2, 3 und den Operationen +, − und ×. Die Grundelemente stripe(A), spot(A) und R geben entsprechende numerische Werte zurück. Operationen wie + binden zwei numerische Werte und geben nach der entsprechenden Operation einen numerischen Wert zurück. Grammatik G tastet diese Grundelemente rekursiv ab, um Konzepte (Funktionen) zu konstruieren. Insbesondere kann jedes Operationsgrundelement wie + entweder numerische Grundelemente binden oder eine andere Kombination von Operationen aufrufen und so verschachtelte Funktionen wie „stripe(A) × (R − 1)“ bilden. Grammatik G deckt somit einen unendlichen Raum potenzieller Konzepte ab und kann verwendet werden, um eine Wahrscheinlichkeitsverteilung über diesen Raum zuzuordnen (Methoden). Für ein Konzept z ist seine A-priori-Wahrscheinlichkeit durch PG(z) gegeben. Während Lernende Daten D sammeln, können sie prüfen, wie wahrscheinlich es ist, dass Konzept z Daten D erzeugt, bekannt als Wahrscheinlichkeit P(D|z). Gemäß der Bayes-Regel werden die Lernenden dann durch das hintere P(z|D) ∝ P(D|z) × PG(z) informiert. Während eine direkte Berechnung dieses Posteriors nicht durchführbar ist, da der Normalisierungsterm die Unendlichkeit beinhaltet, gibt es viele Methoden, um diese Berechnung anzunähern14,37,38,39.

Wir bauen auf diesem bayesianisch-symbolischen Konzeptlernrahmen auf, um konzeptionelles Bootstrapping zu modellieren. Insbesondere verwenden wir Adaptergrammatiken (AG)36 als unsere generative Grammatik, um A-priori-Wahrscheinlichkeiten zuzuweisen. Eine Adaptergrammatik lernt von Natur aus probabilistische Zuordnungen zwischen Unterteilen einer Struktur und erfasst die Intuition, dass es sinnvoll ist, zu erwarten, dass das gesamte Ensemble in Zukunft gemeinsam sein wird, wenn einige Konzepte häufig zusammenkommen. Ein solcher Mechanismus, Konzeptensembles zwischenzuspeichern und als Ganzes wiederzuverwenden, lockert die kontextfreie Annahme der oben eingeführten kontextfreien Grammatik G und erfasst die Essenz des Bootstrap-Lernens: die effektive Wiederverwendung gelernter Konzepte, ohne sie jedes Mal neu entdecken zu müssen Zeit, in der es verwendet wird. Liang et al.35 erweitern Adaptergrammatiken um kombinatorische Logik und bieten einen Algorithmus zum Lernen von Programmen, der von der gemeinsamen Nutzung und Wiederverwendung von Lernunterprogrammen profitiert. Hier passen wir den Algorithmus von Liang et al.35 an, um diesen Cache-and-Use-Mechanismus als Modell auf Prozessebene für konzeptionelles Bootstrapping unter Ressourcenbeschränkungen zu untersuchen. Konkret führen wir eine latente Konzeptbibliothek ein, die dynamisch aktualisiert werden kann, anstatt Stichproben aus einem festen Satz von Grundelementen zu ziehen. Die Konzeptbibliothek L enthält primitive Konzepte sowie zwischengespeicherte Konzeptensembles, gewichtet nach der Nützlichkeit eines Ensembles (siehe unten). Lernende generieren Konzepte mithilfe von Inhalten in Bibliothek L, und die Adaptergrammatik AG definiert die Wahrscheinlichkeit, dass Bibliothek L Konzept z (Methoden) generiert. Diese gemeinsame Wahrscheinlichkeit P(z, L) liefert einen vorherigen PAG(z|L). Wir können dann die Wahrscheinlichkeit P(D|z) mit diesem Prior kombinieren, was den Posterior P(z|D, L) ergibt.

Das Ziel der Inferenz besteht somit darin, die latente Bibliothek L abzuleiten, die die Lerndaten D am besten erklären kann. In Anlehnung an frühere Arbeiten, die nahelegen, dass menschliche Lernende Schlussfolgerungen ziehen, indem sie eine Stichprobe aus einem ungefähren Posterior ziehen, anstatt den gesamten Posterior-Möglichkeitsraum zu verfolgen12, verwenden wir bekannte Methoden für Stichproben aus Pitman-Yor-Prozessen40, sodass Lernende, abhängig von Bibliothek L zu einem bestimmten Zeitpunkt, geeignete Rückschlüsse auf die Wahrscheinlichkeiten verschiedener Erklärungen für neue oder hervorstechende Ereignisse ziehen können. Insbesondere verwenden wir Gibbs-Sampling (Methoden), eine Markov-Ketten-Monte-Carlo-Methode, für die gemeinsame Verteilung von Konzepten und Bibliotheken. Bei jeder Iteration der Gibbs-Stichprobe nehmen wir eine Stichprobe aus einem Konzept aus dieser Verteilung z ~ PAG(z|L) und kombinieren sie mit der Wahrscheinlichkeitsfunktion, um von den Daten bevorzugte Konzepte zu bestimmen. Anschließend probieren wir bis zu drei bevorzugte Konzepte aus und fügen sie sowie ihre Unterteile zur Bibliothek L hinzu (Caching; Abb. 1b), wodurch das Bibliotheksbeispiel L' entsteht. Beachten Sie, dass in der nächsten Iteration bei der Stichprobe aus PAG(z|L') diese hinzugefügten Inhalte so verwendet werden, als wären sie Grundelemente (Wiederverwendung; Abb. 1b) und der Lernende daher mit relativ wenigen Kompositionsschritten anspruchsvolle Kombinationen zusammenstellen kann ( Methoden).

Diese Idee einer dynamischen Konzeptbibliothek ist besonders wirkungsvoll, wenn wir Ressourcenbeschränkungen berücksichtigen. Nimmt man beispielsweise die sechs Beobachtungen in Abb. 1c, beinhaltet das Grundwahrheitskonzept unterschiedliche kausale Kräfte (mathematische Operationen) pro Agentenmerkmal. Daher ist der Versuch, ein Konzept zu bestimmen, das mit allen sechs Beobachtungen übereinstimmt, ein herausforderndes Problem. Wenn man sich jedoch die ersten drei Paare ansieht, die nur aus Streifen bestehen (Kasten mit durchgezogenen Linien, Abb. 1c), entdeckt der Lernende möglicherweise, dass Streifen Segmente multiplizieren können, R' ← Streifen(A) × R. Mit dieser Idee in Denken Sie daran und betrachten Sie nun alle sechs Paare. Möglicherweise gelingt es dem Lernenden nun, ein verschachteltes Konzept R' ← (Streifen(A) × R) – Punkt(A) zu konstruieren, das alle Beobachtungen erklärt, indem es das frühere Konzept als Unterkonzept wiederverwendet. Wenn wir die Präsentationsreihenfolge vertauschen und dem Lernenden zuerst die letzten drei Paare in Abb. 1c (gestrichelter Rahmen) zeigen, könnte der Raum potenzieller Konzepte den Lernenden überfordern, und ohne dass nützliche Unterkonzepte zwischengespeichert wurden, könnte der vollständige Beobachtungssatz vorhanden sein genauso verwirrend. Im Rahmen unseres Bootstrap-Lernmodells könnten einzelne Lernende eine Konzeptbibliothek L* entwickeln, die das Ergebnis zweier aufeinanderfolgender Episoden der nachträglichen Suche und Zwischenspeicherung ist. Vorausgesetzt, dass die erste Suchphase dazu führt, dass der Lernende den entscheidenden Bausteinstreifen (A) × R zwischenspeichert, führt die zweite Suchphase wahrscheinlich dazu, dass er die Grundwahrheit entdeckt und zwischenspeichert, wodurch dieses Konzept direkt verfügbar wird, wenn Lernende versuchen, Verallgemeinerungen vorzunehmen und explizite Vermutungen.

Unser Bootstrap-Lernmodell sagt voraus, dass eine erfolgreiche Suche nach einem komplexen Zielkonzept in hohem Maße von guten, zuvor erlernten Abstraktionen abhängt. Wir testen diese Modellvorhersagen mithilfe einer zweiphasigen kausalen Lern- und Generalisierungsaufgabe. In Phase I beobachten die Lernenden drei Objektpaare und ihre kausalen Wechselwirkungen (in fester Reihenfolge, wie in Abb. 2a dargestellt), schreiben ihre vermutete kausale Funktion auf und treffen verallgemeinernde Vorhersagen für acht Paare neuartiger Objekte, die in zufälliger Reihenfolge erscheinen. Unmittelbar danach, in Phase II, beobachten die Lernenden drei weitere Objektpaare und ihre kausalen Wechselwirkungen (wobei die vorherigen drei Paare oben noch sichtbar sind), geben eine aktualisierte Schätzung ab, um alle sechs Paare zu berücksichtigen, und treffen dann erneut Verallgemeinerungsvorhersagen für dieselben acht Paare wie zuvor, in einer neuen randomisierten Reihenfolge (Methoden).

a, Lehrpläne in Experiment 1. Experiment 2 ist ein Gegengewicht dazu (Ergänzende Informationen). Textfelder unter jeder Phase sind datenkompatible kausale Konzepte; Transparente Textfelder sind vom Modell bevorzugte Konzepte und schattierte Felder für ebenso komplexe und datenkonsistente alternative Konzepte. b, Generalisierungsgenauigkeit der Teilnehmer (Übereinstimmung mit der Grundwahrheit) in den Experimenten 1 und 2. Boxplots zeigen Mediane mit Hauptlinien, erstes und drittes Quantil als Grenzen der Box, kleinste Werte innerhalb von 1,5-fach unter dem ersten Quantil als Minima, größte Werte innerhalb von 1,5 Zeiten oberhalb des dritten Quantils als Maxima und Whiskers, die sich zwischen Boxgrenzen und diesen Werten erstrecken; Rote Punkte markieren bedeutet. c, Kodierte Selbstberichte in den Experimenten 1 und 2 (siehe Methoden für das Kodierungsschema). Für jeden Lehrplan: linke Balken für Phase I und rechte Balken für Phase II. d, Lehrplangestaltung in Experiment 3. Experiment 4 ist ein Gegengewicht dazu und ist in den Zusatzinformationen verfügbar. e, Übereinstimmung der Teilnehmer mit der Grundwahrheit in den Experimenten 3 und 4. f, Kodierte Selbstberichte in den Experimenten 3 und 4.

Experiment 1 (n = 165) untersuchte drei Lehrpläne. Der Aufbau und die Dekonstruierung des Lehrplans erfolgten wie in Abb. 1c beschrieben und oben diskutiert. Wir haben außerdem einen kombinierten Lehrplan eingefügt, der die gleiche Phase I wie im Konstrukt hat, aber in Phase II durchgehend Stripe(A) = 1 beibehält (Abb. 2a), was es unklar macht, wie Stripe(A) × R und R − spot ( A) sollten kombiniert werden. Wenn Menschen Phase II mit dem zwischengespeicherten Unterkonzept aus Phase I verarbeiten, würden wir erwarten, dass R' ← Streifen(A) × R – Punkt(A) häufiger zu sehen ist als R' ← Streifen(A) × (R – Punkt(A) ). Im Folgeexperiment 2 (n = 165) haben wir die Rollen der Streifen und Flecken des Agentenobjekts vertauscht (Methoden und ergänzende Informationen). Während alle wichtigen Ergebnisse in Experiment 2 zuverlässig reproduziert werden, berichten wir der Einfachheit halber hier in der Analyse auf einzelne Lehrpläne reduzierte Ergebnisse. Erstens beobachteten wir einen signifikanten Unterschied in der Generalisierungsgenauigkeit der Phase II – definiert als „Übereinstimmung mit der Grundwahrheit“ – zwischen den Konstrukt- und Dekonstruktionslehrplänen. (Genau genommen gibt es keine falschen Antworten für die Generalisierungsaufgaben, da es sich bei allen um neuartige Paare außerhalb der Verteilung handelt, so dass jede Generalisierungsvorhersage unter einem abgeleiteten Konzept gerechtfertigt ist.) Wie in Abb. 2b dargestellt, erreichten die Teilnehmer im Rahmen des Konstruktlehrplans die Ergebnisse eine Genauigkeit von 44,7 ± 38,3 %, deutlich höher als diejenigen mit dem Dekonstruktionslehrplan von nur 22,6 ± 27,5 % (t(1.717) = 8,13, P < 0,001, Cohens d = 0,4, 95 % Konfidenzintervall (KI) [0,14, 0,24 ], Zufallsgenauigkeit 1/17 = 5,88 %). Die großen Standardabweichungen deuten hier auf weit verbreitete individuelle Unterschiede bei kausalen Verallgemeinerungen hin und zeigen die Offenheit und Kreativität, mit der Menschen kausale Zusammenhänge konzipieren. Solche individuellen Unterschiede werden deutlich, wenn man sich die Selbstberichte der Teilnehmer ansieht (Abb. 2c). Bei den selbstberichteten Vermutungen der Phase II wurden 37,8 % der Teilnehmer im Rahmen des Konstrukt-Lehrplans als Personen eingestuft, die die Grundwahrheit beschrieben (Abb. 2c), während dies unter der Dekonstruierungs-Bedingung nur 6 % taten (Wilcoxon-Test z = −5,75, P < 0,001, 95). % CI [0, 0,0003], Effektgröße = 0,5). Ein genauerer Blick auf diese Selbstberichte ergab, dass 79 % derjenigen, die in Phase I die Vervielfachung einer Funktion herbeigeführt hatten, anschließend in Phase II auf der Grundwahrheit landeten, was einen klaren Bootstrap-Lernverlauf zeigt. Erinnern Sie sich daran, dass die Teilnehmer am Ende von Phase II sowohl in den Lehrplänen zum Konstruieren als auch zum Dekonstruieren identische Lerninformationen gesehen hatten (Abb. 2a) und dieser wesentliche Unterschied in der endgültigen Lernleistung daher mit unserer Hauptannahme übereinstimmt, dass Menschen Unterkonzepte wiederverwenden, um komplexere zu verfassen . Die bloße Beobachtung von Beweisen, die ein Zielkonzept begünstigen, reicht nicht aus, um dieses Konzept zu induzieren.

Die geringen Übereinstimmungen mit der Grundwahrheit in den Selbstberichten im Dekonstruktionslehrplan spiegeln auch einen starken Garden-Pathing-Effekt wider41. Wir haben die Selbstberichte der Teilnehmer danach kodiert, ob der Inhalt mit der Grundwahrheit übereinstimmt, eine Operation wie Multiplikation, Subtraktion oder Addition beschreibt und unsicher ist oder komplexe Denkmuster beinhaltet, die auf Bedingungen, Positionen von Merkmalen oder relativen Größen basieren (Methoden). Bemerkenswert ist, dass 89 % der Teilnehmer unter der Dekonstruktionsbedingung in Phase I Vermutungen anstellten, die als „komplex“ eingestuft wurden. Ein Teilnehmer schrieb beispielsweise: „Wenn mehr Streifen als Punkte vorhanden sind, wird die Länge des Stabes verkürzt.“ Wenn es gleiche Streifen und Punkte gibt, bleibt der Stab gleich. Wenn es mehr Punkte als Streifen gibt, wird der Stab länger.“ Dies ist ein deutlich höherer Anteil als die in Konstruktphase I berichtete komplexe Regel (31,7 %, Wilcoxon-Test z = −8,76, P <0,001, 95 %-KI [−1, −1], Effektstärke = 0,8). Die durchschnittliche Länge der Phase I-Schätzungen für den Dekonstruktionslehrplan betrug 168 ± 145 Zeichen und war damit ebenfalls deutlich länger als die Antworten im Konstruktlehrplan mit 112 ± 68,1 Zeichen (t(168,09) = −3,76, P <0,001, Cohens d = 0,5, 95 % KI [−85,65, −26,72]). Diese längeren und komplexeren anfänglichen Vermutungen schienen die zweite Phase des Experiments zu beeinflussen. In der Dekonstruktionsphase II blieben 50 % der Reporter komplexer Konzepte, nachdem sie die einfacheren Beispiele gesehen hatten, entweder bei ihren anfänglichen komplexen Vermutungen oder verschönerten sie noch mehr, was dazu führte, dass 48,7 % in Phase II komplizierte, selbst berichtete kausale Konzepte vornahmen. Darüber hinaus beschrieben nur 24,8 % der Teilnehmer in Phase II des Dekonstruktionslehrplans, dass sich ein Merkmal vervielfacht, deutlich weniger als die 40,2 % der Teilnehmer des Konstruktlehrplans nach Phase I (Wilcoxon-Test z = −2,46, P = 0,01, 95 %-KI [0 , 0,0001], Effektgröße = 0,3). Diese Ergebnisse zeigen, dass Menschen häufig in Lernfallen tappen, in denen komplexe anfängliche Beispiele sie daran hindern, zur Grundwahrheit zu gelangen13,42. Auch dieses Muster steht im Einklang mit der Hypothese, dass die Teilnehmer ihre eigenen Ideen aus Phase I wiederverwenden, um das Lernen in Phase II anzukurbeln.

Schließlich bevorzugten die Teilnehmer unter der Kombinationsbedingung mit überwältigender Mehrheit die Grundwahrheit gegenüber der Alternative, obwohl diese gleichermaßen komplex und mit den Daten kompatibel war. In den Selbstberichten der Phase II gaben 24,5 % der Teilnehmer unter der Kombinationsbedingung die Grundwahrheit an, wobei nur einer das alternative Konzept angab (0,94 %; Abb. 2c). Unter diesen Ground-Truth-Reportern der Phase II kamen 92,31 % zu dem Schluss, dass sich ein Merkmal in Phase I vervielfacht, was mit unseren Vorhersagen übereinstimmt, dass Menschen das in Phase I erlernte Konzept als Grundelement in Phase II wiederverwenden. Interessanterweise unterschied sich die Generalisierungsgenauigkeit der Phase II des Combine-Curriculums (41,7 ± 38,5 %) nicht wesentlich von der des Konstrukt-Curriculums (44,7 ± 38,3 %, t(1.702) = 1,25, P = 0,2). Wir kategorisierten einen Teilnehmer außerdem als entsprechend der Grundwahrheit oder dem alternativen Konzept reagierend, wenn mehr als sechs der acht Verallgemeinerungsvorhersagen mit dem entsprechenden Konzept übereinstimmten. Hier antworteten 31 Teilnehmer gemäß der Grundwahrheit (29 %) und nur einer gemäß dem alternativen Konzept (0,01 %, χ2(1) = 28,1, P < 0,001, Cramer's V = 0,94), was darauf hindeutet, dass die Tendenz von Cache und Die Wiederverwendung führt dazu, dass bestimmte Konzepte systematisch gegenüber Alternativen mit dem gleichen Grad an Genauigkeit und Komplexität bevorzugt werden.

Die Ergebnisse des kombinierten Lehrplans scheinen die Idee zu stützen, dass Menschen frühere Konstruktionen als konzeptionelle Grundelemente wiederverwenden. Es könnte jedoch auch mit der Idee vereinbar sein, dass Menschen die beiden Unterkonzepte einfach additiv „zusammengeklebt“ haben – das heißt, (Streifen(A) × R) + (− Punkt(A)) ist logisch äquivalent zur Grundwahrheit. Darüber hinaus passt diese „Multiplizieren-zuerst“-Funktion natürlicher zur herkömmlichen Reihenfolge mathematischer Operationen, bei denen die Multiplikation vor der Addition ohne Klammern durchgeführt wird. Um diese Bedenken auszuräumen, haben wir außerdem einen neuen Lehrplan namens „Flip“ entworfen, der Phase I und Phase II der Kombination vertauscht (Abb. 2d). Wenn Menschen in diesem Flip-Curriculum das Konzept, das sie in Phase I abgeleitet haben, als konzeptionelles Grundelement in Phase II wiederverwenden, sollten sie zu dem Schluss kommen, dass R' ← Streifen(A) × (R – Punkt(A) ist, die datenkonsistente Alternative, die von nicht bevorzugt wird die Kombinationsbedingung. Wenn Menschen stattdessen Addition als Standard- oder dominanten Kompositionsmodus verwenden, würden wir in Flip-Phase II erwarten, dass sie immer noch die ursprüngliche Grundwahrheit bevorzugen. Experiment 3 (n = 120) testete diesen Flip-Curriculum zusammen mit dem Kombinieren Sie den Lehrplan wie in Experiment 1 und verwenden Sie das Material genau wie in Abb. 2d. Experiment 4 (n = 120) kehrte die Kausalkräfte zwischen Streifen- und Punktmerkmalen um, replizierte ansonsten jedoch Experiment 3 (Methoden und ergänzende Informationen).

Wir fanden heraus, dass die Menschen im Flip-Curriculum tatsächlich seltener die Grundwahrheit bevorzugten (Abb. 2e, f). Die Generalisierungsgenauigkeit, hier definiert als Übereinstimmung mit der ursprünglichen Grundwahrheit, betrug für die Teilnehmer der Flip-Phase II 35,2 ± 34,3 %, während die Teilnehmer der Combine 44 ± 41,8 % erreichten (t(1.881,9) = 3,93, P < 0,001, Cohens d = 0,2 , 95 %-KI [0,04; 0,13]). Darüber hinaus berichteten nur 8,7 % der Teilnehmer am Flip-Curriculum in Phase II über „Ground Truth“, verglichen mit 25,4 % unter der Kombinationsbedingung (Wilcoxon-Test z = −3,46, P < 0,001, 95 %-KI [0, 0,0001], Effektgröße). = 0,3). Diese Ergebnisse stehen im Einklang mit unserer vorherigen Feststellung, dass die Konstruktion, Zwischenspeicherung und spätere Wiederverwendung des Schlüsselunterkonzepts für den Erwerb des komplexen Zielkonzepts von entscheidender Bedeutung ist.

Eine weitere Untersuchung legt jedoch nahe, dass der Rückgang bei der Synthetisierung der Grundwahrheit wiederum nicht in erster Linie auf die Hinwendung zur Alternative zurückzuführen ist. Die Generalisierungsgenauigkeit der Teilnehmer hinsichtlich der Übereinstimmung mit dem alternativen Konzept betrug 28,8 ± 17,3 % und lag damit unter dem Grad der Übereinstimmung mit den Vorhersagen der ursprünglichen Grundwahrheit. Wie in Abb. 2f dargestellt, berichteten fünf Teilnehmer der Flip-Phase II über das alternative Konzept (2,08 %), während 16,7 % die Grundwahrheit vermuteten (χ2(1) = 27,2, P < 0,001, Cramers V = 0,8). Dies deutet darauf hin, dass die additive Kompositionsform immer noch eine weit verbreitete induktive Tendenz ist und mit dem sequentiellen Bootstrap-Lernen bei Phasenschlussaufgaben interagiert. Anders ausgedrückt: Die Menschen entscheiden möglicherweise, welche Phase sie aufteilen möchten, je nach ihrer induktiven Vorliebe für die kompositorische Form, und dies könnte die Reihenfolge außer Kraft setzen, in der die Beweise tatsächlich in den Experimenten präsentiert wurden.

In unserer experimentellen Benutzeroberfläche waren am Ende der Phase II alle sechs Paare von Lernbeispielen auf dem Bildschirm verfügbar und die Teilnehmer konnten frei nach oben und unten scrollen, um frühere Paare noch einmal anzusehen. Eine solche erneute Betrachtung könnte zu Cache- und Wiederverwendungsreihenfolgen führen, die sich von denen unterscheiden, die von den Experimentatoren entworfen wurden. Da wir die Teilnehmer dazu ermutigt haben, kausale Zusammenhänge zu synthetisieren, die alle sechs Paare erklären können, könnte dies in der Tat zu bewussten Wiederholungen führen. Durch die erneute Betrachtung der Beweise könnte im Flip-Curriculum eine starke induktive Tendenz zur additiven Kompositionsform dazu führen, dass die Grundwahrheit der Alternative vorgezogen wird. In den Dekonstruktionslehrplänen in den Experimenten 1 und 2 haben einige Teilnehmer möglicherweise Phase I erneut besucht, nachdem sie Phase II beobachtet hatten, und dadurch die Grundwahrheit entsprechend entdeckt, was sich in der leichten Steigerung der Generalisierungsgenauigkeit von Phase II im Vergleich zu Phase I in Dekonstruktion widerspiegelt (Abb. 2b). .

Wir untersuchen nun Vorhersagen und Simulationen aus einer Reihe von Rechenmodellen und vergleichen deren Fähigkeit, die Generalisierungsmuster der Teilnehmer zu reproduzieren. Zuerst haben wir ein Bootstrap-Lernmodell betrachtet, das auf der Adaptergrammatik AG basiert, wie in Formalisierung beschrieben. Model AG verarbeitet zunächst Lernbeispiele der Phase I, erwirbt eine aktualisierte Bibliothek und verarbeitet dann die Phasen I und II insgesamt mit der aktualisierten Bibliothek. Um der Tatsache Rechnung zu tragen, dass die Teilnehmer nach dem Nachdenken über Phase II nach oben und unten scrollen und wieder auf Phase I zugreifen konnten, haben wir als Nächstes eine Variante der AG in Betracht gezogen, die Adaptergrammatik mit Wiederaufbereitung (AGR). Dieses Modell mischt Vorhersagen \({\hat{y}}_{\to }\) von Phase I bis II und Vorhersagen \({\hat{y}}_{\leftarrow }\) von Phase II bis I, mit einem Gewichtsparameter θ ∈ [0, 1], wodurch eine gemischte Vorhersage \({\hat{y}}_{r}\propto \theta \times {\hat{y}}_{\to }+(1) erhalten wird -\theta )\times {\hat{y}}_{\leftarrow }\). Die Werte der Hyperparameter in den Modellen AG und AGR waren die gleichen wie in Liang et al.35. Aus den geschätzten hinteren Bibliotheken können wir eine große Anzahl generierter Konzepte sammeln. Da es sich bei Konzepten hier um Funktionen handelt, die R' für beliebige Agent-Empfänger-Objektpaare spezifizieren, ergibt die Auswertung dieser Konzepte für neuartige Objektpaare und die Marginalisierung dieser Vorhersagen eine Verteilung von R' für neuartige Objektpaare (Methoden).

Zum Vergleich untersuchten wir ein „Rational Rules“ (RR)-Modell basierend auf Goodman et al.37. Dieses Modell geht von denselben konzeptionellen Grundelementen aus wie die Adaptergrammatikmodelle, verwendet jedoch eine probabilistische kontextfreie Grammatik für frühere Konzepte, wie durch Grammatik G in Formalisierung spezifiziert (siehe auch Methoden). Da wir Modelle mithilfe von Verallgemeinerungen bewerten, haben wir auch mehrere subsymbolische Modelle implementiert, die eine Verallgemeinerung, aber keine expliziten Regelschätzungen ermöglichen. Hier haben wir ein auf Ähnlichkeit basierendes Kategorisierungsmodell (Similarity)43, ein lineares Regressionsmodell (LinReg) und ein multinomiales Regressionsmodell (Multinom) einbezogen. Wir haben außerdem ein Gaußsches Prozessregressionsmodell (GpReg) mit radialen Basisfunktionskernen (einer pro Merkmal) in Betracht gezogen, da diese Modelle eine menschenähnliche Leistung beim Funktionslernen und bei Verallgemeinerungen mit wenigen Schüssen aufweisen44,45. Für die Kategorisierungs- und Regressionsmodelle wurden Parameter an die Lernbeispiele angepasst, um R' mithilfe von Streifen (A), Punkt (A) und R vorherzusagen. Anschließend haben wir mit diesen angepassten Modellen Vorhersagen über die neuartigen Objekte getroffen und die Modellvorhersagen im Hinblick auf bewertet ihre Log-Likelihood (LL) für die Vorhersagen der Teilnehmer (Methoden).

Abbildung 3a zeigt die Verbesserung jedes Modells gegenüber einem Basismodell der Zufallsauswahl, Δmodel = LLmodel − LLrandom. Das Modell AGR erzielt die größte Verbesserung, wobei die drei bayesianisch-symbolischen Modelle (AGR, AG und RR) auf Ähnlichkeit oder Regression basierende Modelle deutlich übertreffen. Mit angepassten Modellparametern zeigt Abb. 3b die Generalisierungsgenauigkeit in jeder Phase für jeden Lehrplan zwischen Modell und Personen. Im Einklang mit den allgemeinen Modellanpassungen sagt AGR die Leistung der Menschen in allen Fällen am besten voraus, und die nicht symbolischen Modelle stimmen nicht mit den Vorhersagen der Menschen überein.

a, Verbesserung der Modellanpassung (gesamte logarithmische Wahrscheinlichkeit) gegenüber der zufälligen Basislinie (y = 0), logarithmische Skala. b, Generalisierungsgenauigkeit je nach Lehrplan und Phase. x-Achse, Modellvorhersagen; y-Achse, Vorhersagen der Menschen; Fehlerbänder geben ein 95 %-KI an. c, Generalisierungsgenauigkeit zwischen den Vorhersagen der Teilnehmer (schwarze Balken, Mittelwerte ± SEM) und vier symbolischen Modellen; n(konstruieren) = 107, n(dekonstruieren) = 117, n(kombinieren) = 220, n(umdrehen) = 126.

Während das Modell RR zwar lernen kann, dass einige Grundelemente häufiger oder nützlicher sind als andere, ist es nicht in der Lage, Konzepte zu entdecken und wiederzuverwenden, wie in Abb. 3a dargestellt. Wir zeichnen außerdem die Generalisierungsgenauigkeiten für die Modelle AGR, AG und RR im Vergleich zu Verhaltensdaten in Abb. 3c auf und zeigen, dass das Modell RR die Auswirkungen auf die Lehrplanreihenfolge zwischen Konstruktions- und Dekonstruierungslehrplänen nicht reproduzieren kann. Dies liegt daran, dass das Modell RR nach Durchsicht aller Daten wahrscheinlich auf der Grundwahrheit gelandet ist, selbst für den dekonstruierten Lehrplan, und daher von der Art und Weise abweicht, wie Menschen Informationsphasen verarbeiten. Model AG hingegen ist von der Lernfalle besiegt, da viele Personen in Phase II im Vergleich zu Phase I keine Genauigkeitsverbesserung zeigten. Model AGR mischt Model AG mit etwas Neuverarbeitung und ist daher in der Lage, die bescheidene Verbesserung der Teilnehmer bei der Dekonstruierung zu erfassen Verallgemeinerungen der Phase II. Darüber hinaus erreicht das Modell RR eine geringere Genauigkeit als Menschen in der kombinierten Phase II, da es der beabsichtigten Grundwahrheit ebenso viel A-Posteriori-Wahrscheinlichkeit zuweist wie den äquivalentkonsistenten Alternativen.

Abbildung 4 zeigt die Vorhersagen des am besten passenden AGR-Modells für jede Generalisierungsaufgabe, wobei die Teilnehmerdaten eine gute Übereinstimmung zeigen. Wir stellen eine interessante Diskrepanz in der Generalisierungsaufgabe 1 fest, bei der es um einen Agenten ohne Flecken oder Streifen ging: Während viele Teilnehmer das Verschwinden von Segmenten vorhersagten, weil R' ← Streifen(A) × R und 0 × 3 = 0, sagten viele Teilnehmer auch das Verschwinden von Segmenten voraus vorhergesagt, dass die resultierende Anzahl von Segmenten gleich bleiben würde. Dies könnte darauf zurückzuführen sein, dass die Teilnehmer zu dem Schluss kamen, dass fehlende Funktionen bedeuteten, dass nichts passieren würde. Zukünftige Arbeiten könnten untersuchen, wie Menschen über solche Grenzfälle denken.

Für experimentelle Phasen werden Panelreihen angezeigt, für Bedingungen Spalten. In jedem Panel zeigt die X-Achse die vorhergesagte Anzahl von Segmenten (0–16) und die zur Analyse angeordneten Aufgaben auf der Y-Achse an.

Insgesamt lieferten die Adaptergrammatikmodelle AG und AGR eine viel bessere Darstellung der Verhaltensmuster der Menschen in den Experimenten als die anderen von uns betrachteten Modelle. Allgemeiner gesagt bedeutet dies, dass sowohl die von Menschen gezeigten Lehrplan-Ordnungs- als auch Garden-Pathing-Effekte als Folgen eines Cache-and-Reuse-Mechanismus erklärt werden können, der die Reichweite eines begrenzten Lernsystems erweitert. Entscheidend ist, dass diese Phänomene weder durch ein standardmäßiges bayesianisches symbolisches Modell noch durch bekannte subsymbolische Kategorisierungsmodelle erklärt werden können, was zeigt, dass ein Cache-and-Reuse-Mechanismus von zentraler Bedeutung für die menschenähnliche induktive Schlussfolgerung auf kompositorische Konzepte ist.

Wir schlagen eine Formalisierung des Bootstrap-Lernens vor, die bayesianisch-symbolische Konzept-Lern-Frameworks mit einem effektiven Cache-and-Reuse-Mechanismus auflädt. Dieses Modell ersetzt einen festen Satz konzeptioneller Grundelemente durch eine dynamische Konzeptbibliothek, die durch Adaptergrammatiken ermöglicht wird, und erleichtert so die schrittweise Entdeckung komplexer Konzepte unter hilfreichen Lehrplänen trotz endlicher Rechenressourcen. Wir zeigen, wie sich kompositorische Konzepte entwickeln, wenn kognitiv gebundene Lernende frühere Schlussfolgerungen über Datenmengen hinweg nutzen, und wie dieser Prozess zu systematisch unterschiedlichen Interpretationen derselben Beweise führt, abhängig von der Reihenfolge, in der sie verarbeitet werden. Da es sich um ein bayesianisch-symbolisches Modell handelt, berücksichtigt unser Ansatz sowohl die von Menschen synthetisierten Kausalkonzepte als auch die von ihnen gemachten Verallgemeinerungsvorhersagen.

Menschen weisen häufig eine allgemeine Pfadabhängigkeit in der Entwicklung ihrer Ideen auf46. Wir zeigen, dass dies auf natürliche Weise geschieht, wenn ein Bootstrap-Lernender in einem Raum kompositorischer Konzepte Fortschritte macht und komplexe Ideen „Stück für Stück“ mit begrenzten kognitiven Ressourcen konstruiert. Im Wesentlichen konzentrieren wir uns darauf, wie die Wiederverwendung früherer Konzepte die Entdeckung komplexerer Kompositionskonzepte mithilfe von Sampling-basierten Inferenzen vorantreibt. Dies baut auf anderen stichprobenbasierten Annäherungen an rationale Modelle7 auf, die zeigen, wie Gedächtnis- und Rechenbeschränkungen in den frühen Phasen des Lernens zentrale Hypothesen erzeugen und die Fähigkeit eines Lernenden beeinträchtigen, Daten zu verarbeiten, auf die er später trifft13,38. Wir gehen über diese frühere Arbeit hinaus und zeigen, wie Menschen ihre unmittelbaren Schlussfolgerungsgrenzen durch die Wiederverwendung und Zusammenstellung früherer Entdeckungen durch eine sich entwickelnde Bibliothek von Konzepten überschreiten. Unser Vorschlag bezieht sich auch auf die Beobachtung47, dass amortisierte Inferenz erklären kann, wie das Lösen einer Unterabfrage die Leistung bei der Lösung komplexer verschachtelter Abfragen verbessert. Während unser Modell die Wiederverwendung in einem Kompositionsraum instanziiert, indem es konzeptionelle Bausteine in einer latenten Konzeptbibliothek zwischenspeichert, besteht die Möglichkeit, den Zusammenhang zwischen unserer Formalisierung und der amortisierten Folgerung im Hinblick darauf zu untersuchen, wie die Wiederverwendung teilweiser Berechnungen die Annäherung an das vollständige Posterior beeinflussen könnte.

Wir bieten auch zusätzliche Erklärungen auf Prozessebene an, warum und wie Menschen häufig unterschiedliche Verständnisse derselben Beweise entwickeln. Es ist bekannt, dass Menschen voreingenommene Interpretationen von Merkmalen entwickeln48 und leicht in verschiedene Lernfallen bei der kategoriebasierten Verallgemeinerung tappen, die mit selektiver Aufmerksamkeit oder Annahmen über Stochastik und Ähnlichkeit verbunden ist42. Jern et al.49 argumentierten, dass unterschiedliche Bewertungen derselben Beweise auf unterschiedliche vorherige Überzeugungen von Menschen zurückzuführen seien. Tian et al.33 bestätigten die Annahme, dass Menschen, ausgestattet mit unterschiedlichen Konzeptbibliotheken, unterschiedliche Lösungen für die gleiche Problemstellung ableiten können. Unsere Formalisierung zeigt jedoch, dass bei Lernenden mit denselben Lernmechanismen und sogar denselben Prioritäten deutlich unterschiedliche Konzeptualisierungen derselben Evidenz auftreten können, die systematisch von einem normativen Ansatz des Bibliothekslernens abweichen. Beachten Sie, dass unsere Experimente kausales Lernen und Verallgemeinerung in abstrakten Umgebungen und nicht anhand subjektiver Meinungen wie politischer Einstellungen testeten, und dienen daher als freundliche Erinnerung daran, dass eine objektive Interpretation nicht garantiert vorherrschend ist, selbst unter fähigen Erkennenden, die dieselben Daten untersuchen.

Diese Interaktion zwischen unseren sich entwickelnden Konzepten und unserem Weg durch die Umgebung, die sie widerspiegeln wollen, bietet sich für mehrere interessante zukünftige Richtungen an. Culbertson und Schuler50 untersuchten die Leistung von Kindern beim Erlernen künstlicher Sprachen und betonten, dass das Lernen eng durch kognitive Einschränkungen begrenzt ist. Wir haben außerdem herausgefunden, dass induktive Vorurteile, wie etwa jene in Bezug auf die Kompositionsformen, die wir in den Experimenten 3 und 4 identifiziert haben, die Reihenfolge prägen, in der Menschen Informationen verarbeiten. Das heißt, dass es weitaus plausibler ist, dass Menschen über induktive Aufmerksamkeits- und Handlungsverzerrungen verfügen, die die Art und Weise bestimmen, wie sie auswählen, welche Teilmenge einer komplexen Situation zuerst verarbeitet werden soll, und dass sie dann darauf aufbauen, um dem Gesamtbild einen Sinn zu geben, als dass sie passive Informationsempfänger sind . Zukünftige Arbeiten könnten unseren Rahmen auf aktive Lernszenarien erweitern, um solche Verhaltensweisen bei der Informationssuche und selbstgesteuerte Lehrplanentwurfsmuster im Bereich des Konzeptlernens zu untersuchen51. Darüber hinaus sind Cache und Wiederverwendung eine nützliche Möglichkeit, Darstellungen umzugestalten. Liang et al.35 führten eine Subtree-Refactoring-Methode zur Entdeckung gemeinsamer Unterstrukturen ein und stellten natürliche zukünftige Erweiterungen für die Untersuchung von Refactoring als kognitiven Inferenzalgorithmus bereit, der an der Entwicklung von Konzepten beteiligt ist52.

Neuere Forschungen in den Neurowissenschaften beginnen zu entschlüsseln, wie das Gehirn nichtparametrische Bayes'sche Berechnungen und latente kausale Schlussfolgerungen durchführen kann53 und haben Repräsentationsähnlichkeiten zwischen künstlichen neuronalen Netzen und Gehirnaktivität aufgedeckt54,55. In diesem Sinne scheinen neuronale Beweise für die Wiederverwendung von Rechenwegen über Aufgaben hinweg56 unsere These zu stützen und unser Verständnis darüber, wie das Gehirn seine konzeptionellen Systeme und Weltmodelle entwickelt, weiter zu bereichern. Eine Herausforderung für den hier verwendeten symbolischen Rahmen ergibt sich aus der Tatsache, dass unsere konzeptionellen Darstellungen eng mit ihren verkörperten sensomotorischen Merkmalen und Konsequenzen verknüpft sind57. Wir freuen uns auf stärker integrierte Modelle, die erfassen, wie symbolische Kompositions- und Caching-Operationen mit solch tief verkörperten Darstellungen interagieren.

Unsere aktuelle Arbeit weist mehrere Einschränkungen auf, die zukünftige Arbeiten beheben könnten. Wir gingen beispielsweise von einer deterministischen Wahrscheinlichkeitsfunktion aus, die jedoch vage Konzepte wie die Abnahme oder Zunahme des Stocks nicht effizient handhabt. Eine Grammatik und Wahrscheinlichkeit, die in der Lage sind, Konzepte zu erfassen, die Verallgemeinerungen einschränken, anstatt sie eindeutig vorherzusagen, könnten ein größeres Spektrum an Vermutungen und Vorhersagen von Menschen erfassen. Da wir der Einfachheit halber keine konzeptionellen Grundelemente für Konditionale einbezogen haben, konnte unser Modell nicht alle „Teile-und-Herrsche“-Selbstberichte ausdrücken, die Menschen machten, wenn sie versuchten, überwältigend komplexe Informationen zu verstehen. Dies wäre eine unkomplizierte Erweiterung, die entweder dadurch erreicht werden kann, dass man mit grundlegenderen Grundelementen beginnt oder ein if-else-Basiskonzept annimmt. Piantadosi58 argumentierte, dass Basisprimitive in der kombinatorischen Logik ausreichen, um jede maschinenberechenbare mentale Darstellung und Berechnung Turings zu begründen. Wir haben natürliche sprachähnliche Basisbegriffe lediglich aus rechnerischen und ausdruckstechnischen Gründen verwendet, und alle Grundprimitive und erlernten Konzepte, von denen wir annahmen, dass sie in rein kombinatorische Logikbasen zerlegt werden können. Darüber hinaus gibt es neben der kombinatorischen Logik viele andere Möglichkeiten, unsere Aufgaben zu formalisieren. Wenn wir beispielsweise die variablen Objekte A und R als hartcodierte Grundelemente betrachten, hätte eine Logikformalisierung erster Ordnung ausgereicht. Wir bevorzugten jedoch die kombinatorische Logik aufgrund ihrer Bequemlichkeit und Flexibilität beim Weiterleiten von Variablen, da diese die gemeinsame Nutzung und Wiederverwendung jedes generierten Programms erleichtert. Eine weitere Einschränkung unseres aktuellen Modells besteht darin, dass es das Vergessen nicht standardmäßig berücksichtigt, ein entscheidendes Merkmal des menschlichen Gedächtnisses und Lernens59,60,61. Um unsere Formalisierung auf ein Modell für lebenslanges Lernen auszudehnen, wäre es wichtig, einen Mechanismus zu integrieren, durch den Konzepte vergessen werden, entweder durch Verfall oder durch Überschreiben oder Verdrängung62.

Zusammenfassend argumentieren wir für die zentrale Rolle des Bootstrap-Lernens bei der induktiven Inferenz des Menschen und schlagen eine rechnerische Darstellung des konzeptionellen Bootstrapping auf Prozessebene vor. Unsere Arbeit stellt Cache und Wiederverwendung als wichtige kognitive Inferenzalgorithmen vor und verdeutlicht die Bedeutung der aktiven Informationsanalyse für begrenzte Denker, die sich mit einer komplexen Umgebung auseinandersetzen. Unsere Ergebnisse unterstreichen die Bedeutung der Lehrplangestaltung im Unterricht und für die Erleichterung der Kommunikation wissenschaftlicher Theorien. Wir hoffen, dass diese Arbeit nicht nur die Sozial- und Kognitionswissenschaften, sondern auch die Entwicklung dateneffizienterer und menschenähnlicherer Algorithmen für künstliches Lernen inspirieren wird.

Alle Experimente wurden mit ethischer Genehmigung des Ethikkomitees für Psychologie der Universität Edinburgh (Ref.-Nr. 3231819/1) durchgeführt. Eine Vorregistrierung für jedes Experiment ist unter https://osf.io/9awhj/ möglich. Alle Teilnehmer gaben vor der Durchführung der Experimente ihre Einverständniserklärung ab.

Insgesamt 165 Teilnehmer (118 weiblich, mittleres Alter (Magier) = 31,8 ± 9,9) wurden von Prolific Academic rekrutiert, laut einer Leistungsanalyse für drei Zwischensubjektbedingungen, bei der eine Leistung von mindestens 0,95 zum Erkennen einer mittelgroßen Person (≈ 0,35) angestrebt wurde ) fester Effekt. Die Teilnehmer erhielten eine Grundzahlung von 1,25 £ und leistungsabhängige Boni (höchste Zahlung 1,93 £). Die Aufgabe dauerte 9,69 ± 4,47 Minuten. Kein Teilnehmer wurde von der Analyse ausgeschlossen.

Agentenobjekt A wurde als Kreis visualisiert, der sich von links auf den Bildschirm bewegte und mit Empfänger R kollidierte (Abb. 1a). A variiert hinsichtlich der Anzahl der Streifen und zufällig angeordneten Punkte; R hatte die Form eines Stabes, der aus mehreren würfelförmigen Segmenten bestand. Während des Lernens lagen alle Merkmalswerte zwischen 0 und 3. Die Regel, die wir zur Bestimmung der endgültigen Segmentanzahl des Empfängers verwendeten, war R' ← Streifen(A) × R – Fleck(A). Die Lernmaterialien waren in Abb. 2a dargestellt. Für Generalisierungsaufgaben könnte eine beliebige Segmentnummer (0–16) ausgewählt werden, wodurch ein nominales Leistungsniveau bei geschlossenen Augen bei 1/17 = 5,88 % liegt. Generalisierungsversuche wurden über eine gierige Entropieminimierungssuche ausgewählt, um einen Satz auszuwählen, der gut zwischen einem Satz von Hypothesen unterscheidet, die von der Modell-AG favorisiert werden (Ergänzende Informationen). Live-Demonstrationen sind unter https://bramleylab.ppls.ed.ac.uk/experiments/bootstrapping/p/welcome.html und eine Vorregistrierung unter https://osf.io/ud7jc verfügbar.

Jeder Teilnehmer wurde zufällig einer der drei Lernbedingungen zugeordnet – Konstruieren, Dekonstruieren oder Kombinieren. Nachdem die Teilnehmer die Anweisungen gelesen und ein Verständnisquiz bestanden hatten, durchliefen sie die Experimentphase I, gefolgt von Phase II. In jeder Phase testete ein Teilnehmer drei Lernbeispiele in der entsprechenden Phase, wie in Abb. 2a dargestellt, wobei jedes nacheinander und in der Reihenfolge in Abb. 2a erschien. Die Teilnehmer beobachteten die animierten kausalen Interaktionen, indem sie auf die Schaltfläche „Testen“ klickten. Nach dem Testen wurde eine visuelle Zusammenfassung des Lernbeispiels, einschließlich des Anfangs- und Endzustands des Empfängers, dem Bildschirm hinzugefügt und blieb bis zum Ende des Experiments sichtbar. Im Anschluss an die Lernphase wurden die Teilnehmer gebeten, ihre Vermutungen über die zugrunde liegenden Kausalzusammenhänge aufzuschreiben und verallgemeinernde Vorhersagen für acht Paare neuartiger Objekte zu treffen. Generalisierungsversuche erschienen nacheinander. Nachdem eine Vorhersage getroffen worden war, wurde dieser Prozess durch den nächsten ersetzt. Die Paare von Generalisierungsobjekten in den Phasen I und II waren gleich, ihre Präsentationsreihenfolge wurde jedoch für jeden Teilnehmer und in jeder Phase randomisiert.

Experiment 2 ist eine merkmalsausgeglichene Replikation von Experiment 1 unter Verwendung der wahren Regel R' ← Spot(A) × R – Streifen(A). Weitere 165 Teilnehmer (118 weiblich, Mage = 33,8 ± 10,1), die nicht an Experiment 1 teilnahmen, wurden von Prolific Academic rekrutiert. Die Aufgabe dauerte 9,8 ± 5,2 Minuten. Kein Teilnehmer wurde von der Analyse ausgeschlossen. Zahlungsskala (höchste Zahlung £ 1,95) und Verfahren waren identisch mit denen in Experiment 1. Anreize und Vorregistrierung sind unter https://osf.io/k5dc3 und in den Zusatzinformationen verfügbar. Wir führten eine bidirektionale Varianzanalyse durch, um die Auswirkung des Merkmalsausgleichs und der Lehrplangestaltung auf die Generalisierungsgenauigkeit der Phase II zu analysieren. Während beide Faktoren signifikante Haupteffekte hatten (Lehrplandesign, F(2, 2) = 9,2, P < 0,001; Merkmalsausgleich, F(1, 2) = 8,5, P < 0,001), gab es keine signifikante Interaktion (F(2). , 324) = 0,15, P = 0,9). Dies weist darauf hin, dass Menschen möglicherweise Streifen- und Punktmerkmale unterschiedlich behandeln, dieser Unterschied beeinträchtigt jedoch nicht wesentlich unsere Ergebnisse für die Lehrplangestaltung.

Für Experiment 3 wurden weitere 120 Teilnehmer (72 weiblich, Mage = 35,4 ± 10,9) rekrutiert, um die Combine- und Flip-Lehrpläne in Abb. 2d zu testen. Wir haben zunächst 165 ÷ 3 × 2 = 110 Teilnehmer rekrutiert, um der Gruppengröße in den Experimenten 1 und 2 zu entsprechen, waren jedoch aufgrund des im Experiment verwendeten Zufallszahlengenerators mit einem Ungleichgewicht zwischen den beiden Lehrplänen konfrontiert (Kombinieren, 47; Umdrehen, 63). Teilnehmer zuzuordnen. Um die Stichproben auszugleichen, rekrutierten wir am selben Tag weitere zehn Teilnehmer für Prolific Academic, alle nach dem kombinierten Lehrplan, und stellten sicher, dass diese zusätzliche Gruppe keine Teilnehmer aus den Experimenten 1 und 2 und dem aktuellen Experiment 3 umfasste. Alle 120 Teilnehmer waren dabei im gleichen Umfang wie in den Experimenten 1 und 2 gezahlt (höchste Zahlung 1,85 £). Die Aufgabe dauerte 10,7 ± 4,5 Minuten. Das Verfahren war ansonsten identisch mit den Experimenten 1 und 2. Kein Teilnehmer wurde von der Analyse ausgeschlossen. Eine Vorregistrierung für dieses Experiment ist unter https://osf.io/mfxa6 möglich. Die vollständigen Stimuli finden Sie in den Zusatzinformationen.

Experiment 4 war eine merkmalsausgeglichene Replikation von Experiment 3. Wir rekrutierten weitere 120 Teilnehmer (76 weiblich, Mage = 34,0 ± 12,6) von Prolific Academic, die nicht an den Experimenten 1–3 teilgenommen hatten. Hier wurden die Rollen der Streifen- und Fleckenmerkmale wie in Abb. 2d vertauscht. Die Teilnehmer wurden in der gleichen Höhe wie in den Experimenten 1–3 bezahlt (höchste Zahlung 1,83 £). Die Aufgabe dauerte 9,2 ± 4,4 Minuten. Die Vorgehensweise war identisch mit der in den Experimenten 1–3. Kein Teilnehmer wurde von der Analyse ausgeschlossen. Die Vorregistrierung ist unter https://osf.io/swde5 möglich. Wie oben zeigte eine Zwei-Wege-Varianzanalyse des Merkmalsausgleichs und des Lehrplanentwurfs zur Vorhersage der Generalisierungsgenauigkeit der Phase II Haupteffekte auf beide Faktoren (Merkmalsausgleich, F(1, 1) = 15,12, P < 0,001; Lehrplanentwurf, F(1, 1) = 11,1, P = 0,001), aber keine Interaktion (F(1, 236) = 0,77, P = 0,4). Während Menschen tatsächlich Streifen- und Punktmerkmale unterschiedlich behandeln, gelten unsere Ergebnisse für die Lehrplangestaltung für beide Experimente.

Zwei Kodierer kategorisierten die Selbstberichte der Teilnehmer unabhängig voneinander. Der erste Kodierer kategorisierte alle kostenlosen Antworten und 15 % der kategorisierten Selbstberichte wurden dann mit denen des zweiten Kodierers verglichen. Der Zustimmungsgrad betrug 97,6 %.

Wir haben acht Codes identifiziert. (1) Grundwahrheit: Äquivalent zum Kausalzusammenhang der Grundwahrheit in jedem Experiment; zum Beispiel: „Die Länge wird mit der Anzahl der Zeilen multipliziert und dann wird die Anzahl der Punkte subtrahiert“ (Teilnehmer 43, Experiment 1). (2) Alternative: entspricht dem alternativen Kausalzusammenhang in jedem Experiment; zum Beispiel: „Die Punkte werden von den Segmenten um ihre Anzahl subtrahiert und die Anzahl der Linien wird mit der Anzahl der Segmente multipliziert“ (Teilnehmer 461, Experiment 3). (3) Comp: unklar oder implizit darüber, wie zwei subkausale Konzepte kombiniert werden sollten; zum Beispiel: „Die Linien multiplizieren die Segmente und die Punkte subtrahieren sie“ (Teilnehmer 451, Experiment 3). (4) Add 2: Fügen Sie dem Empfängerobjekt zwei Segmente hinzu, unter der Annahme, dass nichts passiert, wenn der Merkmalswert des Agentenobjekts 1 ist (Streifen in den Experimenten 1 und 3 und Punkte in den Experimenten 2 und 4); zum Beispiel: „Fügt dem Stab nur dann zwei Segmente hinzu, wenn das Ei zwei oder mehr Streifen aufweist“ (Teilnehmer 35, Experiment 1). (5) Mult: Eine Funktion des Agentenobjekts multipliziert das Empfängerobjekt. zum Beispiel: „Die Anzahl der Streifen multipliziert die Anzahl der Segmente“ (Teilnehmer 59, Experiment 1). (6) Subtraktion: Ein Merkmal des Agentenobjekts ist ein Subtrahierer zum Empfängerobjekt. zum Beispiel: „Jede Stelle auf dem Ei entfernt ein Stäbchen“ (Teilnehmer 100, Experiment 1). (7) Komplex: Beschreiben Sie die Reize, ohne eine Regel zu verallgemeinern, oder geben Sie für jede Beobachtung eine andere Regel an. zum Beispiel: „Drei Punkte bedeuten, dass die Stäbchen verschwinden, zwei Punkte bedeuten zwei Stäbchen und ein Punkt bedeutet, dass ein weiteres Stäbchen hinzugefügt wird“ (Teilnehmer 161, Experiment 1); „Wenn es mehr Linien als Punkte gibt, wird es größer, wenn es aber mehr Punkte als Linien gibt, wird es kleiner; eine gleiche Anzahl von Punkten und Linien führt zu keiner Änderung“ (Teilnehmer 134, Experiment 1). (8) Unsicher: die Lernreize nicht kennen, unsicher oder verwirrt sein; zum Beispiel: „Ich habe keine Ahnung!“ (Teilnehmer 57, Experiment 1).

Zur Visualisierung und Analyse von Daten verwendeten wir R v.4.1.1 (für parametrische statistische Analyse) und die folgenden Pakete: rstatix v.0.7.2 (für nichtparametrische statistische Analyse und Standardeinstellungen), Tidyverse v.1.3.1, ggplot2 v.3.3.5, ggpubr v.0.4.0 und ggridges v.0.5.3. Die in Abb. 2 gezeigten Sankey-Flussdiagramme wurden mit Python v.3.9.1 und dem Paket pySankey v.0.0.1 generiert, installiert von https://github.com/anazalea/pySankey.

AG(t, X)

Erforderlich: Geben Sie τ = t0 → … → tk ein

Erforderlich: Variablen X = {x0, …, xn}

Probe λ ~ U(0, 1)

wenn λ ≤ λ1 dann ⊳Neue Hypothese konstruieren

zL ~ {z|t(z)output = tk} ⊳Stichprobe eines Begriffs, zum Beispiel mult

r ~ r|X| ⊳Probieren Sie einen Router, zum Beispiel SC

i ← |t(zL)| ⊳RHS-Filialen ausbauen

während i > 0, tun

X' = r(X) ⊳Routing-Variablen abrufen

\({\tau}^{{\prime} }=t({X}^{{\prime} })\to t{({{\it{z}_{{\mathrm{L}}}} })}_{i-1}\) ⊳Typeinschränkungen abrufen

AG (r', X') ⊳Rekursiv komponieren

ich ← ich − 1

Ende während

else ⊳Vorhandene Hypothese abrufen

Gib *z ∈ Cτ mit der Wahrscheinlichkeit λ2 zurück

Ende wenn

Da die Adaptergrammatik AG eine modulare Wiederverwendung von Programmfragmenten erwartet, formalisieren wir Programme in kombinatorischer Logik63. Dies löst das Variablenbindungsproblem bei der Generierung funktionaler Programme64 und wird durch neuere Arbeiten von Piantadosi58 gestützt, in denen argumentiert wird, dass kombinatorische Logik ein einheitliches Low-Level-Codierungssystem für menschliche mentale Darstellungen bereitstellt. Wir beginnen mit der Definition eines grundlegenden Satzes von Begriffen und Typen, die für die Aufgabe relevant sind. Diese Wahl dient der Vereinfachung der Erklärung und untergräbt nicht die Fähigkeit unserer Methode, neue Typen und neue Grundbegriffe zu entwickeln. In der kombinatorischen Logik wird jeder Term z als Funktion behandelt und durch seinen Eingabedomänentyp und Ausgabekodomänentyp eingeschränkt, geschrieben in der Form tinput → toutput, mit rechter Assoziation gemäß Konvention. Hier stellen wir standardmäßig den letzten Typ tn in einem Typ t1 → … → tn als Ausgabetyp ein. Lassen wir Agenten- und Empfängerobjekte Variablen vom Typ obj sein, betrachten wir die Grundbegriffe getSpot, getStripe und getSegment, jeweils vom Typ obj → int, den Begriff setSegment vom Typ obj → int → obj und die Begriffe add, sub und mult, jeweils vom Typ int → int → int. Der Begriff getSpotobj→int nimmt ein Objekt als Eingabe und gibt die ganzzahlige Anzahl von Spots auf diesem Objekt zurück. Der Begriff addint→int→int nimmt zwei Ganzzahlen als Eingabe und gibt deren Summe als Ausgabe zurück; und ebenso für die anderen oben genannten Begriffe. Wir betrachten zusätzlich vier primitive ganze Zahlen 0, 1, 2 und 3, da diese Größen in den Lernbeispielen vorkommen. Praktischerweise verwenden wir t(z), um die Art des Termes z zu lesen. Beispielsweise gibt t(getSpot) obj → int zurück. Darüber hinaus nutzt die kombinatorische Logik Router-Terme wie B, C, S und I für die Variablenbindung. Für eine baumartige Struktur [Router, zL, zR] sendet Router B die Variable x zuerst an die rechte Seite zR (RHS) und das Ergebnis wird dann an die linke Seite zL(LHS) gesendet. Mit anderen Worten: [B, zL, zR](x) wird als zL(zR(x)) ausgeführt. In ähnlicher Weise sendet Router C x nach links und dann nach rechts, Router S sendet x nach beiden Seiten und Router I ist eine Identitätsfunktion, die eine Eingabe so zurückgibt, wie sie ist. Für n Eingabevariablen verketten wir n Router in entsprechender Reihenfolge.

Wir verwenden eine Schwanzrekursion zum Verfassen von Begriffen, wie in Dechter et al.29, um Typbeschränkungen effizient zu erfüllen. Wie in Algorithmus 1 gezeigt, tritt er für einen gegebenen Zieltyp τ = to → …tk und einen Satz von Eingabevariablen X = {x0, …, xn} mit der Wahrscheinlichkeit λ1 (siehe Gleichung (1)) in den Konstruktionsschritt ein, und mit der Wahrscheinlichkeit λ2 (siehe Gleichung (1)) gibt es einen Term vom Typ τ zurück und fügt diesen zurückgegebenen Term dem Cache hinzu (daher die Rückgabe* in Algorithmus 1). Der Konstruktionsschritt beginnt mit der Stichprobe eines Termes auf der linken Seite, LHS, dessen Ausgabetyp derselbe ist wie der Ausgabetyp von τ, toutput(τ), was tk ist, da wir standardmäßig das letzte Element in einem Typ als Rückgabe festlegen Typ.

Gemäß der Notation in Liang et al.35 sei N die Anzahl unterschiedlicher Elemente in einer Sammlung von Programmen C und Mz die Häufigkeit, mit der Programm z in Sammlung C vorkommt:

Die Hyperparameter α0 > 0 und 0 < d < 1 in Gleichung (1) steuern den Grad der gemeinsamen Nutzung und Wiederverwendung. Da λ1 proportional zu α0 + Nd ist, gilt: Je kleiner α0 und d, desto weniger Konstruktion und desto mehr Gemeinsamkeiten haben wir. Da λ2 proportional zu Mz ist, erhält ein Programm unabhängig von seiner internen Komplexität eine umso höhere Gewichtung, je häufiger es zwischengespeichert wird. Diese Definition von λ2 instanziiert die Idee des Boostrapping – die Komplexität eines zwischengespeicherten Programms der vorherigen Generation wird durch seine Nützlichkeit im Hinblick auf die Erstellung zukünftiger Konzepte außer Kraft gesetzt. Im Kern verwendet AG zwischengespeicherte Programme wieder, als wären sie konzeptionelle Grundelemente.

Der Einfachheit halber haben wir zunächst einen flachen Prior angenommen, sodass Begriffe mit demselben Typ dieselbe Prior-Wahrscheinlichkeit haben. Basierend darauf, wie viele Variablen dieser Stufe zugeführt werden, |X|, wird dann ein Router r mit entsprechender Länge aus der Menge aller möglichen Router r|X| abgetastet. Es wird wiederum davon ausgegangen, dass es sich um eine Gleichverteilung handelt. Beispielsweise entsprechen zwei Variablen 42 = 16 Routern {BB, BC, BS, BI, …}, und die Wahrscheinlichkeit, jeden Router abzutasten, beträgt 1/16 = 0,0625. Router r sendet dann Eingabevariablen an die Zweige. Jetzt ist der Zieltyp für die rechte Seite des Baums vollständig spezifiziert, da er über alle Eingabetypen (durch r weitergeleitet) und einen erforderlichen Ausgabetyp (zur Einspeisung in LHS) verfügt. Daher wenden wir das gleiche Verfahren iterativ an, um das Unterprogramm RHS auf der rechten Seite zu erhalten und das endgültige Programm [r, LHS, RHS] zurückzugeben. Das erstellte Programm [r, LHS, RHS] wird dann zur Programmbibliothek \(L\) hinzugefügt (Caching). Beachten Sie, dass sich der Zähler für einen Begriff z in Bibliothek L nach dem Zwischenspeichern ändern kann. Das heißt, Mz in Gleichung (1) wird aktualisiert und die Präferenz für nützliche Begriffe wird dann bei der zukünftigen Programmgenerierung eine Rolle spielen.

Angesichts dieses probabilistischen Modells stehen wir vor der Herausforderung, eine Posteriorverteilung über latente Programme effizient anzunähern. Hier verwenden wir bekannte Methoden zur Stichprobenerhebung aus Pitman-Yor-Prozessen35,40, sodass Lernende, abhängig von einer Programmbibliothek zu einem bestimmten Zeitpunkt, geeignete Rückschlüsse auf die Wahrscheinlichkeiten verschiedener Erklärungen für neue oder hervorstechende Ereignisse ziehen können. Dies kann über Gibbs-Sampling65 erfolgen: Für die i-te Iteration wird, abhängig von der Bibliothek aus der vorherigen Iteration Li−1, eine aktualisierte Bibliothek Li abgetastet und zur Sammlung von Samples hinzugefügt.

Bei jeder Iteration des Gibbs-Samplings haben wir bei der Suche nach Programmen, die mit Lerndaten konsistent sind, unter Ressourcenbeschränkungen eine Breitenstrahlsuche durchgeführt. Da der Suchraum mit zunehmender Tiefe exponentiell wächst, gehen wir davon aus, dass Menschen eher oberflächlich als tief suchen. Daher zeichnen wir die Erzeugungstiefe d ∝ e−bd, wobei b ein Parameter ist, der die Steilheit dieses exponentiellen Abfalls steuert. Mit der Generierungstiefe d zählen wir zunächst eine Reihe von Frames auf, \({{{\mathcal{F}}}}\), wobei wir statt Algorithmus 1 rekursiv typisierte Programmplatzhalter für LHS verwenden. Anschließend probieren wir einen Frame aus \({{{\mathcal{F}}}}\) entsprechend den Frame-Generierungswahrscheinlichkeiten aus. Der abgetastete Rahmen wird dann „entfaltet“, wobei jeder Platzhalter durch ein Programm des erforderlichen Typs aus der aktuellen Bibliothek ersetzt wird, was einen Satz vollständig artikulierter Programme M ergibt. Wenn ein oder mehrere Programme M* ⊆ M Lerndaten mit der Wahrscheinlichkeit 1 erzeugen, Wir stoppen die Suche und probieren n = 3 Programme aus, um die Bibliothek zu bereichern; andernfalls probieren wir einen weiteren Frame aus \({{{\mathcal{F}}}}\) aus und wiederholen den Vorgang. Wenn nach der Überprüfung jedes Frames von \({{{\mathcal{F}}}}\ keine Programme perfekt mit den Daten übereinstimmen, kehren wir mit der Markierung „Nichts gefunden“ zurück und fahren mit der nächsten Iteration fort. Aufgrund von Speicherbeschränkungen konnten wir Frames bis zur Tiefe d = 2 aufzählen, aber dies kann aufgrund der iterierten Zwischenspeicherung und Wiederverwendung leicht zu tief verschachtelten Konzepten führen. Wir haben zusätzlich zu anderen Modellanpassungsverfahren eine Rastersuche über Ganzzahlen 0–10 nach dem Parameter b in e-bd durchgeführt. Wenn b = 0, ist die Suchtiefe d = 1 und 2 gleich wahrscheinlich, und wenn b zunimmt, bevorzugt das Modell die Tiefe d = 1. Die beste Anpassung ist b = 6, was eine stärkere Präferenz für die Tiefe d = 1 impliziert (siehe ergänzende Informationen für). zusätzliche Analyse zur Suchtiefe).

Dank des umfassenden Such-Prüf-Proben-Verfahrens erwarten wir, dass unser Gibbs-Probenehmer schnell und ohne aufwändiges Einbrennen eine Annäherung an den echten Seitenzahnbereich erzielt. Da umfangreiche Gibbs-Stichproben rechenintensiv sind und es wenig Sinn macht, mehr als eine Handvoll Schritte auszuführen, gehen wir außerdem davon aus, dass die Lernenden in jeder Phase nur sehr wenig Suchen durchführen. Wir nähern uns daher der Bibliotheksverteilung auf Bevölkerungsebene an, indem wir 1.000 Simulationen für Ketten der Länge h durchführen. Während der Modellanpassung haben wir Simulationen für die Längen h = 1, 2, 3, 4 und 5 verglichen und festgestellt, dass das am besten angepasste Modell auf einer Kette von h = 2 (zusammen mit dem Tiefengewicht b = 6) läuft, was auf eine stark begrenzte Verwendung von hindeutet Ressourcen (siehe Ergänzende Informationen für zusätzliche Analysen zur Kettenlänge).

Wir führen das generative Verfahren der Grammatik AG unter Verwendung der Stichprobenbibliotheken durch, um die Verteilung DistM über latente Kausalprogramme anzunähern, und treffen Generalisierungsvorhersagen über neue, teilweise beobachtete Daten D* = 〈A*, R*, ?〉, wodurch eine vorhergesagte Verteilung DistP über entsteht Verallgemeinerungen. Da wir unsere Modelle mit den aggregierten Verhaltensdaten vergleichen, haben wir den Generierungsprozess 10.000 Mal ausgeführt, um eine posteriore Vorhersage von Generalisierungsvorhersagen zu erhalten, die einigermaßen repräsentativ für die Bevölkerung ist. Beachten Sie, dass diese Implementierungen erforderlich sind, um einen fairen Vergleich zwischen Modellen und aggregierten Teilnehmerdaten einzurichten. Während die Generierung von 10.000 Hypothesen sicherlich rechenintensiv ist, ist dies nicht für einen einzelnen Teilnehmer erforderlich und dient nur dazu, uns eine Annäherung an eine Verteilung auf Bevölkerungsebene zu ermöglichen.

Im Anschluss an frühere Arbeiten37,66,67 haben wir eine probabilistische kontextfreie Grammatik \({\mathbf{G}} =\{ {\mathrm{S}}, T,M,N, {\Theta} \}\) implementiert. , wobei S das Startsymbol ist, T ein Satz von Produktionsregeln, M ein Satz nichtterminaler Symbole {A, B, C, D}, N der Satz von Endknoten und Θ die Produktionswahrscheinlichkeiten. Um eine enge Übereinstimmung mit der ursprünglichen Konzeptbibliothek der Adaptergrammatik zu gewährleisten, haben wir die folgenden Produktionsregeln berücksichtigt:

Das Pipe-Symbol | stellt „oder“ dar, was bedeutet, dass das Symbol auf der linken Seite des Pfeilsymbols → in eines der Symbole auf der rechten Seite von → umgewandelt werden kann. Wie bei den Adaptergrammatikmodellen haben wir einheitliche A-priori-Produktionswahrscheinlichkeiten zugewiesen: Sei ΓI die Menge der Produktionsregeln, die alle mit I beginnen – das heißt, jede Produktionsregel γ ∈ ΓI hat die Form I → K, wobei K ein beliebiges Symbol sein kann in der Grammatik \(\bf G\) ist die Produktionswahrscheinlichkeit für jedes γ ∈ ΓI \(\frac{1}{| {\Gamma }_{{\mathrm{I}}}| }\). Da die Grammatik \(\bf G\) unendlich komplexe kausale Konzepte erzeugen kann, haben wir in unserer Implementierung eine Generationstiefe von d = 40 festgelegt, um die Grundwahrheitskonzepte abzudecken. Wenn d zu klein eingestellt ist, wie für die gleiche Einschränkung, die wir in den AG-Modellen festgelegt haben, kann \(\bf G\) konstruktionsbedingt nicht auf der Grundwahrheit landen und ist daher beim Modellvergleich weniger nützlich68. Wie in den Adaptergrammatikmodellen haben wir eine deterministische Wahrscheinlichkeitsfunktion verwendet, um jedes durch die Grammatik \(\bf G\) generierte Konzept zu bewerten, wobei wir im Wesentlichen alle generierten Konzepte verworfen haben, die nicht alle Beweise erklären können. Wir setzen n = 100.000, um eine gute Abdeckung der Regeln bis hin zur Komplexität menschlicher Antworten und darüber hinaus zu erreichen. Generalisierungsvorhersagen werden nach dem gleichen Verfahren wie bei den Adaptergrammatikmodellen erstellt: Wenden Sie die approximierten Posterior-Regeln mit den teilweise beobachteten Daten D* = 〈A*, R*, ?〉 in Generalisierungsaufgaben an und marginalisieren Sie über dem vorhergesagten R'* als an angenäherte posteriore Vorhersage.

Sei dl ein Lernbeispiel-Datenpunkt, der aus einem Agenten, einem Empfängerobjekt und einem Ergebnisobjekt besteht, und dg ein Generalisierungsaufgaben-Datenpunkt, der nur aus einem Agenten und einem Empfängerobjekt besteht. Sei Stripe(x) die Anzahl der Streifen des Objekts x, und wir können die Ähnlichkeit zwischen Lernbeispiel dl und Generalisierungsaufgabe dg in Bezug auf Streifen messen, indem wir die absolute Differenz \(| | {\mathtt{stripes}}{( {\mathrm{A}})}_{{d}_{{\mathrm{l}}}}-{\mathtt{Streifen}}{({\mathrm{A}})}_{{d}_ {{\mathrm{g}}}}| |\), bezeichnet durch δstripes(dl, dg). Unter Berücksichtigung aller drei Merkmale – Streifen, Flecken und Segmente – kann der Merkmalsunterschied Δ zwischen Lernbeispiel dl und Generalisierungsaufgabe dg gemessen werden durch Δ(dl, dg) = a × δstripe(dl, dg) + b × δspot( dl, dg) + c × δsegment(dl, dg). Mit diesen Maßen können wir einen Ähnlichkeitswert definieren

so dass je ähnlicher dl und dg gefunden werden (kleinerer Abstand Δ), desto höher ist die Ähnlichkeit \({\sigma }_{{{{\rm{sim}}}}}\). Wenn die beiden Datenpunkte dieselben Agenten- und Empfängerobjekte verwenden, erreicht der Ähnlichkeitswert \({\sigma }_{{{{\rm{sim}}}}}\) seinen Maximalwert von 1. Bei Generalisierungsvorhersagen ist dies der Fall Das Modell berechnet zunächst den Ähnlichkeitswert \({\sigma }_{{{{\rm{sim}}}}}\) zwischen der aktuellen Generalisierungsaufgabe gi und allen verfügbaren Lernbeispielen {l1, …, lk}, was zu \ ({\mathrm{S}}=\{{\sigma }_{{{{\rm{sim}}}}}({d}_{{{\mathrm{l}}}_{1}}, {d}_{{{\mathrm{g}}}_{i}}),\ldots ,{\sigma }_{{{{\rm{sim}}}}}({d}_{{{ \mathrm{l}}}_{k}},{d}_{{{\mathrm{g}}}_{i}})\}\). Nun ahmt diese Generalisierungsaufgabe gi das Ergebnis (\({d}_{{{\mathrm{l}}}_{k}}\)) mit der Sicherheit \({\sigma }_{{{{\ rm{sim}}}}}({d}_{{{\mathrm{l}}}_{k}},{d}_{{{\mathrm{g}}}_{i}})\ ). Unter Annahme von \(n={\mathtt{Ergebnis}}({d}_{{{\mathrm{l}}}_{k}})\ sagt Aufgabe gi \(p(n)={\mathtt{ Ergebnis}}({d}_{{{\mathrm{l}}}_{k}})\times {\sigma }_{{{{\rm{sim}}}}}({d}_{ {{\mathrm{l}}}_{k}},{d}_{{{\mathrm{g}}}_{i}})\). Die Marginalisierung aller möglichen Ergebnissegmentwerte n ergibt die Verteilung über die durch Aufgabe gi vorhergesagten Ergebnissegmentwerte.

Die Anzahl der Streifen, Punkte und Segmente in jedem Lernbeispiel sei die unabhängige Variable und die resultierende Stablänge R' die abhängige Variable. Nach jeder Phase des Experiments passen wir ein lineares Regressionsmodell mit der Formel an

Wir haben Generalisierungsvorhersagen anhand angepasster Parameter und der Merkmalswerte der erforderlichen Generalisierungsaufgabe erstellt. Wir haben die vorhergesagte Ergebnissegmentnummer auf die beiden nächsten ganzen Zahlen gerundet, um der erforderlichen Vorhersageausgabe zu entsprechen.

Wir haben jeden potenziellen Ergebnissegmentwert als kategorialen Wert behandelt (und nicht als kontinuierlichen Wert wie im Fall der linearen Regression) und ein multinomiales logistisches Regressionsmodell angepasst, um die Wahrscheinlichkeit jedes Ergebnissegmentwerts mithilfe derselben Formel vorherzusagen, die auch bei der linearen Regression verwendet wurde Modell, mit dem nnet-Paket (v.7.3) in R (v.4.1.1). Durch Anpassen des Modells rufen wir die Pred-Funktion auf, um probabilistische Vorhersagen über die potenziellen Ergebnissegmentwerte für jeden Versuch zu sammeln. Wir normalisieren diese probabilistische Vorhersage, um sicherzustellen, dass es sich um eine probabilistische Verteilung handelt.

Wir behandeln jedes Lernbeispiel als dreidimensionale Eingabe (Streifen, Punkte und Segmente) mit einer eindimensionalen Ausgabe (Ergebnissegmente) und passen ein Gaußsches Prozessregressionsmodell mit radialen Basisfunktionskernen an, jeweils pro Merkmal xf:

Wir haben das GPy-Paket (v.1.10.0) in Python (v.3.9.1) verwendet, um das Modell anzupassen. Abhängig von der dreidimensionalen Eingabe für jede Generalisierungsaufgabe gibt das angepasste Gaußsche Prozessregressionsmodell eine Gaußsche Verteilung über potenzielle Segmentlängen \({{{\mathcal{N}}}}(\mu ,{\sigma }^{2 })\). Anschließend gruppieren wir diese Verteilung über die potenziellen diskreten Segmentwerte zum Vergleich mit empirischen Daten.

Wir haben Kreuzvalidierung verwendet, um Modelle anhand von Verhaltensdaten in Generalisierungsaufgaben zu Log-Likelihood-Anpassungen zu bewerten. Dazu haben wir die Daten aus allen vier Experimenten nach Lehrplan c zusammengefasst und dabei festgehalten, wie viele Personen (n) in jeder Aufgabe i welche Segmentnummer y ∈ [0, 16] gewählt haben, was zu Daten \({{{\mathcal{D}} führt. }}}=\{{n}_{ciy}\}\). Anschließend lassen wir jedes Rechenmodell eine Verteilung Pci über alle möglichen Segmentzahlen Y = {0, 1, …, 16} für Aufgabe i im Lehrplan c generieren. Da viele Modellvorhersagen Punktschätzungen sind oder sich nur auf wenige Segmentzahlen konzentrieren, haben wir einen Zitterhand-Rauschenparameter \(h\in (0,\frac{1}{| Y| })\) betrachtet, so dass: für die Wahrscheinlichkeitsverteilung P(Y),

Im Wesentlichen fügen wir Rauschen h zu jeder Zufallsvariablen in Satz Y hinzu, um 0-Wahrscheinlichkeiten zu vermeiden. Der Nenner stellt sicher, dass Ph(Y) immer noch eine Wahrscheinlichkeit ist. Anders als bei Softmax-Funktionen bleibt Ph(Y) nahe an der Form von P(Y), wenn h klein ist, und behält daher am besten den „rohen“ Vertrauensgrad jedes Modells bei diesen ein oder zwei Vorhersagen bei. Die Log-Likelihood eines Modells, das Daten erzeugt, ist somit gegeben durch

Für jeden Lauf der Kreuzvalidierung führen wir einen Curriculum-ctest durch und passen den Rauschparameter h an die anderen drei Curricula unter Verwendung der Maximum-Likelihood-Schätzung mit der Optim-Funktion in R an. Beachten Sie, dass für das Modell AGR ein zusätzlicher Gewichtsparameter λ erforderlich ist gemeinsam montiert wird. Anschließend berechnen wir LLtest für den Lehrplan-ctest mit den angepassten Parametern. Die Summierung über LLtest für alle vier Lehrpläne ergibt die gesamte Log-Likelihood-Anpassung LL für das Modell. Als Grundlinie ergibt die zufällige Auswahl \({\mathrm{L{L}}}_{{{{\rm{rand}}}}}=570\times 16\times \ln (\frac{1}{17 })=-25.838,91\), da es 570 Teilnehmer gab, die jeweils 8 × 2 = 16 Aufgaben erledigten und bei denen in jeder Aufgabe 17 mögliche Antworten (endgültige Stablängen, einschließlich 0) zur Auswahl standen. Jeder Wert, der kleiner als LLrandom ist, stellt eine Verbesserung gegenüber einer Basislinie mit geschlossenen Augen dar.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Die in dieser Studie gemeldeten Daten sind im Open Science Framework verfügbar (https://osf.io/9awhj/).

Implementierungen aller oben genannten Modelle und Analysen sind unter https://github.com/bramleyccslab/causal_bootstrapping und https://osf.io/9awhj/ frei zugänglich.

Newell, A. & Simon, HA Human Problem Solving (Prentice-Hall, 1972).

Kahneman, D., Slovic, SP, Slovic, P. & Tversky, A. Judgment under Uncertainty: Heuristics and Biases (Cambridge Univ. Press, 1982).

Van Rooij, I. Die These der nachvollziehbaren Kognition. Cogn. Wissenschaft. 32, 939–984 (2008).

Artikel PubMed Google Scholar

Griffiths, TL, Lieder, F. & Goodman, ND Rationale Nutzung kognitiver Ressourcen: Analyseebenen zwischen Computer und Algorithmus. Spitze. Cogn. Wissenschaft. 7, 217–229 (2015).

Artikel PubMed Google Scholar

Vul, E., Griffiths, T., Levy, R., Steyvers, M. & McKenzie, CR Rationale Prozessmodelle. In Proc. 31. Jahrestagung der Cognitive Science Society (Hrsg. Taatgen, NA & Van Rijn, H.) 45–46 (2009).

Cowan, N. Die magische Zahl 4 im Kurzzeitgedächtnis: eine Neubetrachtung der geistigen Speicherkapazität. Verhalten. Gehirnwissenschaft. 24, 87–114 (2001).

Artikel CAS PubMed Google Scholar

Sanborn, AN, Griffiths, TL & Navarro, DJ Rationale Approximationen an rationale Modelle: alternative Algorithmen für das Kategorienlernen. Psychol. Rev. 117, 1144–1167 (2010).

Artikel PubMed Google Scholar

Sanborn, AN & Chater, N. Bayesianische Gehirne ohne Wahrscheinlichkeiten. Trends Cogn. Wissenschaft. 20, 883–893 (2016).

Artikel PubMed Google Scholar

Vul, E., Goodman, N., Griffiths, TL & Tenenbaum, JB Eins und fertig? Optimale Entscheidungen aus sehr wenigen Stichproben. Cogn. Wissenschaft. 38, 599–637 (2014).

Artikel PubMed Google Scholar

Bonawitz, E., Denison, S., Gopnik, A. & Griffiths, TL Win-Stay, Lose-Sample: ein einfacher sequenzieller Algorithmus zur Approximation der Bayes'schen Folgerung. Cogn. Psychol. 74, 35–65 (2014).

Artikel PubMed Google Scholar

Chater, N. Der Geist ist flach: Die Illusion geistiger Tiefe und der improvisierte Geist (Penguin UK, 2018).

Bramley, NR, Dayan, P., Griffiths, TL & Lagnado, DA Formalisierung von Neuraths Schiff: Näherungsalgorithmen für das kausale Online-Lernen. Psychol. Rev. 124, 301 (2017).

Artikel PubMed Google Scholar

Gelpi, R., Prystawski, B., Lucas, CG & Buchsbaum, D. Inkrementelle Hypothesenrevision im kausalen Denken über die gesamte Entwicklung hinweg. In Proc. 42. Jahreskonferenz der Cognitive Science Society (Hrsg. Denison, S., Mack, M., Xu, Y. & Armstrong, BC) 974–980 (2020).

Fränken, J.-P., Theodoropoulos, NC & Bramley, NR Anpassungsalgorithmen in der induktiven Inferenz. Cogn. Psychol. Rev. 137, 101506 (2022).

Artikel PubMed Google Scholar

Acerbi, L., Vijayakumar, S. & Wolpert, DM Über die Ursprünge der Suboptimalität in menschlichen probabilistischen Schlussfolgerungen. PLoS Comput. Biol. 10, e1003661 (2014).

Artikel PubMed PubMed Central Google Scholar

Quine, WVO & Ullian, JSThe Web of Belief Vol. 2 (Random House, 1978).

Gopnik, A. & Meltzoff, AN Words, Thoughts, and Theories (MIT Press, 1997).

Kemp, C. & Tenenbaum, JB Die Entdeckung der Strukturform. Proz. Natl Acad. Wissenschaft. USA 105, 10687–10692 (2008).

Artikel CAS PubMed PubMed Central Google Scholar

Craik, KJWThe Nature of Explanation Vol. 445 (CUP-Archiv, 1952).

Keil, FC Erklärung und Verständnis. Annu. Rev. Psychol. 57, 227–254 (2006).

Artikel PubMed PubMed Central Google Scholar

Lombrozo, T. In Holyoak, KJ & Morrison, RG (Hrsg.) The Oxford Handbook of Thinking and Reasoning (Oxford Univ. Press, 2012).

Kuhn, TS The Structure of Scientific Revolutions Vol. 111 (Chicago Univ. Press, 1970).

Newton, I. Brief an Robert Hooke (Sammlung Simon Gratz, 1675).

Carey, S. Bootstrapping und der Ursprung von Konzepten. Daedalus 133, 59–68 (2004).

Artikel Google Scholar

Piantadosi, ST, Tenenbaum, JB & Goodman, ND Bootstrapping in einer Gedankensprache: ein formales Modell des numerischen Konzeptlernens. Erkenntnis 123, 199–217 (2012).

Artikel PubMed Google Scholar

Gobet, F. et al. Chunking-Mechanismen beim menschlichen Lernen. Trends Cogn. Wissenschaft. 5, 236–243 (2001).

Klein, GA „Quellen der Macht: Wie Menschen Entscheidungen treffen“ (MIT Press, 2017).

Krueger, KA & Dayan, P. Flexible Gestaltung: Wie Lernen in kleinen Schritten hilft. Erkenntnis 110, 380–394 (2009).

Artikel PubMed Google Scholar

Dechter, E., Malmaud, J., Adams, RP & Tenenbaum, JB Bootstrap-Lernen durch modulare Konzeptentdeckung. In Twenty-Third International Joint Conference on Artificial Intelligence (Hrsg. Francesca Ross) 1302–1309 (2013).

Ellis, K. DreamCoder: Erweiterung des verallgemeinerbaren, interpretierbaren Wissens durch Bayesianisches Programmlernen im Wach- und Schlafmodus. Philos. Trans. R Soc. London. A 381, 20220050 (2023).

Google Scholar

Bowers, M. Top-Down-Synthese für das Lernen in Bibliotheken. Proz. ACM-Programm. Lang. 7, 1182–1213 (2023).

Artikel Google Scholar

Wong, C. et al. Identifizieren von Konzeptbibliotheken aus der Sprache zur Objektstruktur. In Proc. 44. Jahrestagung der Cognitive Science Society (Hrsg. Culbertson, J., Rabagliati, H., Ramenzoni, V. & Perfors, A.) 2701–2708 (2022).

Tian, L., Ellis, K., Kryven, M. & Tenenbaum, J. Erlernen abstrakter Strukturen für das Zeichnen durch effiziente motorische Programminduktion. Adv. Neuronale Inf. Verfahren. Syst. 33, 2686–2697 (2020).

Google Scholar

Marr, D. Vision: Eine rechnergestützte Untersuchung der menschlichen Darstellung und Verarbeitung visueller Informationen (MIT Press, 1982).

Liang, P., Jordan, MI & Klein, D. Lernprogramme: ein hierarchischer Bayes'scher Ansatz. In Proc. 27. Internationale Konferenz über maschinelles Lernen (ICML-10) (Hrsg. Wrobel, S.) 639–646 (2010).

Johnson, M. et al. Adaptergrammatiken: ein Rahmenwerk zur Spezifizierung kompositorischer nichtparametrischer Bayes'scher Modelle. Adv. Neuronale Inf. Verfahren. Syst. 19 (2007).

Goodman, ND, Tenenbaum, JB, Feldman, J. & Griffiths, TL Eine rationale Analyse des regelbasierten Konzeptlernens. Cogn. Wissenschaft. 32, 108–154 (2008).

Artikel PubMed Google Scholar

Thaker, P., Tenenbaum, JB & Gershman, SJ Online-Lernen symbolischer Konzepte. J. Mathe. Psychol. 77, 10–20 (2017).

Artikel Google Scholar

Piantadosi, ST, Tenenbaum, JB & Goodman, ND Die logischen Grundprinzipien des Denkens: empirische Grundlagen für kompositorische kognitive Modelle. Psychol. Rev. 123, 392–424 (2016).

Artikel PubMed Google Scholar

Pitman, J. & Yor, M. Die zweiparameterige Poisson-Dirichlet-Verteilung, abgeleitet von einem stabilen Unterordinator. Ann. Wahrscheinlich. 25, 855–900 (1997).

Artikel Google Scholar

Bever, TG In Cognition and the Development of Language (Hrsg. Hayes, JR) 279–362 (John Wiley, 1970).

Rich, AS & Gureckis, TM Die Grenzen des Lernens: Erkundung, Verallgemeinerung und die Entwicklung von Lernfallen. J. Exp. Psychol. Gen. 147, 1553–1570 (2018).

Artikel PubMed Google Scholar

Tversky, A. Merkmale der Ähnlichkeit. Psychol. Rev. 84, 327–352 (1977).

Artikel Google Scholar

Lucas, CG, Griffiths, TL, Williams, JJ & Kalish, ML Ein rationales Modell des Funktionslernens. Psychon. Stier. Rev. 22, 1193–1215 (2015).

Artikel PubMed Google Scholar

Wu, CM, Schulz, E., Speekenbrink, M., Nelson, JD & Meder, B. Generalisierung leitet die menschliche Erkundung in riesigen Entscheidungsräumen. Nat. Summen. Verhalten. 2, 915–924 (2018).

Artikel PubMed Google Scholar

Mahoney, J. & Schensul, D. Im Oxford Handbook of Contextual Political Analysis (Oxford Univ. Press, 2006).

Gershman, S. & Goodman, N. Amortisierte Schlussfolgerung im probabilistischen Denken. In Proc. 36. Jahrestagung der Cognitive Science Society (Hrsg. Bello, P., Guarini, M., McShane, M. & Scassellati, B.) 517–522 (2014).

Searcy, SR & Shafto, P. Kooperative Inferenz: Merkmale, Objekte und Sammlungen. Psychol. Rev. 123, 510–533 (2016).

Artikel PubMed Google Scholar

Jern, A., Chang, K.-MK & Kemp, C. Glaubenspolarisierung ist nicht immer irrational. Psychol. Rev. 121, 206–224 (2014).

Artikel PubMed Google Scholar

Culbertson, J. & Schuler, K. Künstliches Sprachenlernen bei Kindern. Annu. Rev. Linguist. 5, 353–373 (2019).

Artikel Google Scholar

Bramley, NR & Xu, F. Aktive induktive Schlussfolgerung bei Kindern und Erwachsenen: eine konstruktivistische Perspektive. Cognition 238, 105471 (2023).

Artikel PubMed Google Scholar

Rule, JS, Tenenbaum, JB & Piantadosi, ST Das Kind als Hacker. Trends Cogn. Wissenschaft. 24, 900–915 (2020).

Tomov, MS, Dorfman, HM & Gershman, SJ Neuronale Berechnungen, die dem Kausalstrukturlernen zugrunde liegen. J. Neurosci. 38, 7143–7157 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Sorscher, B., Ganguli, S. & Sompolinsky, H. Neuronale Repräsentationsgeometrie liegt dem Lernen von Konzepten mit wenigen Schüssen zugrunde. Proz. Natl Acad. Wissenschaft. USA 119, e2200800119 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Flesch, T., Juechems, K., Dumbalska, T., Saxe, A. & Summerfield, C. Orthogonale Darstellungen für eine robuste kontextabhängige Aufgabenleistung in Gehirnen und neuronalen Netzen. Neuron 110, 1258–1270 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Dasgupta, I. & Gershman, SJ Gedächtnis als Rechenressource. Trends Cogn. Wissenschaft. 25, 240–251 (2021).

Artikel PubMed Google Scholar

Fernandino, L., Tong, J.-Q., Conant, LL, Humphries, CJ & Binder, JR Entschlüsselung der Informationsstruktur, die der neuronalen Darstellung von Konzepten zugrunde liegt. Proz. Natl Acad. Wissenschaft. USA 119, e2108091119 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Piantadosi, ST Der rechnerische Ursprung der Darstellung. Minds Mach. (Dordr.) 31, 1–58 (2021).

Artikel PubMed Google Scholar

Della Sala, S. Forgetting (Psychology Press, 2010).

Nørby, S. Warum vergessen? Über den adaptiven Wert des Gedächtnisverlusts. Perspektive. Psychol. Wissenschaft. 10, 551–578 (2015).

Artikel PubMed Google Scholar

Gravitz, L. Der vergessene Teil der Erinnerung. Natur 571, S12 (2019).

Artikel CAS PubMed Google Scholar

Brown, GD, Neath, I. & Chater, N. Ein zeitliches Verhältnismodell des Gedächtnisses. Psychol. Rev. 114, 539–576 (2007).

Artikel PubMed Google Scholar

Schönfinkel, M. Über die bausteine der mathematischen logik. Math. Ann. 92, 305–316 (1924).

Crank, E. & Felleisen, M. Parameterübergabe und die Lambda-Kalküle. In Proc. 18. ACM SIGPLAN-SIGACT-Symposium zu Prinzipien von Programmiersprachen (Hrsg. De Meuter, W. & Guha, A.) 233–244 (1991).

Geman, S. & Geman, D. Stochastische Entspannung, Gibbs-Verteilungen und die Bayes'sche Wiederherstellung von Bildern. IEEE Trans. Muster Anal. Mach. Intel. 6, 721–741 (1984).

Bramley, NR, Rothe, A., Tenenbaum, J., Xu, F. & Gureckis, T. Begründung der Erstellung kompositorischer Hypothesen in bestimmten Fällen. In Proc. 40. Jahrestagung der Cognitive Science Society (Hrsg. Rogers, TT, Rau, M., Zhu, X. & Kalish, CW) 1390–1395 (2018).

Zhao, B., Lucas, CG & Bramley, NR Wie verallgemeinern Menschen kausale Beziehungen über Objekte? Ein nichtparametrisches Bayes'sches Konto. Berechnen. Gehirnverhalten. 5, 22–44 (2022).

Artikel PubMed Google Scholar

Zhao, B., Bramley, NR & Lucas, CG Die kausale Generalisierung vorantreiben: ein Modell des menschlichen konzeptionellen Bootstrappings mit Adaptergrammatiken. In Proc. 44. Jahrestagung der Cognitive Science Society (Hrsg. Culbertson, J., Rabagliati, H., Ramenzoni, V. & Perfors, A.) 1819–1826 (2022).

Referenzen herunterladen

Diese Arbeit wurde durch einen EPSRC New Investigator Grant (Nr. EP/T033967/1) an NRB und CGL unterstützt. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerfassung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts. Wir danken X. Zhu für seine Hilfe bei der Codierung der Freitextantworten. Wir danken außerdem F. Mollica, T. Quillien, S. Valentin, C. Kemp, N. Goodman, E. Schulz und R. Hawkins für wertvolles Feedback zum Manuskript.

Institut für Psychologie, Universität Edinburgh, Edinburgh, Großbritannien

Bonan Zhao und Neil R. Bramley

Fakultät für Informatik, Universität Edinburgh, Edinburgh, Großbritannien

Christopher G. Lucas

Sie können diesen Autor auch in PubMed Google Scholar suchen

BZ, NRB und CGL haben die Studien entworfen. BZ und CGL entwickelten sowohl Haupt- als auch Alternativmodelle. BZ und NRB haben die Experimente entworfen. BZ implementierte das Modell, sammelte Daten, führte Analysen durch und verfasste das Manuskript. NRB und CGL überwachten alle Aspekte des Projekts. Alle Autoren diskutierten die Ergebnisse und überarbeiteten das Manuskript.

Korrespondenz mit Bonan Zhao.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Human Behavior dankt Kevin Ellis, Ryan Smith und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Ergänzende Abbildungen. 1–4, Diskussion und Tabellen 1–3.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Zhao, B., Lucas, CG & Bramley, NR Ein Modell des konzeptionellen Bootstrappings in der menschlichen Kognition. Nat Hum Behav (2023). https://doi.org/10.1038/s41562-023-01719-1

Zitat herunterladen

Eingegangen: 24. Januar 2023

Angenommen: 08. September 2023

Veröffentlicht: 16. Oktober 2023

DOI: https://doi.org/10.1038/s41562-023-01719-1

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Nachricht

Ein Modell des konzeptionellen Bootstrappings in der menschlichen Kognition