Apple-Forscher finden, LLMs verlassen sich mehr auf Muster-Matching als logische Argumentation, kämpfen mit komplexen Fragen.
Apple-Forscher haben Bedenken hinsichtlich der mathematischen Denkfähigkeiten von großen Sprachmodellen (LLMs) geäußert und festgestellt, dass ihre Antworten aufgrund geringfügiger Eingabeänderungen erheblich variieren. Dies deutet darauf hin, dass LLMs eher auf probabilistische Muster-Matching als auf wahre logische Argumentation angewiesen sind. Um diese Fähigkeiten besser beurteilen zu können, führten sie den GSM-Symbol-Benchmark ein, der aufzeigte, dass LLMs mit komplexen Fragen zu kämpfen haben und ihre Grenzen in verlässlicher Argumentation herausstellen.
October 11, 2024
8 Artikel