Das KI-Startup Galileo Technologies platziert Claude 3.5 Sonnet, Googles Gemini und Alibabas Qwen2-72B-Instruct im Hallucination Index-Benchmark an der Spitze.

Das KI-Startup Galileo Technologies hat Midrange- und Open-Source-Modelle in großen Sprachen in einem neuen Benchmarktest, dem Hallucination Index, hoch bewertet. Der Benchmark, der 22 führende Modelle generativer KI bewertet, hat ihre Genauigkeit anhand von drei Aufgabensammlungen gemessen. An der Spitze der Rangliste stand Claude 3.5 Sonnet von Anthropics, während Gemini 1.5 Flash von Google hinsichtlich der Kosten am besten abschnitt. Das Open-Source-Modell mit der besten Leistung war Qwen2-72B-Instruct von Alibaba.

July 29, 2024
3 Artikel