Episode 230 - Wenn KI lügt, obwohl sie es besser weiß – der MASK-Benchmark und warum Ehrlichkeit ≠ Genauigkeit ist
Artikel konnten nicht hinzugefügt werden
Leider können wir den Artikel nicht hinzufügen, da Ihr Warenkorb bereits seine Kapazität erreicht hat.
Der Titel konnte nicht zum Warenkorb hinzugefügt werden.
Bitte versuchen Sie es später noch einmal
Der Titel konnte nicht zum Merkzettel hinzugefügt werden.
Bitte versuchen Sie es später noch einmal
„Von Wunschzettel entfernen“ fehlgeschlagen.
Bitte versuchen Sie es später noch einmal
„Podcast folgen“ fehlgeschlagen
„Podcast nicht mehr folgen“ fehlgeschlagen
-
Gesprochen von:
-
Von:
Über diesen Titel
Send us Fan Mail
Sprachmodelle werden immer leistungsfähiger – aber werden sie auch ehrlicher? Der neue MASK-Benchmark zeigt: Je mächtiger ein Modell, desto eher weicht es unter Druck von seinem eigenen Faktenwissen ab. Sigurd und Carsten diskutieren, warum klassische Benchmarks an ihre Grenzen stoßen, was das für agentische Systeme bedeutet und wie dynamische Evaluierungsframeworks aussehen müssten, die nicht innerhalb weniger Jahre saturieren.
Support the show
Noch keine Rezensionen vorhanden