
Send us Fan Mail Sprachmodelle werden immer leistungsfähiger – aber werden sie auch ehrlicher? Der neue MASK-Benchmark zeigt: Je mächtiger ein Modell, desto eher weicht es unter Druck von seinem eigenen Faktenwissen ab. Sigurd und Carsten diskutieren, warum klassische Benchmarks an ihre Grenzen stoßen, was das für agentische Systeme bedeutet und wie dynamische Evaluierungsframeworks aussehen müssten, die nicht innerhalb weniger Jahre saturieren. Support the show
Podzilla Summary coming soon
Sign up to get notified when the full AI-powered summary is ready.
Free forever for up to 3 podcasts. No credit card required.

Episode 231 - Vom Sparse Autoencoder zum Natural Language Autoencoder – Ein neuer Blick in die KI-Blackbox

Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden

Episode 228 - Project Glasswing: Antropics neues Frontier-Modell Claude Mythos Preview und das Ende der Sicherheit, wie wir sie kannten

Episode 227 - AI Harness, Coase und die Firma der Zukunft
Free AI-powered recaps of Knowledge Science - Alles über KI, ML und NLP and your other favorite podcasts, delivered to your inbox.
Free forever for up to 3 podcasts. No credit card required.