Knowledge Science - Alles über KI, ML und NLP

Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden

April 25, 2026·31 min

Episode Description from the Publisher

Send us Fan Mail Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außer...

Podzilla Summary coming soon

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.

Listen to This Episode

Apple Podcasts

More from Knowledge Science - Alles über KI, ML und NLP

Episode 231 - Vom Sparse Autoencoder zum Natural Language Autoencoder – Ein neuer Blick in die KI-Blackbox

May 12, 2026·33 min

Episode 230 - Wenn KI lügt, obwohl sie es besser weiß – der MASK-Benchmark und warum Ehrlichkeit ≠ Genauigkeit ist

May 2, 2026·40 min

Episode 228 - Project Glasswing: Antropics neues Frontier-Modell Claude Mythos Preview und das Ende der Sicherheit, wie wir sie kannten

April 11, 2026·47 min

Episode 227 - AI Harness, Coase und die Firma der Zukunft

March 28, 2026·42 min

View all episodes →

Get summaries like this every morning.

Free AI-powered recaps of Knowledge Science - Alles über KI, ML und NLP and your other favorite podcasts, delivered to your inbox.

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.