Knowledge Science - Alles über KI, ML und NLP

Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden

April 25, 2026·31 min
Episode Description from the Publisher

Send us Fan Mail Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außer...

Podzilla Summary coming soon

Sign up to get notified when the full AI-powered summary is ready.

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.

Listen to This Episode

Get summaries like this every morning.

Free AI-powered recaps of Knowledge Science - Alles über KI, ML und NLP and your other favorite podcasts, delivered to your inbox.

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.