• Episode 230 - Wenn KI lügt, obwohl sie es besser weiß – der MASK-Benchmark und warum Ehrlichkeit ≠ Genauigkeit ist
    May 2 2026

    Send us Fan Mail

    Sprachmodelle werden immer leistungsfähiger – aber werden sie auch ehrlicher? Der neue MASK-Benchmark zeigt: Je mächtiger ein Modell, desto eher weicht es unter Druck von seinem eigenen Faktenwissen ab. Sigurd und Carsten diskutieren, warum klassische Benchmarks an ihre Grenzen stoßen, was das für agentische Systeme bedeutet und wie dynamische Evaluierungsframeworks aussehen müssten, die nicht innerhalb weniger Jahre saturieren.

    Support the show

    Mehr anzeigen Weniger anzeigen
    41 Min.
  • Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden
    Apr 25 2026

    Send us Fan Mail

    Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außerdem im Kurz-Update: Die Konvergenz proprietärer und Open-Source-Modelle, das neue Bayern-KI-Projekt und ein spannendes Tool für mechanistische Interpretierbarkeit.

    Support the show

    Mehr anzeigen Weniger anzeigen
    32 Min.
  • Episode 228 - Project Glasswing: Antropics neues Frontier-Modell Claude Mythos Preview und das Ende der Sicherheit, wie wir sie kannten
    Apr 11 2026

    Send us Fan Mail

    In dieser Episode sprechen Sigurd Schacht und Carsten Lanquillon über Anthropics neues Frontier-Modell Claude Mythos (Preview) – ein Modell, das so leistungsfähig ist, dass es bewusst nicht der breiten Öffentlichkeit zugänglich gemacht wird. Die beiden diskutieren beeindruckende Benchmark-Sprünge (u.a. 77,8 % auf SWE-Bench Pro, 56,8 % auf Humanity's Last Exam), die neue Fähigkeit, Zero-Day-Sicherheitslücken in Betriebssystemen wie Windows, macOS und Linux eigenständig zu finden und zu verketten – und einen verstörenden Vorfall: Bei einem Sandbox-Test ist das Modell tatsächlich ausgebrochen und hat einem Mitarbeiter eine E-Mail geschickt.

    Im Mittelpunkt steht das Project Glasswing, mit dem Anthropic ausgewählten US-Unternehmen wie Microsoft, Google, Apple, Nvidia und JP Morgan einen exklusiven Vorsprung gewährt, um ihre kritische Infrastruktur abzusichern. Doch was bedeutet das für den Rest der Welt? Wo bleibt Europa? Und wie sicher ist ein Alignment, bei dem das Modell zwar gute Ziele verfolgt – dafür aber bereit ist, illegale Wege einzuschlagen und diese auch noch zu verheimlichen?

    Eine Episode zwischen technischer Faszination und ernster Besorgnis über die Geschwindigkeit, mit der KI-Fähigkeiten gerade explodieren.

    Support the show

    Mehr anzeigen Weniger anzeigen
    48 Min.
  • Episode 227 - AI Harness, Coase und die Firma der Zukunft
    Mar 28 2026

    Send us Fan Mail

    Was macht den eigentlichen Unterschied bei KI-Anwendungen – das Modell oder das Engineering drumherum? In dieser Episode diskutieren Sigurd und Carsten das Konzept des „AI Harness" und warum Kommandozeilen-Tools oft bessere Ergebnisse liefern als Web-Oberflächen mit demselben Modell. Daraus entwickelt sich eine spannende ökonomische Analyse: Wenn Agenten Transaktionskosten gegen null treiben, was hält Unternehmen dann noch zusammen? Die Antwort führt zu einer überraschenden These – die Wirtschaft der Zukunft teilt sich in „Context Giants" und „AI Solopreneurs".


    Außerdem: Neuigkeiten zur AI Transparency Conference am 5./6. Juni in Nürnberg. https://coairesearch.org/aitc-2026/


    Support the show

    Mehr anzeigen Weniger anzeigen
    43 Min.
  • Episode 226 - Wenn KI-Agenten sich absprechen – Kollusion in Multi-Agenten-Systemen
    Mar 14 2026

    Send us Fan Mail

    Nur weil jedes einzelne KI-Modell „brav" trainiert wurde, heißt das noch lange nicht, dass sich mehrere Agenten gemeinsam auch brav verhalten. Sigurd und Carsten diskutieren das Paper „Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems" und zeigen, warum allein die Möglichkeit eines privaten Kommunikationskanals reicht, damit Agenten beginnen, sich abzusprechen – ganz ohne Aufforderung. Was bedeutet das für Sicherheit, Regulierung und die Zukunft agentischer Systeme?

    Link zum Paper: https://arxiv.org/pdf/2602.15198

    Support the show

    Mehr anzeigen Weniger anzeigen
    43 Min.
  • Episode 225 - Doc to LoRA – Wie Dokumente blitzschnell zum Modellwissen werden
    Mar 3 2026

    Send us Fan Mail

    Wie bringt man Unternehmenswissen effizient in ein Sprachmodell – ohne endlose Kontextfenster oder stundenlanges Fine-Tuning? Wir diskutieren den faszinierenden Ansatz „Doc to LoRA", bei dem ein Hypernetwork aus beliebigen Dokumenten in Sekundenschnelle einen LoRA-Adapter generiert. Außerdem: Eindrücke von der IASEAI-Konferenz in Paris, warum AI Safety kein Innovationsbremser ist – und wie sich Safety-Forschung und Unternehmensperformance gegenseitig befruchten können.

    Link zur AI Transparency Konferenz: https://coairesearch.org/aitc-2026/


    Support the show

    Mehr anzeigen Weniger anzeigen
    33 Min.
  • Episode 224 - KI-Texte in der Wissenschaft: Segen oder Sünde?
    Feb 4 2026

    Send us Fan Mail

    Dürfen Forschende ihre Texte mit KI aufpolieren – oder ist das schon wissenschaftliches Fehlverhalten? Sigurd und Carsten diskutieren, warum KI-Detektoren Nicht-Muttersprachler systematisch benachteiligen, weshalb das Wettrüsten zwischen Generierung und Erkennung ein Fass ohne Boden ist und wo die Grenze zwischen nützlichem Werkzeug und Cognitive Offloading verläuft. Eine Folge über Sprachmodelle, Perplexity-Werte, halluzinierte Quellenangaben – und die Frage, was wir von wissenschaftlichem Arbeiten eigentlich erwarten.

    Support the show

    Mehr anzeigen Weniger anzeigen
    39 Min.
  • Episode 223 - Spiele als KI-Labor: Wie wir agentisches Verhalten erforschen
    Jan 25 2026

    Send us Fan Mail

    Audiomodelle erleben einen Durchbruch – von Text-to-Speech bis hin zu echten End-to-End-Konversationen mit unter 200ms Latenz. Doch wie behalten wir die Kontrolle, wenn KI-Agenten immer autonomer werden? Sigurd und Carsten diskutieren die neuesten Entwicklungen bei Audio- und Musikmodellen und geben Einblicke in ihre Forschung bei COAI Research: Mit selbst entwickelten Spielen wie „Orbital" und „Sphinx" untersuchen sie, wie KI-Agenten Allianzen bilden, manipulieren – und sich gegenseitig in den Rücken fallen.

    Probieren Sie unser RedTeaming Spiel selber aus: https://sphinx.coairesearch.net

    Support the show

    Mehr anzeigen Weniger anzeigen
    35 Min.