Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Artikel konnten nicht hinzugefügt werden

Leider können wir den Artikel nicht hinzufügen, da Ihr Warenkorb bereits seine Kapazität erreicht hat.

Der Titel konnte nicht zum Warenkorb hinzugefügt werden.

Bitte versuchen Sie es später noch einmal

Der Titel konnte nicht zum Merkzettel hinzugefügt werden.

Bitte versuchen Sie es später noch einmal

„Von Wunschzettel entfernen“ fehlgeschlagen.

Bitte versuchen Sie es später noch einmal

„Podcast folgen“ fehlgeschlagen

„Podcast nicht mehr folgen“ fehlgeschlagen

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Jetzt kostenlos hören, ohne Abo

Details anzeigen

Über diesen Titel

Send us a text

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.

Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

Das sagen andere Hörer zu Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Nur Nutzer, die den Titel gehört haben, können Rezensionen abgeben.

Rezensionen - mit Klick auf einen der beiden Reiter können Sie die Quelle der Rezensionen bestimmen.

Audible-Rezensionen

Amazon Rezensionen

Es gibt noch keine Rezensionen

Eine Rezension bei Amazon melden

Kategorien

Stöbern

Enthalten im Abo

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Artikel konnten nicht hinzugefügt werden

Der Titel konnte nicht zum Warenkorb hinzugefügt werden.

Der Titel konnte nicht zum Merkzettel hinzugefügt werden.

„Von Wunschzettel entfernen“ fehlgeschlagen.

„Podcast folgen“ fehlgeschlagen

„Podcast nicht mehr folgen“ fehlgeschlagen

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Über diesen Titel

Das sagen andere Hörer zu Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

Rezensionen - mit Klick auf einen der beiden Reiter können Sie die Quelle der Rezensionen bestimmen.

Audible-Rezensionen

Amazon Rezensionen