Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude

Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude

30 Minuten

Beschreibung

vor 5 Monaten

Send us a text


In dieser faszinierenden Episode erkunden Sigurd Schacht und
Carsten Lanquillon, wie Anthropic's Forschung zur
Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf
Konzeptebene zu manipulieren. Sie diskutieren das
aufsehenerregende Golden Gate Claude-Experiment, bei dem ein
Sprachmodell dazu gebracht wurde, in jeder Konversation die
Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden
Implikationen dieser Technologie für die Zukunft der KI-Steuerung
und -Sicherheit.


Support the show

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: