Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude
30 Minuten
Podcast
Podcaster
Beschreibung
vor 5 Monaten
Send us a text
In dieser faszinierenden Episode erkunden Sigurd Schacht und
Carsten Lanquillon, wie Anthropic's Forschung zur
Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf
Konzeptebene zu manipulieren. Sie diskutieren das
aufsehenerregende Golden Gate Claude-Experiment, bei dem ein
Sprachmodell dazu gebracht wurde, in jeder Konversation die
Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden
Implikationen dieser Technologie für die Zukunft der KI-Steuerung
und -Sicherheit.
Support the show
Weitere Episoden
40 Minuten
vor 1 Tag
33 Minuten
vor 2 Wochen
1 Stunde 1 Minute
vor 4 Wochen
28 Minuten
vor 1 Monat
39 Minuten
vor 1 Monat
In Podcasts werben
Kommentare (0)