Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude
30 Minuten
Podcast
Podcaster
Beschreibung
vor 4 Monaten
Send us a text
In dieser faszinierenden Episode erkunden Sigurd Schacht und
Carsten Lanquillon, wie Anthropic's Forschung zur
Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf
Konzeptebene zu manipulieren. Sie diskutieren das
aufsehenerregende Golden Gate Claude-Experiment, bei dem ein
Sprachmodell dazu gebracht wurde, in jeder Konversation die
Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden
Implikationen dieser Technologie für die Zukunft der KI-Steuerung
und -Sicherheit.
Support the show
Weitere Episoden
28 Minuten
vor 3 Tagen
39 Minuten
vor 1 Woche
29 Minuten
vor 3 Wochen
28 Minuten
vor 1 Monat
In Podcasts werben
Kommentare (0)