Podcast-News NAPS - Neues aus der Podcast-Szene Podcast Meldungen Berichte Kommentare Service-News Technik
Finde Podcasts Podcast-Tipps Podcast-Charts Podcast-Verzeichnis Podcast-Kategorien
Mache Podcasts In 5 Minuten zu... Podcast Podcast-Wissen Podcasting-FAQ Podcaster Podcast-Hosting Podcast-Studio Berlin
Erlebe Podcasts Gezielt - Der Reichweiten-Podcast Podcast-Events Podcast-Jobs

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

38 Minuten

30.89 MB

Podcast

Podcaster

KI-Update – ein heise-Podcast

Technologie , Nachrichten , Gesellschaft & Kultur

Beschreibung

vor 1 Jahr

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT
ist dümmer als ein Grundschüler. Solche Meldungen findet man schon
mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr
unterschiedliche Abschneiden der großen Sprachmodelle in
standardisierten Tests liegt in der Art und Weise, wie das
vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und
Hartmut Gieselmann von der c‘t haben sich angeschaut, wie
Benchmarks diese Leistung messen und vergleichen - und wie
aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/ https://www.heiseplus.de/podcast