KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?
KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?
38 Minuten
Podcast
Podcaster
Beschreibung
vor 1 Jahr
ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT
ist dümmer als ein Grundschüler. Solche Meldungen findet man schon
mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr
unterschiedliche Abschneiden der großen Sprachmodelle in
standardisierten Tests liegt in der Art und Weise, wie das
vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und
Hartmut Gieselmann von der c‘t haben sich angeschaut, wie
Benchmarks diese Leistung messen und vergleichen - und wie
aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/ https://www.heiseplus.de/podcast
ist dümmer als ein Grundschüler. Solche Meldungen findet man schon
mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr
unterschiedliche Abschneiden der großen Sprachmodelle in
standardisierten Tests liegt in der Art und Weise, wie das
vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und
Hartmut Gieselmann von der c‘t haben sich angeschaut, wie
Benchmarks diese Leistung messen und vergleichen - und wie
aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/ https://www.heiseplus.de/podcast
Weitere Episoden
12 Minuten
vor 1 Tag
14 Minuten
vor 2 Tagen
10 Minuten
vor 3 Tagen
12 Minuten
vor 4 Tagen
38 Minuten
vor 1 Woche
In Podcasts werben
Abonnenten
Oldenburg
Hanau
Köln
Kandel
Troisdorf
Ettlingen
Düren
München
Wuppertal
düsseldorf
Kommentare (0)