KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?
38 Minuten

Beschreibung

vor 11 Monaten
ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT
ist dümmer als ein Grundschüler. Solche Meldungen findet man schon
mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr
unterschiedliche Abschneiden der großen Sprachmodelle in
standardisierten Tests liegt in der Art und Weise, wie das
vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und
Hartmut Gieselmann von der c‘t haben sich angeschaut, wie
Benchmarks diese Leistung messen und vergleichen - und wie
aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/ https://www.heiseplus.de/podcast

Kommentare (0)

Lade Inhalte...

Abonnenten

Tron
Hanau
Turkan
Köln
MRiggs
Kandel
5nxm0qlq
Ettlingen
Axolotll
München
taniavl
Wuppertal
15
15
:
: