Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?
37 Minuten
Podcast
Podcaster
Beschreibung
vor 6 Monaten
Send us a text
In der heutigen Sendung versuchen wir rauszufinden, ob man sich
auf die öffentlichen Benchmarks zum Testen und Vergleichen von
Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum
Trainieren verwendet werden. Hierbei handelt es sich um das
Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark
Leakage in Large Language Models https://arxiv.org/abs/2404.18824
Support the show
Weitere Episoden
28 Minuten
vor 3 Tagen
39 Minuten
vor 1 Woche
29 Minuten
vor 3 Wochen
28 Minuten
vor 1 Monat
In Podcasts werben
Kommentare (0)