Eisvogel: Deutschtest für große Sprachmodelle (LLMs)

Bewertung der deutschen Sprachkenntnisse von LLMs anhand einer Vielzahl von Aufgaben. Diese Rangliste wird regelmäßig um neue Modelle und Aufgaben erweitert.
Ayush Thakur, Hans Ramsl
Created on November 27|Last edited on January 27
Comment
﻿
Ein Eisvogel (Alcedo atthis) mit einer Holztafel.
Das Titelbild wurde erstellt mit der generativen KI  Flux schnell [1] vom deutschen KI-Startup Blackforest Labs aus Freiburg [2]. Prompt: "A vibrant Alcedo atthis (common kingfisher) bird perched elegantly on a branch, holding a small wooden sign in its beak. The sign has the text 'Deutsches LLM Leaderboard' written in bold, clear letters. The bird's bright blue and orange feathers are rendered in high detail, contrasting beautifully with the natural, blurred background of a serene riverside environment. The scene is visually captivating, blending realism with a playful and professional touch."
💡
Zu lang, nicht gelesen🇩🇪 Deutsches LLM Leaderboard (Stand: 01. November 2024)GlossarTechnische Details / Methodologie Multilingual Massive Multitask Language Understanding (MMMLU)MGSMEffizienzGenauigkeit vs. Effizienz (Mittlere Gewinnrate)Schussfolgerung
﻿
Zu lang, nicht gelesenThema: Evaluierung von LLMs für die deutsche Sprache (Projekt "Eisvogel").  
Kriterien: Genauigkeit (z. B. EM, F1, BLEU) und Effizienz (Inferenzzeit).  
Datensätze: MMLU, ARC, Hellaswag, MGSM, LEXTREME (GAM).  
Ziel: Bessere Bewertung von LLMs für deutschsprachige Aufgaben; Community-Aufruf zur Mitwirkung.
﻿
🇩🇪 Deutsches LLM Leaderboard (Stand: 01. November 2024)Auf dem sich rasch entwickelnden Gebiet des maschinellen Lernens haben Sprachmodelle (Large Language Models, LLMs) bemerkenswerte Fortschritte gemacht. Die Bewertung ihrer Fähigkeiten in bestimmten Sprachen, wie z. B. Deutsch, bleibt jedoch eine kritische Herausforderung. Um dieses Problem zu lösen, stellen wir Eisvogel, den Deutschtest für große Sprachmodelle (LLMs) vor, eine spezielle Plattform zur Bewertung und zum Vergleich von LLMs hinsichtlich ihrer deutschen Sprachfähigkeiten. 
Unsere Rangliste ist nicht nur ein statisches Maß; mit der Erweiterung der Sprachmodelllandschaft wird auch unsere Rangliste wachsen. Gegenwärtig verwendet unsere Evaluierungssuite die Holistic Evaluation of Language Models (HELM), die sich bewährt hat und inzwischen zum Industriestandard geworden ist.
﻿
﻿
Die obige Tabelle wird in regelmäßigen Abständen mit neuen Modellen und weiteren Aufgaben aktualisiert. 
Wenn Sie jemand sind, der mehrsprachige grundlegende oder fein abgestimmte Modelle speziell für die deutsche Sprache trainiert oder eine interessante Aufgabe/Datensatz zum Testen von LLMs hat, schreiben Sie bitte eine Email an [hans.ramsl at wandb.com ].
﻿
Wir würden gerne Ihre Aufgabe einbeziehen und Ihr Modell evaluieren.
💡
In diesem Bericht werden die technischen Details und die Methodik der Erstellung dieser deutschen Evaluierungssuite dokumentiert.
GlossarMittlere Gewinnrate (Mean Win Rate, MWR): Die mittlere Gewinnrate ist eine Metrik, die angibt, wie oft ein Modell in verschiedenen Szenarien eine höhere Punktzahl als ein anderes Modell erreicht. Für jedes Szenario berechnen wir die Standardgenauigkeitsmetrik - wie die exakte Übereinstimmung oder die F1-Punktzahl - und ermitteln dann, wie häufig das Modell ein anderes übertrifft, anstatt den Durchschnitt dieser verschiedenen Metriken (die unterschiedliche Skalen und Interpretationen haben können) zu bilden. Die mittlere Gewinnrate ist der Durchschnitt dieser Leistungsvergleiche über alle Szenarien hinweg und damit ein aussagekräftiges Maß, selbst wenn die verschiedenen Metriken in ihrer Skala oder ihren Einheiten variieren. Es ist jedoch zu beachten, dass die mittlere Gewinnrate nur im Kontext einer Reihe von zu vergleichenden Modellen sinnvoll ist und bei isolierter Interpretation keine Aussagekraft hat. 
Exact Match (EM): Die Metrik der exakten Übereinstimmung bewertet die Korrektheit, indem sie prüft, ob die Ausgabe des Modells genau mit der Referenzantwort übereinstimmt, Zeichen für Zeichen. Für eine exakte Übereinstimmung muss die generierte Ausgabe mit der Referenzantwort als Zeichenfolge identisch sein, wobei keine Abweichungen oder Diskrepanzen zulässig sind. 
Technische Details / Methodologie Holistic Evaluation of Language Models (HELM) ist ein umfassendes Framework, das entwickelt wurde, um die Fähigkeiten und die Leistung von Sprachmodellen in einem breiten Spektrum von Aufgaben und Metriken zu bewerten. Unsere deutsche LLM-Rangliste basiert auf einem Fork von HELM.
HELM bietet keine umfassende Taxonomie der Sprachen der Welt, da es sich hauptsächlich auf die Bewertung von Modellen konzentriert, die nur auf Englisch funktionieren. Die meisten in HELM geschriebenen Szenarien decken englische Dialekte und Varietäten ab. Um eine mehrsprachige (hier deutsche) Evaluierungssuite auf der Grundlage von HELM zu erstellen, haben wir benutzerdefinierte Szenarien geschrieben, die die folgenden Aufgaben in deutscher Sprache enthalten.
Multilingual Massive Multitask Language Understanding (MMMLU)
Multilingual Grade School Math Benchmark (MGSM)
Die Konfigurationsdatei (.conf) für unsere deutsche Evaluationssuite finden Sie hier.
Bevor wir uns für HELM für unsere Auswertungen entschieden haben, haben wir die Verwendung von lm-evaluation-harness untersucht. Wie jedoch in jüngsten Diskussionen und Veröffentlichungen hervorgehoben wurde, unterstützt die Mehrheit der API-basierten Modelle nicht die Rückgabe von Logits mit echo=True, was die Verwendung von Loglikelihood-basierten Auswertungen für Multi-Choice-Aufgaben wie MMLU und ARC erschwert. In Anbetracht dieser Einschränkungen und der Herausforderungen bei der Anpassung von Logit-Verzerrungen für aussagekräftige Aufgabenauswertungen haben wir uns für HELM entschieden, das diese Bedenken durch die Erleichterung generativer Auswertungen wirksam ausräumt. Dieser Ansatz passt besser zu den Fähigkeiten der meisten API-basierten Modelle und gewährleistet einen konsistenteren Bewertungsrahmen. Dies wird auch von einem der Betreuer von lm-evaluation-harness in diesem Issue-Kommentar hervorgehoben.
Beachten Sie jedoch, dass wir uns der Beschränkungen von Auswertungen, die auf Generierung basieren bewusst sind. Darauf werden wir in einem späteren Abschnitt eingehen. Betrachten wir nun die Aufgaben, die wir bisher implementiert haben, und sehen uns die Ergebnisse im Detail an.
﻿
Multilingual Massive Multitask Language Understanding (MMMLU)﻿MMMLU umfasst Aufgaben zur Beantwortung von Fragen, die als Multi-Choice-QA gestellt werden (wählen Sie A, B, C oder D), wobei das Modell maximal 1 Token generieren darf.  Der Benchmark enthält eine Reihe von 57 Aufgaben, die das Lösen von Problemen und allgemeines Wissen in den Bereichen MINT, Geisteswissenschaften, Sozialwissenschaften und mehr testen. Da das Modell nur ein Token generieren darf, bewerten wir buchstäblich das Wissen, das während der Pre-Trainingsphase in den Gewichten kodiert wurde (einschließlich der Feinabstimmung der Instruktionen, je nach dem ausgewählten Modell).
Technische DetailsDer MMMLU-Benchmark wurde von OpenAI erstellt, indem der ursprüngliche MMLU-Benchmark mit Hilfe menschlicher Annotatoren übersetzt wurde. Wir haben diesen Benchmark ausgewählt, weil er eine höhere Übersetzungsgenauigkeit aufweist. Der vollständige MMMLU-Benchmark umfasst 14 Sprachen. Sehen Sie sich die Datenkarte hier an.
Natürlich verwenden wir für diese Rangliste nur die Teilmenge DE_DE des Datensatzes.
Die Übersetzung wird nur für den Testsatz durchgeführt. Da wir keinen Zugang zum übersetzten Trainings- oder Validierungsset haben, evaluieren wir alle Modelle in einer Zero-Shot-Einstellung.
Die Systemaufforderung ist unten angegeben:
Beantworten Sie die folgenden Multiple-Choice-Fragen zu {}. Jede Frage hat vier Antwortmöglichkeiten: A, B, C oder D. Wählen Sie die passendste Antwort und geben Sie nur den entsprechenden Buchstaben an.
Diese Systemaufforderung ist eine Abwandlung [Erläuterung der Abwandlung im Anhang] von MMLU, bei der wir das Modell explizit auffordern, die Antwort als A, B, C oder D zurückzugeben. Wenn wir dies in der Zero-Shot-Einstellung nicht tun, führt dies aufgrund der unterschiedlichen Ausführlichkeit der Modelle zu unvergleichbaren Ergebnissen. Wir möchten einräumen, dass eine einzelne Systemaufforderung für jedes Modell nicht der beste Weg ist, um das kodierte Wissen zu überprüfen, aber die explizite Aufforderung, das zu tun, was beabsichtigt ist, gibt jedem Modell eine faire Chance“.
Die Wahl der Metrik fällt auf Exact Match (EM). Die Bedingung für die Korrektheit der exakten Übereinstimmung ist, dass die Modellgenerierung genau mit der korrekten Referenz übereinstimmt, und zwar in Form von Zeichenketten.
ErgebnisseNachfolgend sind die modellbezogenen Ergebnisse des MMMLU-Benchmarks aufgeführt. Wir stellen auch die exakte Übereinstimmung (Genauigkeit) gegenüber der Laufzeit der Inferenz dar, um den Kompromiss zu zeigen.
﻿
﻿
Da MMMLU aus 57 einzigartigen Aufgaben besteht, wäre es schön, die Ergebnisse nach Themen zu aggregieren und die Leistung der verschiedenen Modelle entlang dieser Achse zu vergleichen. Hier haben wir 57 einzigartige Aufgaben in 5 Kategorien eingeteilt:
{
    "STEM": ['abstract_algebra', 'college_biology', 'college_chemistry', 'college_physics', 'astronomy', 'high_school_biology', 'high_school_chemistry', 'high_school_physics', 'high_school_mathematics', 'machine_learning', 'formal_logic', 'college_computer_science', 'high_school_computer_science', 'computer_security'],
    "Medical & Health": ['clinical_knowledge', 'college_medicine', 'medical_genetics', 'virology', 'human_aging', 'nutrition', 'professional_medicine', 'professional_psychology', 'human_sexuality'],
    "Social Sciences": ['high_school_us_history', 'high_school_world_history', 'sociology', 'public_relations', 'philosophy', 'jurisprudence', 'international_law', 'high_school_government_and_politics'],
    "Business & Economics": ['business_ethics', 'econometrics', 'management', 'marketing', 'high_school_macroeconomics', 'high_school_microeconomics', 'professional_accounting'],
    "Law & Ethics": ['moral_disputes', 'moral_scenarios', 'international_law', 'jurisprudence', 'philosophy', 'legal_ethics', 'security_studies']
}
Klicken Sie auf das Augensymbol 👁️ im unten stehenden Runset, um die zu vergleichenden Modelle auszuwählen. Idealerweise sollten Sie nur einige wenige Modelle auswählen, um eine optimale Anzeige zu gewährleisten.
﻿
﻿
Run set5
﻿
MGSM﻿MGSM ist ein Benchmark für mathematische Grundschulaufgaben. Die gleichen 250 Aufgaben aus GSM8K werden jeweils von menschlichen Kommentatoren in 10 Sprachen (einschließlich Deutsch) übersetzt. Der Benchmark wurde erstellt, um die Beantwortung von Fragen zu grundlegenden mathematischen Problemen zu unterstützen, die eine mehrstufige Argumentation erfordern.
Technische DetailsFür die Bewertung der LLMs verwenden wir 5-Shot Beispiele. (Wir hätten auch Beispiele mit bis zu 8-Shot verwenden können)
Wir evaluieren sowohl mit als auch ohne Gedankenkette (Chain of Thought, CoT).
 Die Standardeinstellung für max_tokens bei der Auswertung ohne CoT ist 400. Für CoT verwenden wir max_tokens=600.
Die Prompt-Struktur für Nicht-CoT-Bewertungen lautet:
Frage: <few shot example question 1>
A: Die Antwort ist <ans 1>
﻿
Frage: <few shot example question 2>
A: Die Antwort ist <ans 2>
﻿
Frage: <few shot example question 3>
A: Die Antwort ist <ans 3>
﻿
Frage: <few shot example question 4>
A: Die Antwort ist <ans 4>
﻿
Frage: <few shot example question <5>
A: Die Antwort is <ans 5>
﻿
Frage: <question>
A:
Die Prompt-Struktur für die CoT-basierte Bewertung ist:
Frage: <few shot example question 1>
A: <ans 1 with reasoning step>
﻿
Frage: <few shot example question 2>
A: <ans 2 with reasoning step>
﻿
Frage: <few shot example question 3>
A: <ans 3 with reasoning step>
﻿
Frage: <few shot example question 4>
A: <ans 4 with reasoning step>
﻿
Frage: <few shot example question <5>
A: <ans 5 with reasoning step>
﻿
Frage: <question>
A:
Ergebnisse﻿
﻿
Da wir sowohl die direkte als auch die CoT-Prompting-Technik bewertet haben. Lassen Sie uns die Ergebnisse aus dieser Perspektive betrachten. Offensichtlich hilft das Chain of Thought Prompting bei der Verbesserung der Fähigkeit der LLMs, mathematisch zu argumentieren. 
﻿
﻿
EffizienzDie Effizienz ist die andere Kennzahl, die wir mit unserem Eisvogel Leaderboard ausweisen.
"Wir berichten über die beobachtete Laufzeit der Inferenz, indem wir sowohl die tatsächliche Laufzeit als auch eine geschätzte idealisierte Laufzeit für die gegebene Anfrage mit einer optimierten Software-Implementierung auf A100-GPU(s) aufzeichnen, wobei wir sowohl die Anzahl der Token in der Eingabeaufforderung der Anfrage als auch die Anzahl der generierten Ausgabe-Token berücksichtigen."
Weitere Einzelheiten zur Berechnung der Effizienz finden Sie in Abschnitt 4.9 der HELM Publikation.
GPT-4o mini und Command R Plus von Cohere sind zweifellos schnell.
Claude 3.5 Sonnet von Anthropic ist am langsamsten. 
﻿
﻿
Wir sind dabei, weitere Modelle in die Bewertungssuite aufzunehmen. Wir sind auch dabei, weitere Analysen hinzuzufügen. Wenden Sie sich mit Vorschlägen an uns :)
💡
﻿
Genauigkeit vs. Effizienz (Mittlere Gewinnrate)Eine gemeinsame Betrachtung von Genauigkeit und Schlussfolgerung kann zu weiteren Erkenntnissen führen. Im Folgenden verwenden wir die mittlere Gewinnrate, um die Modelle sowohl auf der Genauigkeits- als auch auf der Effizienzachse zu vergleichen.
Bei gleicher Genauigkeit und mittlerer Gewinnrate (0,75) ist GPT-4o viel effizienter als Claude 3.5 Sonnet. 
Wenn Sie auf der Suche nach einem schnellen LLM sind - GPT-4o mini ist das beste Angebot. Es ist rasend schnell und anständig genau.
﻿
Run set1
﻿
SchussfolgerungDas Eisvogel German LLM Leaderboard bietet eine spezielle Plattform für die Evaluierung großer Sprachmodelle für die deutsche Sprachbeherrschung, die verschiedene Aufgaben wie MMMLU für Wissenstests und MGSM für mathematisches Denken abdeckt (wird weiter wachsen). 
Das auf HELM aufbauende Leaderboard bietet einen robusten, skalierbaren Rahmen für die Bewertung von Modellen in mehrsprachigen Benchmarks durch generierungsbasierte Evaluierungen, wobei Unterschiede in den metrischen Skalen mit der mittleren Gewinnrate als zentrale Leistungskennzahl berücksichtigt werden. 
Die Auswertungen zeigen, dass Modelle wie GPT-4o mini sich durch Effizienz auszeichnen, während Modelle wie Mistral Large 2 und Claude 3.5 Sonnet eine bessere Leistung bei komplexen Schlussfolgerungsaufgaben erzielen, wenn auch mit längeren Inferenzzeiten. Das Leaderboard wird sich weiter entwickeln und mehr Modelle und Aufgaben integrieren, was es zu einer wertvollen Ressource für diejenigen macht, die deutsche Sprachmodelle entwickeln oder feinabstimmen.
Referenzen[1]: https://fal.ai/models/fal-ai/flux/schnell﻿
[2]: https://www.handelsblatt.com/technik/ki/black-forest-labs-flux-11-pro-darum-haengt-der-freiburger-bildgenerator-die-amerikanische-konkurrenz-ab/100076092.html﻿
﻿
Add a comment
Tags: Articles, LLM, Benchmark
Iterate on AI agents and models faster. Try Weights & Biases today.