Training und Evaluierung von ML-Modellen
Die Schülerinnen und Schüler lernen Methoden zur Bewertung und Optimierung von Machine Learning-Modellen.
Über dieses Thema
Das Training und die Evaluierung von Machine Learning-Modellen basieren auf der Aufteilung von Daten in Trainings-, Validierungs- und Testdatensätze. Schülerinnen und Schüler lernen, Modelle auf Trainingsdaten anzupassen, Hyperparameter mit Validierungsdaten zu optimieren und die finale Performance mit Testdaten zu messen. Metriken wie Genauigkeit, Präzision, Recall und F1-Score ermöglichen eine nuancierte Bewertung, die über einfache Trefferquoten hinausgeht. Dies fördert das Verständnis, warum ein Modell in der Praxis zuverlässig vorhersagen muss.
Im KMK-Lehrplan Sekundarstufe II verknüpft das Thema Algorithmen mit der Strukturierung und Analyse von Daten. Schüler analysieren Overfitting, bei dem Modelle Trainingsdaten auswendig lernen, aber auf neuen Daten scheitern, und Underfitting, das zu zu simplen Modellen führt. Strategien wie k-Fold-Cross-Validation, Dropout oder Daten-Augmentation werden erörtert, um Generalisierung zu erreichen. So entsteht ein kritisches Bewusstsein für Bias und Fairness in KI-Systemen.
Aktives Lernen ist hier ideal, weil abstrakte Konzepte durch Experimente mit realen Datasets und Tools wie Python und Scikit-learn konkret werden. Schüler iterieren Modelle, beobachten Metriken live und diskutieren Ergebnisse, was tiefes Verständnis und Problemlösungsfähigkeiten schult.
Leitfragen
- Erklären Sie die Bedeutung von Trainings-, Validierungs- und Testdatensätzen.
- Analysieren Sie verschiedene Metriken zur Bewertung der Modellperformance (z.B. Genauigkeit, Präzision, Recall).
- Bewerten Sie Strategien zur Vermeidung von Overfitting und Underfitting.
Lernziele
- Analysieren Sie die Auswirkungen verschiedener Metriken (Genauigkeit, Präzision, Recall, F1-Score) auf die Bewertung der Modellgüte für spezifische Anwendungsfälle.
- Bewerten Sie die Effektivität von Techniken wie k-Fold-Cross-Validation zur Vermeidung von Overfitting und Underfitting anhand von Simulationsergebnissen.
- Erklären Sie die Rolle von Trainings-, Validierungs- und Testdatensätzen bei der Entwicklung robuster Machine Learning-Modelle.
- Entwerfen Sie eine Strategie zur Datensplittung und Hyperparameter-Optimierung für ein gegebenes Machine Learning-Problem.
- Vergleichen Sie die Performance zweier ML-Modelle auf Basis von Validierungsmetriken und begründen Sie die Wahl des besseren Modells.
Bevor es losgeht
Warum: Ein Verständnis von Datenstrukturen und grundlegenden Algorithmen ist notwendig, um die Funktionsweise von ML-Modellen und die Verarbeitung von Daten zu verstehen.
Warum: Schüler müssen die grundlegende Idee des Modelltrainings und die Existenz verschiedener Modelltypen kennen, bevor sie sich mit der Evaluierung und Optimierung beschäftigen.
Warum: Die Qualität der Daten hat direkten Einfluss auf das Modelltraining und die Evaluierung; Kenntnisse in der Datenaufbereitung sind daher eine wichtige Grundlage.
Schlüsselvokabular
| Overfitting | Ein Zustand, bei dem ein Machine Learning-Modell die Trainingsdaten zu gut lernt, einschließlich Rauschen und Ausreißern, was zu schlechter Generalisierung auf neuen Daten führt. |
| Underfitting | Ein Zustand, bei dem ein Machine Learning-Modell zu einfach ist, um die zugrundeliegenden Muster in den Trainingsdaten zu erfassen, was zu schlechter Performance sowohl auf Trainings- als auch auf Testdaten führt. |
| Hyperparameter-Tuning | Der Prozess der Anpassung von Parametern eines Machine Learning-Algorithmus, die nicht während des Trainings gelernt werden (z.B. Lernrate, Anzahl der Schichten), um die Modellperformance zu optimieren. |
| k-Fold-Cross-Validation | Eine Methode zur Evaluierung von Machine Learning-Modellen, bei der die Trainingsdaten in 'k' Teilmengen aufgeteilt werden. Das Modell wird 'k'-mal trainiert, wobei jedes Mal eine andere Teilmenge als Validierungsdatensatz verwendet wird. |
| Präzision (Precision) | Das Verhältnis der korrekt als positiv klassifizierten Instanzen zur Gesamtzahl der als positiv klassifizierten Instanzen. Misst, wie viele der als positiv vorhergesagten Fälle tatsächlich positiv waren. |
| Recall (Sensitivität) | Das Verhältnis der korrekt als positiv klassifizierten Instanzen zur Gesamtzahl der tatsächlich positiven Instanzen. Misst, wie viele der tatsächlichen positiven Fälle das Modell korrekt identifiziert hat. |
Vorsicht vor diesen Fehlvorstellungen
Häufige FehlvorstellungHohe Genauigkeit auf Trainingsdaten bedeutet immer ein gutes Modell.
Was Sie stattdessen lehren sollten
Overfitting führt zu schlechter Generalisierung auf Testdaten. Aktive Experimente, bei denen Schüler Metriken auf separaten Sätzen vergleichen, machen diesen Unterschied spürbar und fördern Diskussionen über Validierung.
Häufige FehlvorstellungAccuracy ist die einzige relevante Metrik für alle Probleme.
Was Sie stattdessen lehren sollten
Bei unausbalancierten Datasets täuscht Accuracy. Gruppenarbeit mit Confusion Matrices zeigt, warum Präzision und Recall entscheidend sind, und hilft Schülern, kontextbezogene Bewertungen zu lernen.
Häufige FehlvorstellungMehr Trainingsdaten lösen immer Underfitting.
Was Sie stattdessen lehren sollten
Underfitting erfordert komplexere Modelle. Praktische Iterationen in Pairs lassen Schüler den Sweet Spot zwischen Bias und Variance erleben und Strategien wie Feature-Engineering anwenden.
Ideen für aktives Lernen
Alle Aktivitäten ansehenPair Programming: Dataset-Aufteilung
Paare laden ein Dataset, teilen es in Train/Validierung/Test auf und trainieren ein einfaches Modell mit Scikit-learn. Sie vergleichen Vorhersagen und notieren erste Metriken. Abschließend diskutieren sie Auswirkungen falscher Aufteilungen.
Small Groups: Metriken-Analyse
Gruppen wählen ein Klassifikationsproblem, berechnen Genauigkeit, Präzision und Recall für verschiedene Modelle. Sie erstellen eine Tabelle und visualisieren Ergebnisse mit Matplotlib. Gemeinsam identifizieren sie das beste Modell.
Whole Class: Overfitting-Demonstration
Die Klasse beobachtet eine Live-Demo: Ein Modell wird auf wachsenden Trainingsdaten trainiert, Metriken auf Testdaten geplottet. Alle notieren Beobachtungen und schlagen Verbesserungen vor. Diskussion schließt ab.
Individual: Optimierungs-Challenge
Jeder Schüler optimiert ein vorgegebenes Modell gegen Overfitting, testet Regularisierungstechniken und dokumentiert Metriken. Ergebnisse werden in einer Klassentabelle gesammelt und verglichen.
Bezüge zur Lebenswelt
- In der medizinischen Diagnostik werden ML-Modelle trainiert, um Krankheiten anhand von Patientendaten zu erkennen. Die Evaluierung mit Metriken wie Recall ist entscheidend, um sicherzustellen, dass möglichst viele tatsächliche Fälle erkannt werden, während Präzision hilft, unnötige Behandlungen zu vermeiden.
- Finanzinstitute nutzen ML zur Betrugserkennung bei Kreditkartentransaktionen. Ein Modell muss sowohl betrügerische Transaktionen (hoher Recall) als auch legitime Transaktionen (hohe Präzision) korrekt klassifizieren, um finanzielle Verluste zu minimieren und das Kundenerlebnis nicht zu beeinträchtigen.
- Autonome Fahrsysteme verlassen sich auf ML-Modelle zur Objekterkennung. Die Zuverlässigkeit dieser Modelle wird durch rigorose Tests und die Analyse von Metriken wie Genauigkeit und Fehlerraten auf vielfältigen Testdatensätzen sichergestellt, um die Sicherheit im Straßenverkehr zu gewährleisten.
Ideen zur Lernstandserhebung
Geben Sie den Schülerinnen und Schülern ein Szenario (z.B. Spam-Filter, medizinische Diagnose) und bitten Sie sie, zu entscheiden, welche Metrik (Genauigkeit, Präzision, Recall, F1-Score) für dieses Szenario am wichtigsten ist. Sie sollen ihre Wahl in 2-3 Sätzen begründen.
Stellen Sie eine Grafik mit Trainings- und Validierungsverlustkurven bereit, die Overfitting oder Underfitting zeigen. Fragen Sie die Schüler: 'Welches Problem liegt hier vor und welche zwei Strategien könnten Sie anwenden, um es zu beheben?'
Teilen Sie die Klasse in Kleingruppen auf. Geben Sie jeder Gruppe einen Datensatz (simuliert oder real) und die Aufgabe, diesen in Trainings-, Validierungs- und Testsets aufzuteilen. Lassen Sie sie ihre Aufteilung begründen und mögliche Fallstricke (z.B. Datenlecks) diskutieren.
Häufig gestellte Fragen
Was sind Trainings-, Validierungs- und Testdatensätze?
Wie unterscheiden sich Präzision und Recall?
Wie vermeidet man Overfitting bei ML-Modellen?
Wie hilft aktives Lernen beim Verständnis von ML-Training und Evaluierung?
Planungsvorlagen für Informatik
Mehr in Künstliche Intelligenz und Machine Learning
Einführung in Künstliche Intelligenz
Die Schülerinnen und Schüler lernen die Definition, Geschichte und Anwendungsbereiche der KI kennen.
2 methodologies
Grundlagen des Machine Learning
Die Schülerinnen und Schüler verstehen die Konzepte von überwachtem, unüberwachtem und bestärkendem Lernen.
2 methodologies
Lineare Regression und Klassifikation
Die Schülerinnen und Schüler lernen grundlegende Machine Learning-Modelle wie lineare Regression und logistische Regression kennen.
2 methodologies
Grundlagen neuronaler Netze
Modellierung biologischer Lernprozesse durch Perzeptrone und Backpropagation.
3 methodologies
Deep Learning und Convolutional Neural Networks (CNNs)
Die Schülerinnen und Schüler lernen Deep Learning-Architekturen und CNNs für Bilderkennung kennen.
2 methodologies
Anwendungsfelder und Grenzen von KI
Untersuchung von Large Language Models (LLM) und Computer Vision.
3 methodologies