Zum Inhalt springen
Informatik · Klasse 13 · Künstliche Intelligenz und Machine Learning · 2. Halbjahr

Training und Evaluierung von ML-Modellen

Die Schülerinnen und Schüler lernen Methoden zur Bewertung und Optimierung von Machine Learning-Modellen.

KMK BildungsstandardsKMK: Sekundarstufe II - AlgorithmenKMK: Sekundarstufe II - Daten und ihre Strukturierung

Über dieses Thema

Das Training und die Evaluierung von Machine Learning-Modellen basieren auf der Aufteilung von Daten in Trainings-, Validierungs- und Testdatensätze. Schülerinnen und Schüler lernen, Modelle auf Trainingsdaten anzupassen, Hyperparameter mit Validierungsdaten zu optimieren und die finale Performance mit Testdaten zu messen. Metriken wie Genauigkeit, Präzision, Recall und F1-Score ermöglichen eine nuancierte Bewertung, die über einfache Trefferquoten hinausgeht. Dies fördert das Verständnis, warum ein Modell in der Praxis zuverlässig vorhersagen muss.

Im KMK-Lehrplan Sekundarstufe II verknüpft das Thema Algorithmen mit der Strukturierung und Analyse von Daten. Schüler analysieren Overfitting, bei dem Modelle Trainingsdaten auswendig lernen, aber auf neuen Daten scheitern, und Underfitting, das zu zu simplen Modellen führt. Strategien wie k-Fold-Cross-Validation, Dropout oder Daten-Augmentation werden erörtert, um Generalisierung zu erreichen. So entsteht ein kritisches Bewusstsein für Bias und Fairness in KI-Systemen.

Aktives Lernen ist hier ideal, weil abstrakte Konzepte durch Experimente mit realen Datasets und Tools wie Python und Scikit-learn konkret werden. Schüler iterieren Modelle, beobachten Metriken live und diskutieren Ergebnisse, was tiefes Verständnis und Problemlösungsfähigkeiten schult.

Leitfragen

  1. Erklären Sie die Bedeutung von Trainings-, Validierungs- und Testdatensätzen.
  2. Analysieren Sie verschiedene Metriken zur Bewertung der Modellperformance (z.B. Genauigkeit, Präzision, Recall).
  3. Bewerten Sie Strategien zur Vermeidung von Overfitting und Underfitting.

Lernziele

  • Analysieren Sie die Auswirkungen verschiedener Metriken (Genauigkeit, Präzision, Recall, F1-Score) auf die Bewertung der Modellgüte für spezifische Anwendungsfälle.
  • Bewerten Sie die Effektivität von Techniken wie k-Fold-Cross-Validation zur Vermeidung von Overfitting und Underfitting anhand von Simulationsergebnissen.
  • Erklären Sie die Rolle von Trainings-, Validierungs- und Testdatensätzen bei der Entwicklung robuster Machine Learning-Modelle.
  • Entwerfen Sie eine Strategie zur Datensplittung und Hyperparameter-Optimierung für ein gegebenes Machine Learning-Problem.
  • Vergleichen Sie die Performance zweier ML-Modelle auf Basis von Validierungsmetriken und begründen Sie die Wahl des besseren Modells.

Bevor es losgeht

Grundlagen der Datenstrukturen und Algorithmen

Warum: Ein Verständnis von Datenstrukturen und grundlegenden Algorithmen ist notwendig, um die Funktionsweise von ML-Modellen und die Verarbeitung von Daten zu verstehen.

Einführung in Machine Learning: Modelltypen und Trainingsprozess

Warum: Schüler müssen die grundlegende Idee des Modelltrainings und die Existenz verschiedener Modelltypen kennen, bevor sie sich mit der Evaluierung und Optimierung beschäftigen.

Datenaufbereitung und Feature Engineering

Warum: Die Qualität der Daten hat direkten Einfluss auf das Modelltraining und die Evaluierung; Kenntnisse in der Datenaufbereitung sind daher eine wichtige Grundlage.

Schlüsselvokabular

OverfittingEin Zustand, bei dem ein Machine Learning-Modell die Trainingsdaten zu gut lernt, einschließlich Rauschen und Ausreißern, was zu schlechter Generalisierung auf neuen Daten führt.
UnderfittingEin Zustand, bei dem ein Machine Learning-Modell zu einfach ist, um die zugrundeliegenden Muster in den Trainingsdaten zu erfassen, was zu schlechter Performance sowohl auf Trainings- als auch auf Testdaten führt.
Hyperparameter-TuningDer Prozess der Anpassung von Parametern eines Machine Learning-Algorithmus, die nicht während des Trainings gelernt werden (z.B. Lernrate, Anzahl der Schichten), um die Modellperformance zu optimieren.
k-Fold-Cross-ValidationEine Methode zur Evaluierung von Machine Learning-Modellen, bei der die Trainingsdaten in 'k' Teilmengen aufgeteilt werden. Das Modell wird 'k'-mal trainiert, wobei jedes Mal eine andere Teilmenge als Validierungsdatensatz verwendet wird.
Präzision (Precision)Das Verhältnis der korrekt als positiv klassifizierten Instanzen zur Gesamtzahl der als positiv klassifizierten Instanzen. Misst, wie viele der als positiv vorhergesagten Fälle tatsächlich positiv waren.
Recall (Sensitivität)Das Verhältnis der korrekt als positiv klassifizierten Instanzen zur Gesamtzahl der tatsächlich positiven Instanzen. Misst, wie viele der tatsächlichen positiven Fälle das Modell korrekt identifiziert hat.

Vorsicht vor diesen Fehlvorstellungen

Häufige FehlvorstellungHohe Genauigkeit auf Trainingsdaten bedeutet immer ein gutes Modell.

Was Sie stattdessen lehren sollten

Overfitting führt zu schlechter Generalisierung auf Testdaten. Aktive Experimente, bei denen Schüler Metriken auf separaten Sätzen vergleichen, machen diesen Unterschied spürbar und fördern Diskussionen über Validierung.

Häufige FehlvorstellungAccuracy ist die einzige relevante Metrik für alle Probleme.

Was Sie stattdessen lehren sollten

Bei unausbalancierten Datasets täuscht Accuracy. Gruppenarbeit mit Confusion Matrices zeigt, warum Präzision und Recall entscheidend sind, und hilft Schülern, kontextbezogene Bewertungen zu lernen.

Häufige FehlvorstellungMehr Trainingsdaten lösen immer Underfitting.

Was Sie stattdessen lehren sollten

Underfitting erfordert komplexere Modelle. Praktische Iterationen in Pairs lassen Schüler den Sweet Spot zwischen Bias und Variance erleben und Strategien wie Feature-Engineering anwenden.

Ideen für aktives Lernen

Alle Aktivitäten ansehen

Bezüge zur Lebenswelt

  • In der medizinischen Diagnostik werden ML-Modelle trainiert, um Krankheiten anhand von Patientendaten zu erkennen. Die Evaluierung mit Metriken wie Recall ist entscheidend, um sicherzustellen, dass möglichst viele tatsächliche Fälle erkannt werden, während Präzision hilft, unnötige Behandlungen zu vermeiden.
  • Finanzinstitute nutzen ML zur Betrugserkennung bei Kreditkartentransaktionen. Ein Modell muss sowohl betrügerische Transaktionen (hoher Recall) als auch legitime Transaktionen (hohe Präzision) korrekt klassifizieren, um finanzielle Verluste zu minimieren und das Kundenerlebnis nicht zu beeinträchtigen.
  • Autonome Fahrsysteme verlassen sich auf ML-Modelle zur Objekterkennung. Die Zuverlässigkeit dieser Modelle wird durch rigorose Tests und die Analyse von Metriken wie Genauigkeit und Fehlerraten auf vielfältigen Testdatensätzen sichergestellt, um die Sicherheit im Straßenverkehr zu gewährleisten.

Ideen zur Lernstandserhebung

Lernstandskontrolle

Geben Sie den Schülerinnen und Schülern ein Szenario (z.B. Spam-Filter, medizinische Diagnose) und bitten Sie sie, zu entscheiden, welche Metrik (Genauigkeit, Präzision, Recall, F1-Score) für dieses Szenario am wichtigsten ist. Sie sollen ihre Wahl in 2-3 Sätzen begründen.

Kurze Überprüfung

Stellen Sie eine Grafik mit Trainings- und Validierungsverlustkurven bereit, die Overfitting oder Underfitting zeigen. Fragen Sie die Schüler: 'Welches Problem liegt hier vor und welche zwei Strategien könnten Sie anwenden, um es zu beheben?'

Diskussionsfrage

Teilen Sie die Klasse in Kleingruppen auf. Geben Sie jeder Gruppe einen Datensatz (simuliert oder real) und die Aufgabe, diesen in Trainings-, Validierungs- und Testsets aufzuteilen. Lassen Sie sie ihre Aufteilung begründen und mögliche Fallstricke (z.B. Datenlecks) diskutieren.

Häufig gestellte Fragen

Was sind Trainings-, Validierungs- und Testdatensätze?
Trainingsdaten dienen der Modellanpassung, Validierungsdaten der Hyperparameter-Optimierung, Testdaten der finalen, einmaligen Bewertung. Diese Trennung verhindert Datenlecks und simuliert reale Anwendungen. Schüler üben das mit Tools wie train_test_split in Python, um faire Evaluations zu gewährleisten. (62 Wörter)
Wie unterscheiden sich Präzision und Recall?
Präzision misst, wie viele positive Vorhersagen korrekt sind (von allen Positiv-Vorhersagen), Recall den Anteil korrekter Positiv-Erkennungen (von allen echten Positiven). Ideal für imbalanced Klassen wie Medizin oder Spam-Filter. Schüler berechnen beide Metriken hands-on, um Trade-offs zu verstehen und F1-Score als Harmoniemittel einzusetzen. (68 Wörter)
Wie vermeidet man Overfitting bei ML-Modellen?
Strategien umfassen Cross-Validation, Regularisierung (L1/L2), Early Stopping, Dropout und mehr Daten. Early Stopping stoppt Training, wenn Validierungsfehler steigt. Schüler experimentieren damit in Jupyter Notebooks, plotten Lernkurven und lernen, Komplexität zu balancieren für robuste Modelle. (64 Wörter)
Wie hilft aktives Lernen beim Verständnis von ML-Training und Evaluierung?
Aktive Methoden wie Pair Programming oder Gruppen-Challenges machen abstrakte Konzepte greifbar: Schüler trainieren reale Modelle, sehen Overfitting live und iterieren Metriken. Kollaborative Diskussionen klären Missverständnisse, fördern kritisches Denken und verbinden Theorie mit Praxis. Das steigert Retention und bereitet auf berufliche KI-Anwendungen vor. (72 Wörter)

Planungsvorlagen für Informatik