Informatik · Klasse 13 · Künstliche Intelligenz und Machine Learning · 2. Halbjahr

Lineare Regression und Klassifikation

Die Schülerinnen und Schüler lernen grundlegende Machine Learning-Modelle wie lineare Regression und logistische Regression kennen.

KMK BildungsstandardsKMK: Sekundarstufe II - AlgorithmenKMK: Sekundarstufe II - Modellieren und Implementieren

Über dieses Thema

Lineare Regression und Klassifikation sind zentrale Machine-Learning-Modelle, die Schülerinnen und Schüler in der Oberstufe Informatik kennenlernen. Bei der linearen Regression schätzen Schüler einen kontinuierlichen Zielwert, indem sie eine Gerade durch Trainingsdaten legen, die den quadratischen Fehler minimiert. Die Formel y = mx + b wird an reale Datensätze angepasst, um Vorhersagen zu treffen. Logistische Regression erweitert dies auf Klassifikationsaufgaben: Sie verwendet die Sigmoid-Funktion, um Wahrscheinlichkeiten für Klassen wie 0 oder 1 zu berechnen und entscheidet per Schwellenwert.

Diese Themen knüpfen an KMK-Standards zu Algorithmen und Modellieren an. Schüler erklären die Funktionsweise, vergleichen beide Modelle und analysieren, wie Features die Modellperformance beeinflussen. Praktische Implementierungen in Python mit Bibliotheken wie scikit-learn vertiefen das Verständnis von Trainingsprozessen, Overfitting und Evaluation metrisch wie MSE oder Accuracy.

Aktives Lernen ist hier ideal, weil abstrakte Optimierungsprozesse durch interaktive Experimente erfahrbar werden. Schüler passen Hyperparameter selbst an, beobachten Leistungsänderungen und diskutieren Feature-Importanz in Gruppen, was Modellintuition stärkt und Transfer auf komplexere Algorithmen erleichtert.

Leitfragen

Erklären Sie die Funktionsweise der linearen Regression zur Vorhersage kontinuierlicher Werte.
Vergleichen Sie lineare Regression und logistische Regression für Klassifikationsaufgaben.
Analysieren Sie die Bedeutung von Merkmalen (Features) für die Modellperformance.

Lernziele

Berechnen Sie die Koeffizienten einer linearen Regressionsgeraden für einen gegebenen Datensatz unter Verwendung der Methode der kleinsten Quadrate.
Erklären Sie die Funktionsweise der Sigmoid-Funktion in der logistischen Regression zur Umwandlung von linearen Ausgaben in Wahrscheinlichkeiten.
Vergleichen Sie die Anwendungsbereiche und die mathematischen Grundlagen der linearen Regression und der logistischen Regression.
Analysieren Sie die Auswirkung von irrelevanten oder redundanten Merkmalen auf die Vorhersagegenauigkeit eines Machine-Learning-Modells.
Entwerfen Sie ein einfaches Klassifikationsmodell, das auf logistischer Regression basiert, um binäre Entscheidungen zu treffen.

Bevor es losgeht

Grundlagen der Algebra: Lineare Gleichungen

Warum: Schüler müssen lineare Gleichungen der Form y = mx + b verstehen und manipulieren können, um die lineare Regression nachzuvollziehen.

Funktionen und ihre Graphen

Warum: Das Verständnis von Funktionen, insbesondere von linearen Funktionen und deren grafischer Darstellung, ist essentiell für das Verständnis der Regressionsgeraden.

Datentypen und Variablen

Warum: Die Unterscheidung zwischen kontinuierlichen und kategorialen Variablen ist grundlegend für die Wahl zwischen linearer und logistischer Regression.

Schlüsselvokabular

Lineare Regression	Ein statistisches Verfahren zur Modellierung der Beziehung zwischen einer abhängigen kontinuierlichen Variablen und einer oder mehreren unabhängigen Variablen durch eine lineare Gleichung.
Logistische Regression	Ein Klassifikationsalgorithmus, der die logistische Funktion (Sigmoid) verwendet, um die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen, typischerweise für binäre Klassifikationsprobleme.
Merkmale (Features)	Die Eingabevariablen oder Attribute, die zur Vorhersage des Zielwerts oder zur Klassifizierung eines Datenpunkts verwendet werden.
Sigmoid-Funktion	Eine mathematische Funktion, die eine S-förmige Kurve erzeugt und Werte von minus unendlich bis plus unendlich auf einen Bereich zwischen 0 und 1 abbildet, nützlich für Wahrscheinlichkeitsberechnungen.
Fehlerquadratsumme (Sum of Squared Errors, SSE)	Ein Maß für die Abweichung zwischen den beobachteten Werten und den durch ein Modell vorhergesagten Werten, das bei der linearen Regression minimiert wird.

Vorsicht vor diesen Fehlvorstellungen

Häufige FehlvorstellungLineare Regression liefert immer perfekte Vorhersagen.

Was Sie stattdessen lehren sollten

Regression minimiert nur den Durchschnittfehler, Rauschen bleibt. Aktive Experimente mit künstlichem Rauschen zeigen Residuen und die Notwendigkeit von Validierung, Gruppen diskutiieren Overfitting-Prävention.

Häufige FehlvorstellungLogistische Regression ist für kontinuierliche Werte geeignet.

Was Sie stattdessen lehren sollten

Sie modelliert Wahrscheinlichkeiten für Klassen, nicht kontinuierliche Outputs. Pair-Implementierungen mit Fehlversuchen klären den Unterschied, Korrektur durch Vergleichsplots fördert klares Klassifikationsverständnis.

Häufige FehlvorstellungMehr Features verbessern immer das Modell.

Was Sie stattdessen lehren sollten

Irrelevante Features führen zu Overfitting. Feature-Selektions-Stationen lassen Schüler Leistungsabfälle beobachten, Diskussionen erklären Korrelationsanalysen als Hilfsmittel.

Ideen für aktives Lernen

Alle Aktivitäten ansehen

Paararbeit: Lineare Regression fitten

Paare laden einen Datensatz wie Hauspreise, plotten Features gegen Preis. Implementieren lineare Regression mit scikit-learn, visualisieren die Regressionsgerade und berechnen Residuen. Diskutieren, wie Feature-Änderungen die Vorhersage beeinflussen.

45 Min.·Partnerarbeit

Lernen an Stationen: Regression vs. Klassifikation

Drei Stationen: Station 1 lineare Regression auf kontinuierlichen Daten trainieren, Station 2 logistische auf Iris-Daten, Station 3 Features skalieren und vergleichen. Gruppen rotieren, notieren Metriken und präsentieren Unterschiede.

50 Min.·Kleingruppen

Ganzklassig: Feature-Analyse simulieren

Klasse analysiert einen gemeinsamen Datensatz. Jeder Schüler testet ein Feature, trainiert Modelle und teilt Accuracy-Werte. Gemeinsam rangieren Features nach Einfluss und visualisieren Korrelationen.

40 Min.·Ganze Klasse

Individuell: Modell-Optimierung

Jeder Schüler passt ein vorgegebenes Modell an, variiert Features und Lerngeschwindigkeit. Bewertet mit Cross-Validation und notiert beste Konfiguration. Teilt Ergebnisse in Plenum.

30 Min.·Einzelarbeit

Bezüge zur Lebenswelt

Immobilienmakler nutzen lineare Regression, um den Verkaufspreis von Häusern basierend auf Merkmalen wie Wohnfläche, Anzahl der Zimmer und Lage vorherzusagen. Dies hilft bei der Festlegung realistischer Angebotspreise.
Kreditinstitute verwenden logistische Regression, um das Risiko eines Kreditausfalls zu bewerten. Anhand von Merkmalen wie Einkommen, Kreditwürdigkeit und Beschäftigungsdauer wird die Wahrscheinlichkeit berechnet, dass ein Kunde seinen Kredit zurückzahlen kann.
Online-Streaming-Dienste wie Netflix setzen Modelle, die auf logistischer Regression basieren, um zu entscheiden, ob einem Nutzer ein bestimmtes Video empfohlen werden soll. Merkmale sind hierbei die bisher gesehene Inhalte und die Bewertungen des Nutzers.

Ideen zur Lernstandserhebung

Lernstandskontrolle

Geben Sie den Schülerinnen und Schülern einen kleinen Datensatz mit zwei Merkmalen und einem kontinuierlichen Zielwert. Bitten Sie sie, die Gleichung der linearen Regressionsgeraden zu berechnen und zu erklären, was der Anstieg und der Y-Achsenabschnitt in diesem Kontext bedeuten.

Kurze Überprüfung

Stellen Sie eine Frage zur logistischen Regression: 'Ein Modell soll vorhersagen, ob ein Kunde ein Produkt kauft (Ja/Nein). Welche Funktion wird typischerweise verwendet, um die Wahrscheinlichkeit für 'Ja' zu berechnen, und warum ist diese Funktion besser geeignet als eine lineare Funktion?'

Diskussionsfrage

Teilen Sie die Klasse in Kleingruppen auf. Geben Sie jeder Gruppe ein Szenario, z.B. 'Vorhersage des Lernerfolgs von Schülern' oder 'Erkennung von Spam-E-Mails'. Die Gruppen sollen diskutieren: Welche Art von Regression (linear oder logistisch) wäre für dieses Szenario besser geeignet und warum? Welche Merkmale wären für die Vorhersage wichtig?

Häufig gestellte Fragen

Wie funktioniert lineare Regression genau?

Lineare Regression findet die beste Gerade y = mx + b, die den Abstand zu Trainingsdaten minimiert, gemessen am quadratischen Fehler. Mithilfe von Gradientenabstieg passt das Modell Koeffizienten an. Schüler implementieren es in Python, visualisieren Fits und testen auf neuen Daten, um Robustheit zu prüfen. Dies verbindet Mathematik mit Programmierung und zeigt reale Anwendungen wie Preisvorhersagen.

Was ist der Unterschied zu logistischer Regression?

Lineare Regression vorhersagt kontinuierliche Werte, logistische Klassifikation mit Sigmoid-Funktion für Wahrscheinlichkeiten 0-1. Bei Klassifikation wird ein Schwellenwert wie 0,5 angewendet. Vergleichsübungen mit demselben Datensatz offenbaren, wann welches Modell passt, z. B. Regression für Temperatur, logistische für Spam-Erkennung. Metriken wie MSE vs. Accuracy verdeutlichen den Zweck.

Wie kann aktives Lernen Lineare Regression vertiefen?

Aktives Lernen macht Optimierung greifbar: Schüler bauen Modelle in Pairs, variieren Daten und beobachten Echtzeit-Änderungen in Plots. Gruppendiskussionen zu Residuen und Features fördern Erklärungen untereinander. Solche Hands-on-Aktivitäten reduzieren abstrakte Ängste, stärken Debugging-Fähigkeiten und verbessern Transfer auf neuronale Netze, da Schüler eigene Fehler erleben und korrigieren.

Warum sind Features für Modellperformance wichtig?

Features bestimmen, wie gut das Modell Muster lernt: Korrelationen mit dem Target steigern Accuracy, irrelevante verursachen Overfitting. Schüler analysieren durch Korrelationsmatrizen und Selektion, trainieren Varianten und messen Unterschiede. Dies lehrt Priorisierung realer Daten wie in Medizin oder Wirtschaft, wo Feature-Engineering entscheidend ist.

Planungsvorlagen für Informatik

Unterrichtsplan

MINT

Eine MINT Vorlage, die auf dem Engineering Design Process basiert. Sie integriert Mathematik, Informatik, Naturwissenschaft und Technik durch reale Herausforderungen, die Lernende untersuchen und lösen.

Mehr in Künstliche Intelligenz und Machine Learning

Einführung in Künstliche Intelligenz

Die Schülerinnen und Schüler lernen die Definition, Geschichte und Anwendungsbereiche der KI kennen.

2 methodologies

Grundlagen des Machine Learning

Die Schülerinnen und Schüler verstehen die Konzepte von überwachtem, unüberwachtem und bestärkendem Lernen.

2 methodologies

Grundlagen neuronaler Netze

Modellierung biologischer Lernprozesse durch Perzeptrone und Backpropagation.

3 methodologies

Deep Learning und Convolutional Neural Networks (CNNs)

Die Schülerinnen und Schüler lernen Deep Learning-Architekturen und CNNs für Bilderkennung kennen.

2 methodologies

Training und Evaluierung von ML-Modellen

Die Schülerinnen und Schüler lernen Methoden zur Bewertung und Optimierung von Machine Learning-Modellen.

2 methodologies

Anwendungsfelder und Grenzen von KI

Untersuchung von Large Language Models (LLM) und Computer Vision.

3 methodologies