Zum Inhalt springen
Informatik · Klasse 13 · Künstliche Intelligenz und Machine Learning · 2. Halbjahr

Lineare Regression und Klassifikation

Die Schülerinnen und Schüler lernen grundlegende Machine Learning-Modelle wie lineare Regression und logistische Regression kennen.

KMK BildungsstandardsKMK: Sekundarstufe II - AlgorithmenKMK: Sekundarstufe II - Modellieren und Implementieren

Über dieses Thema

Lineare Regression und Klassifikation sind zentrale Machine-Learning-Modelle, die Schülerinnen und Schüler in der Oberstufe Informatik kennenlernen. Bei der linearen Regression schätzen Schüler einen kontinuierlichen Zielwert, indem sie eine Gerade durch Trainingsdaten legen, die den quadratischen Fehler minimiert. Die Formel y = mx + b wird an reale Datensätze angepasst, um Vorhersagen zu treffen. Logistische Regression erweitert dies auf Klassifikationsaufgaben: Sie verwendet die Sigmoid-Funktion, um Wahrscheinlichkeiten für Klassen wie 0 oder 1 zu berechnen und entscheidet per Schwellenwert.

Diese Themen knüpfen an KMK-Standards zu Algorithmen und Modellieren an. Schüler erklären die Funktionsweise, vergleichen beide Modelle und analysieren, wie Features die Modellperformance beeinflussen. Praktische Implementierungen in Python mit Bibliotheken wie scikit-learn vertiefen das Verständnis von Trainingsprozessen, Overfitting und Evaluation metrisch wie MSE oder Accuracy.

Aktives Lernen ist hier ideal, weil abstrakte Optimierungsprozesse durch interaktive Experimente erfahrbar werden. Schüler passen Hyperparameter selbst an, beobachten Leistungsänderungen und diskutieren Feature-Importanz in Gruppen, was Modellintuition stärkt und Transfer auf komplexere Algorithmen erleichtert.

Leitfragen

  1. Erklären Sie die Funktionsweise der linearen Regression zur Vorhersage kontinuierlicher Werte.
  2. Vergleichen Sie lineare Regression und logistische Regression für Klassifikationsaufgaben.
  3. Analysieren Sie die Bedeutung von Merkmalen (Features) für die Modellperformance.

Lernziele

  • Berechnen Sie die Koeffizienten einer linearen Regressionsgeraden für einen gegebenen Datensatz unter Verwendung der Methode der kleinsten Quadrate.
  • Erklären Sie die Funktionsweise der Sigmoid-Funktion in der logistischen Regression zur Umwandlung von linearen Ausgaben in Wahrscheinlichkeiten.
  • Vergleichen Sie die Anwendungsbereiche und die mathematischen Grundlagen der linearen Regression und der logistischen Regression.
  • Analysieren Sie die Auswirkung von irrelevanten oder redundanten Merkmalen auf die Vorhersagegenauigkeit eines Machine-Learning-Modells.
  • Entwerfen Sie ein einfaches Klassifikationsmodell, das auf logistischer Regression basiert, um binäre Entscheidungen zu treffen.

Bevor es losgeht

Grundlagen der Algebra: Lineare Gleichungen

Warum: Schüler müssen lineare Gleichungen der Form y = mx + b verstehen und manipulieren können, um die lineare Regression nachzuvollziehen.

Funktionen und ihre Graphen

Warum: Das Verständnis von Funktionen, insbesondere von linearen Funktionen und deren grafischer Darstellung, ist essentiell für das Verständnis der Regressionsgeraden.

Datentypen und Variablen

Warum: Die Unterscheidung zwischen kontinuierlichen und kategorialen Variablen ist grundlegend für die Wahl zwischen linearer und logistischer Regression.

Schlüsselvokabular

Lineare RegressionEin statistisches Verfahren zur Modellierung der Beziehung zwischen einer abhängigen kontinuierlichen Variablen und einer oder mehreren unabhängigen Variablen durch eine lineare Gleichung.
Logistische RegressionEin Klassifikationsalgorithmus, der die logistische Funktion (Sigmoid) verwendet, um die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen, typischerweise für binäre Klassifikationsprobleme.
Merkmale (Features)Die Eingabevariablen oder Attribute, die zur Vorhersage des Zielwerts oder zur Klassifizierung eines Datenpunkts verwendet werden.
Sigmoid-FunktionEine mathematische Funktion, die eine S-förmige Kurve erzeugt und Werte von minus unendlich bis plus unendlich auf einen Bereich zwischen 0 und 1 abbildet, nützlich für Wahrscheinlichkeitsberechnungen.
Fehlerquadratsumme (Sum of Squared Errors, SSE)Ein Maß für die Abweichung zwischen den beobachteten Werten und den durch ein Modell vorhergesagten Werten, das bei der linearen Regression minimiert wird.

Vorsicht vor diesen Fehlvorstellungen

Häufige FehlvorstellungLineare Regression liefert immer perfekte Vorhersagen.

Was Sie stattdessen lehren sollten

Regression minimiert nur den Durchschnittfehler, Rauschen bleibt. Aktive Experimente mit künstlichem Rauschen zeigen Residuen und die Notwendigkeit von Validierung, Gruppen diskutiieren Overfitting-Prävention.

Häufige FehlvorstellungLogistische Regression ist für kontinuierliche Werte geeignet.

Was Sie stattdessen lehren sollten

Sie modelliert Wahrscheinlichkeiten für Klassen, nicht kontinuierliche Outputs. Pair-Implementierungen mit Fehlversuchen klären den Unterschied, Korrektur durch Vergleichsplots fördert klares Klassifikationsverständnis.

Häufige FehlvorstellungMehr Features verbessern immer das Modell.

Was Sie stattdessen lehren sollten

Irrelevante Features führen zu Overfitting. Feature-Selektions-Stationen lassen Schüler Leistungsabfälle beobachten, Diskussionen erklären Korrelationsanalysen als Hilfsmittel.

Ideen für aktives Lernen

Alle Aktivitäten ansehen

Bezüge zur Lebenswelt

  • Immobilienmakler nutzen lineare Regression, um den Verkaufspreis von Häusern basierend auf Merkmalen wie Wohnfläche, Anzahl der Zimmer und Lage vorherzusagen. Dies hilft bei der Festlegung realistischer Angebotspreise.
  • Kreditinstitute verwenden logistische Regression, um das Risiko eines Kreditausfalls zu bewerten. Anhand von Merkmalen wie Einkommen, Kreditwürdigkeit und Beschäftigungsdauer wird die Wahrscheinlichkeit berechnet, dass ein Kunde seinen Kredit zurückzahlen kann.
  • Online-Streaming-Dienste wie Netflix setzen Modelle, die auf logistischer Regression basieren, um zu entscheiden, ob einem Nutzer ein bestimmtes Video empfohlen werden soll. Merkmale sind hierbei die bisher gesehene Inhalte und die Bewertungen des Nutzers.

Ideen zur Lernstandserhebung

Lernstandskontrolle

Geben Sie den Schülerinnen und Schülern einen kleinen Datensatz mit zwei Merkmalen und einem kontinuierlichen Zielwert. Bitten Sie sie, die Gleichung der linearen Regressionsgeraden zu berechnen und zu erklären, was der Anstieg und der Y-Achsenabschnitt in diesem Kontext bedeuten.

Kurze Überprüfung

Stellen Sie eine Frage zur logistischen Regression: 'Ein Modell soll vorhersagen, ob ein Kunde ein Produkt kauft (Ja/Nein). Welche Funktion wird typischerweise verwendet, um die Wahrscheinlichkeit für 'Ja' zu berechnen, und warum ist diese Funktion besser geeignet als eine lineare Funktion?'

Diskussionsfrage

Teilen Sie die Klasse in Kleingruppen auf. Geben Sie jeder Gruppe ein Szenario, z.B. 'Vorhersage des Lernerfolgs von Schülern' oder 'Erkennung von Spam-E-Mails'. Die Gruppen sollen diskutieren: Welche Art von Regression (linear oder logistisch) wäre für dieses Szenario besser geeignet und warum? Welche Merkmale wären für die Vorhersage wichtig?

Häufig gestellte Fragen

Wie funktioniert lineare Regression genau?
Lineare Regression findet die beste Gerade y = mx + b, die den Abstand zu Trainingsdaten minimiert, gemessen am quadratischen Fehler. Mithilfe von Gradientenabstieg passt das Modell Koeffizienten an. Schüler implementieren es in Python, visualisieren Fits und testen auf neuen Daten, um Robustheit zu prüfen. Dies verbindet Mathematik mit Programmierung und zeigt reale Anwendungen wie Preisvorhersagen.
Was ist der Unterschied zu logistischer Regression?
Lineare Regression vorhersagt kontinuierliche Werte, logistische Klassifikation mit Sigmoid-Funktion für Wahrscheinlichkeiten 0-1. Bei Klassifikation wird ein Schwellenwert wie 0,5 angewendet. Vergleichsübungen mit demselben Datensatz offenbaren, wann welches Modell passt, z. B. Regression für Temperatur, logistische für Spam-Erkennung. Metriken wie MSE vs. Accuracy verdeutlichen den Zweck.
Wie kann aktives Lernen Lineare Regression vertiefen?
Aktives Lernen macht Optimierung greifbar: Schüler bauen Modelle in Pairs, variieren Daten und beobachten Echtzeit-Änderungen in Plots. Gruppendiskussionen zu Residuen und Features fördern Erklärungen untereinander. Solche Hands-on-Aktivitäten reduzieren abstrakte Ängste, stärken Debugging-Fähigkeiten und verbessern Transfer auf neuronale Netze, da Schüler eigene Fehler erleben und korrigieren.
Warum sind Features für Modellperformance wichtig?
Features bestimmen, wie gut das Modell Muster lernt: Korrelationen mit dem Target steigern Accuracy, irrelevante verursachen Overfitting. Schüler analysieren durch Korrelationsmatrizen und Selektion, trainieren Varianten und messen Unterschiede. Dies lehrt Priorisierung realer Daten wie in Medizin oder Wirtschaft, wo Feature-Engineering entscheidend ist.

Planungsvorlagen für Informatik