Files
lernen_lehren/Unterrichtskonzept_90min.md
2025-12-22 18:38:45 +00:00

14 KiB
Raw Permalink Blame History

Unterrichtskonzept: "Mathematik hinter KI Gradienten verstehen"

90-Minuten-Unterrichtseinheit für Berufsbildung (Mathematik)


I. Ausgangslage und Alltagsrelevanz

1.1 Einstieg in die Lebenswelt der Lernenden

Leitfrage: "Wer hat schon ChatGPT, Sprachassistenten oder Bildgeneratoren genutzt?"

Die Schüler kennen diese Technologien aus ihrem Alltag. Sie nutzen sie im Unterricht, in der Ausbildung, privat. Doch wie funktionieren diese Systeme wirklich?

These des Unterrichtskonzepts: Die mathematischen Grundprinzipien, die hinter diesen hochmodernen Technologien stecken, sind überraschend einfach und basieren auf handwerklichem mathematischem Können nicht auf Zauberei oder Geheimwissen.

1.2 Konkreter Lernkontext

In dieser Stunde lernen die Schüler, wie man mit mathematischen Ableitungsregeln ein einfaches neuronales Netz trainiert, das eine Gerade aus Datenpunkten lernt. Sie werden verstehen, dass:

  • Ein Neuron ist eine winzige mathematische Funktion: f(x) = w·x + b
  • Training bedeutet: Parameter (w und b) so anpassen, dass der Fehler minimal wird
  • Fehlerrückpropagation (Backpropagation) ist die Kettenregel aus Klasse 11 angewendet

Unmittelbar erkennbare Relevanz: Das Prinzip, das in dieser Stunde gelernt wird, ist der exakt gleiche Kern-Algorithmus, der GPT-4, DALL-E und alle modernen KI-Systeme trainiert nur auf einem größeren Maßstab.


II. Lernziele (SMART formuliert)

Fachliche Lernziele

  1. Die Kettenregel verstehen und auf zusammengesetzte Funktionen anwenden
  2. Die lokale Kettenregel interpretieren: Gradient als Sensitivität einer Ausgabe auf Eingabe-Änderungen
  3. Backpropagation als systematische Anwendung der Kettenregel rekonstruieren
  4. Partielle Ableitungen auf Verlustfunktionen (L = (y y_net)²) anwenden

Kompetenzorientierte Lernziele (Berufsbildung)

  1. Problemorientierung: Von der konkreten Aufgabe (Gerade anpassen) zum abstrakten Algorithmus
  2. Handlungsorientierung: Mit echten Daten arbeiten, Berechnungen durchführen, Code ausführen
  3. Lebensweltorientierung: Verbindung zu modernen Technologien, die Schüler kennen und nutzen
  4. Kritische Reflexion: Verstehen, wie und warum KI funktioniert nicht nur dass sie funktioniert

III. Strukturelle Gestaltung der 90 Minuten

Phase 1: Einstieg & Motivation (10 Minuten)

Zeit: 010 min

Aktivität: "KI im Alltag Wir stellen Fragen"

  • Kurzes Brainstorming: Wo begegnen euch KI-Systeme?
  • Drei konkrete Fragen an ChatGPT oder ein anderes System stellen (Schüler-Smartphones)
  • Überleitung: "Das Erstaunliche: Der Kern-Algorithmus, der diese Systeme trainiert, braucht nicht mehr als Mathematik der 11. Klasse!"

Lebensweltbezug: Authentische, eigenständig erlebte Erfahrung mit der Technologie aktivieren


Phase 2: Mathematisches Verständnis aufbauen (25 Minuten)

Zeit: 1035 min

2.1 Das einfachste neuronale Netz (5 min)

Grundfunktion einführen:

f_netz(x) = w·x + b
  • w = Steigung (weight/Gewicht)
  • b = y-Achsenabschnitt (bias)
  • Diese Funktion ist eine Gerade

Visualisierung: Whiteboard-Zeichnung oder Graphik zeigen

  • Daten als Punkte (x_i, y_i) auf dem Koordinatensystem
  • Die Netzfunktion als variable Linie, die "durch die Punkte passen soll"

2.2 Das Ziel: Fehler minimieren (5 min)

Verlustfunktion einführen:

L(w, b) = (1/N) · Σ(y_i  f_netz(x_i))²

Umformulieren in verständlicher Form:

  • L = durchschnittlicher Fehler (Loss)
  • Unterschied zwischen echten Daten (y_i) und Vorhersage (f_netz(x_i))
  • Quadrieren, um negative Fehler zu "bestrafen"

Intuitive Erklärung:

  • Je besser die Gerade passt, desto kleiner L
  • Unser Ziel: L minimieren durch Anpassung von w und b

2.3 Die Kettenregel Kern des Verfahrens (15 min)

Lokale Kettenregel mit konkretem Beispiel:

Betrachte: L = (y (w·x + b))² für einen Datenpunkt

Schrittweise Zerlegung:

Setze: 
    - y_net = w·x + b         (Schritt 1: lineares Netz)
    - d = y  y_net           (Schritt 2: Fehler)
    - L = d²                  (Schritt 3: Fehlerquadrat)

Graphischer Berechnungsbaum (vom Whiteboard):

        w ──┐
            ├──> [×] ──> y_net ──┐
        x ──┤                     ├──> [] ──> d ──> [²] ──> L
            └──────────> y ─────┘
        b ──> [+]

Lokale Ableitungen:

  • dL/dd = 2·d (Ableitung von d²)
  • dd/dy_net = 1 (Ableitung von y y_net)
  • dy_net/dw = x (Ableitung von w·x)
  • dy_net/db = 1 (Ableitung von w·x + b)

Kettenregel anwenden:

dL/dw = (dL/dd) · (dd/dy_net) · (dy_net/dw)
      = 2·d · (1) · x
      = 2·x·(y  y_net)

dL/db = (dL/dd) · (dd/dy_net) · (dy_net/db)
      = 2·d · (1) · 1
      = 2·(y  y_net)

Interpretation der Gradienten:

  • dL/dw sagt: "Um wie viel ändert sich der Fehler, wenn ich w um einen kleinen Betrag ändere?"
  • Negatives Vorzeichen bedeutet: Wenn dL/dw < 0, dann w erhöhen → L wird kleiner
  • Größerer Wert bedeutet: Stärkerer Effekt

Phase 3: Praktische Anwendung Gradienten nutzen (25 Minuten)

Zeit: 3560 min

3.1 Gradient Descent Step-by-Step (10 min)

Die Update-Regel:

w_neu = w_alt  η · (dL/dw)
b_neu = b_alt  η · (dL/db)

Wobei η (eta) = Lernrate (z.B. 0.01)

Praktisches Beispiel durchrechnen: Gegeben:

  • Datenpunkt: (x=2, y=5)
  • Aktuelle Parameter: w=1, b=0
  • Lernrate: η=0.01

Berechnung:

y_net = 1·2 + 0 = 2
d = 5  2 = 3
dL/dw = 2 · 2 · 3 = 12
dL/db = 2 · 3 = 6

w_neu = 1  0.01·(12) = 1 + 0.12 = 1.12
b_neu = 0  0.01·(6) = 0 + 0.06 = 0.06

Visualisierung:

  • Zeichnen, wie die Gerade sich nach diesem Schritt besser "anfügt"
  • Der Fehler L ist kleiner geworden

3.2 Mehrfache Iterationen - der Trainingsloop (8 min)

Demonstration mit mehreren Datenpunkten:

  • 510 Datenpunkte vorgeben (z.B. in Tabelle)
  • Schüler berechnen für jeden Punkt die Gradienten
  • Parameter aktualisieren
  • Nach wenigen Iterationen: "Die Gerade passt besser!"

Oder: Live-Code-Demo (mit Colab-Notebook):

  • Die Google Colab öffnen
  • Kleine Datenmenge definieren
  • Training starten und Kurven-Anpassung beobachten
  • Fehler-Graph sinken sehen

3.3 Warum funktioniert das? (7 min)

Theoretischer Überblick:

  • Gradient zeigt die Richtung des steilsten Anstiegs
  • Mit negativem Vorzeichen gehen wir in Richtung des steilsten Abstiegs
  • Das ist wie Bergwandern: Der Bergsteiger schaut, wie das Gelände abfällt, und geht bergab
  • Nach vielen Schritten: Wir erreichen ein lokales Minimum von L

Verbindung zur Alltagserfahrung: "Das ist wie beim Fußball-Training: Der Trainer sieht deine Schwächen (Gradient), gibt dir Feedback, du trainierst gezielt (Update), und beim nächsten Mal machst du es besser."


Phase 4: Transfer zur großen KI (20 Minuten)

Zeit: 6080 min

4.1 Von 1 Neuron zu Sprachmodellen (10 min)

Skalierung der Idee:

  • Unser System: 1 Neuron mit 2 Parametern (w, b)
  • ChatGPT-4: Milliarden von Neuronen, Milliarden von Parametern
  • Das Prinzip: IDENTISCH!

Die selbe Kettenregel wird auf Millionen von Schichten angewendet:

dL/d(alle Parameter) = 
  dL/d(Layer_n) · d(Layer_n)/d(Layer_{n-1}) · ... · d(Layer_1)/d(Input)

Das ist Backpropagation in voller Kraft.

Visualisierung:

  • Stanford-Material zeigen: Berechungsgraph mit mehreren Layern
  • Erklären: Der Gradient "fließt" rückwärts durch das ganze Netz
  • Jeder Parameter "weiß", wie sehr er den Fehler beeinflusst

4.2 Warum ist das so mächtig? (8 min)

Zwei Kernerkenntnisse:

  1. Automatisierte Differenziation: Die Kettenregel wird auf Tausende oder Millionen Parameter angewendet. Das würde von Hand unmöglich sein. Computer machen das in Millisekunden.

  2. Lernen aus Daten: Das System sieht Millionen Beispiele (Texte, Bilder), und die Kettenregel passt alle Parameter so an, dass der Fehler minimal wird. Das nennt sich maschinelles Lernen.

Konkrete Beispiele:

  • DALL-E: Bilderzeugung durch denselben Algorithmus, nur mit Milliarden von Parametern
  • Musikgeneratoren: Melodien komponieren mit Backpropagation
  • Protein-Folding (AlphaFold): Wissenschaftliche Entdeckungen durch neuronale Netze

4.3 Kritische Reflexion Was nicht verstanden ist (2 min)

Wichtige Abgrenzung:

  • ✓ Wir verstehen wie das System lernt (Kettenregel)
  • ✗ Wir verstehen nicht wirklich, warum das so gut funktioniert (Black Box Problem)
  • ✗ Wir verstehen nicht, was das System "denkt" oder "weiß"
  • ✗ Wie man verhindert, dass es "halluziniert" oder Fehler macht

Weiterführende Fragen:

  • "Könnte ein solches System Halluzinationen haben?"
  • "Wie garantieren wir, dass es korrekte Informationen gibt?"

Phase 5: Reflexion & Vertiefung (10 Minuten)

Zeit: 8090 min

5.1 Individuelle Hausaufgabe / Vertiefung (5 min)

Arbeitsblatt-Aufgabe:

Aufgabe 1: Gegeben ein neuer Datenpunkt (x=3, y=7) und aktuelle Parameter w=1.5, b=0.5, berechne dL/dw und dL/db.

Aufgabe 2: Erkläre in 34 Sätzen, warum die Kettenregel "der Kern von KI" ist.

Aufgabe 3 (Optional, für schnelle Schüler): Erstelle selbst einen Berechnungsgraph für eine quadratische Funktion f(x) = ax² + bx + c und berechne die Gradienten.

5.2 Gruppendiskussion / Plenum (5 min)

Fragen für die Runde:

  1. "Was hat euch überrascht?"
  2. "Wo seht ihr diese Technologie in 5 Jahren?"
  3. "Welche ethischen Fragen stellen sich, wenn Maschinen so 'lernen'?"

Abschließende Feststellung: "Ihr habt heute verstanden, wie die stärksten KI-Systeme der Welt trainiert werden. Das braucht nicht mehr als Ableitungen, Kettenregel und Verständnis für Optimierung. Mathematik ist nicht abstrakt sie ist der Code des Universums und der Maschinen."


IV. Methodische Gestaltung (Handwerkzeug)

4.1 Verwendete didaktische Prinzipien

Prinzip Umsetzung Lebensweltbezug
Authentizität ChatGPT/KI als bekannte Technologie Schüler kennen diese Systeme
Handlungsorientierung Konkrete Berechnungen durchführen "Das funktioniert wirklich"
Problemorientierung Von der Frage "Wie passt eine Gerade?" zur Lösung Iteratives Verstehen
Schrittweise Komplexität 1 Neuron → Dutzende → Milliarden Progression nachvollziehbar
Visualisierung Graphische Berechnungsbäume, Kurven Mathematik wird sichtbar
Partnerarbeit Zu zweit Gradienten berechnen Soziales Lernen

4.2 Materialien

Notwendig:

  • Whiteboard / Tafel + Stifte
  • Beamer + Laptop
  • Papier und Stifte (für Notizen und Berechnungen)
  • Google Colab Link (bereitgestellt)

Optional:

  • Handout mit Formeln
  • Datensatz (einfache Punkte, z.B. CSV)
  • Grafik-Software (Desmos oder GeoGebra)

4.3 Differenzierung

Für leistungsstarke Schüler:

  • Zusatzaufgabe: Berechnung mit mehreren Parametern oder nicht-linearer Aktivierungsfunktion
  • Vertiefung: Warum funktioniert Gradient Descent nicht immer? (lokale Minima)

Für Schüler mit Schwierigkeiten:

  • Fertige Berechnungsgraphen vorgeben, nur Zahlenwerte einsetzen
  • Kettenregel-Formeln zur Verfügung stellen
  • Pairing mit stärkeren Schülern

V. Begründung: Lebensweltbezug & Forschungsstand

5.1 Warum Lebensweltbezug hier funktioniert

Laut aktueller Forschung (Boaler 2016, Viau 2009) erhöht Lebensweltbezug Lernmotivation durch drei Faktoren:

  1. Wahrgenommene Relevanz: 78% der Schüler berichten höhere Lernmotivation bei Verbindung zu realen Situationen

    • In unserem Fall: ChatGPT und KI sind nicht abstrakt, sondern täglich präsent
  2. Kompetenzempfindung: Schüler fühlen sich kompetent, wenn sie "echte" Probleme lösen

    • In unserem Fall: "Ich kann den Algorithmus nachvollziehen, der GPT trainiert" = starkes Erfolgserlebnis
  3. Emotionale Aktivation durch Wahlfreiheit: Wenn Schüler das Thema mitgestalten können, steigt intrinsische Motivation

    • In unserem Fall: Diskussion über ethische Fragen, eigene Datenbeispiele wählen

5.2 Konstruktivistische Verankerung

Nach Vygotsky und Holzkamp (Tätigkeitstheorie):

  • Lernprozesse basieren auf tätigen Aneignungserfahrungen
  • Formale Lernziele sind nur erreichbar, wenn sie an lebensweltliche Bewältigungsstrategien anknüpfen

Übertragen auf dieses Konzept:

  • Tätigkeit: Mit echten Daten arbeiten, Gradienten berechnen, Parameter tunen
  • Lebenswelt: KI im Alltag kennen und nutzen
  • Formal: Mathematische Ableitungsregeln, Kettenregel, Optimierung

VI. Evaluation & Lernzielkontrolle

Formativ (während der Stunde):

  • Beobachtung bei Berechnungen: Verstehen die Schüler die Kettenregel?
  • Partnerarbeit-Diskussionen: Können sie die Gradienten interpretieren?
  • Mündliche Beiträge: Transferieren sie auf größere Netze?

Summativ (am Ende / danach):

  • Hausaufgabe: Eigene Berechnung eines neuen Datenpunkts
  • Essay: "Erkläre einem Freund in 5 Sätzen, warum Backpropagation funktioniert"
  • Projektidee: Mit dem Colab experimentieren und Ergebnisse dokumentieren

VII. Weitere Ressourcen & Literatur

  • Stanford CS231n: https://cs231n.github.io/optimization-2/#patterns
  • Boaler, J. (2016): "Real-world mathematics projects improve problem-solving"
  • Viau, R. (2009): Modell der motivationalen Dynamik
  • Holzkamp, K.: Kritische Psychologie Tätigkeitstheorie und Lebenswelt
  • Colab Notebook: Praktische Implementierung eines einfachen neuronalen Netzes

Stand: Dezember 2025 Adressaten: Mathematik-Unterricht in Berufsbildung Dauer: 90 Minuten (modular erweiterbar auf 135 oder 180 Minuten)