admin/lernen_lehren

Fork 0

Files

admin 8981345338 Dateien nach "/" hochladen

2025-12-22 18:38:45 +00:00

14 KiB

Raw Permalink Blame History

Unterrichtskonzept: "Mathematik hinter KI – Gradienten verstehen"

90-Minuten-Unterrichtseinheit für Berufsbildung (Mathematik)

I. Ausgangslage und Alltagsrelevanz

1.1 Einstieg in die Lebenswelt der Lernenden

Leitfrage: "Wer hat schon ChatGPT, Sprachassistenten oder Bildgeneratoren genutzt?"

Die Schüler kennen diese Technologien aus ihrem Alltag. Sie nutzen sie im Unterricht, in der Ausbildung, privat. Doch wie funktionieren diese Systeme wirklich?

These des Unterrichtskonzepts: Die mathematischen Grundprinzipien, die hinter diesen hochmodernen Technologien stecken, sind überraschend einfach und basieren auf handwerklichem mathematischem Können – nicht auf Zauberei oder Geheimwissen.

1.2 Konkreter Lernkontext

In dieser Stunde lernen die Schüler, wie man mit mathematischen Ableitungsregeln ein einfaches neuronales Netz trainiert, das eine Gerade aus Datenpunkten lernt. Sie werden verstehen, dass:

Ein Neuron ist eine winzige mathematische Funktion: f(x) = w·x + b
Training bedeutet: Parameter (w und b) so anpassen, dass der Fehler minimal wird
Fehlerrückpropagation (Backpropagation) ist die Kettenregel aus Klasse 11 – angewendet

Unmittelbar erkennbare Relevanz: Das Prinzip, das in dieser Stunde gelernt wird, ist der exakt gleiche Kern-Algorithmus, der GPT-4, DALL-E und alle modernen KI-Systeme trainiert – nur auf einem größeren Maßstab.

II. Lernziele (SMART formuliert)

Fachliche Lernziele

Die Kettenregel verstehen und auf zusammengesetzte Funktionen anwenden
Die lokale Kettenregel interpretieren: Gradient als Sensitivität einer Ausgabe auf Eingabe-Änderungen
Backpropagation als systematische Anwendung der Kettenregel rekonstruieren
Partielle Ableitungen auf Verlustfunktionen (L = (y − y_net)²) anwenden

Kompetenzorientierte Lernziele (Berufsbildung)

Problemorientierung: Von der konkreten Aufgabe (Gerade anpassen) zum abstrakten Algorithmus
Handlungsorientierung: Mit echten Daten arbeiten, Berechnungen durchführen, Code ausführen
Lebensweltorientierung: Verbindung zu modernen Technologien, die Schüler kennen und nutzen
Kritische Reflexion: Verstehen, wie und warum KI funktioniert – nicht nur dass sie funktioniert

III. Strukturelle Gestaltung der 90 Minuten

Phase 1: Einstieg & Motivation (10 Minuten)

Zeit: 0–10 min

Aktivität: "KI im Alltag – Wir stellen Fragen"

Kurzes Brainstorming: Wo begegnen euch KI-Systeme?
Drei konkrete Fragen an ChatGPT oder ein anderes System stellen (Schüler-Smartphones)
Überleitung: "Das Erstaunliche: Der Kern-Algorithmus, der diese Systeme trainiert, braucht nicht mehr als Mathematik der 11. Klasse!"

Lebensweltbezug: Authentische, eigenständig erlebte Erfahrung mit der Technologie aktivieren

Phase 2: Mathematisches Verständnis aufbauen (25 Minuten)

Zeit: 10–35 min

2.1 Das einfachste neuronale Netz (5 min)

Grundfunktion einführen:

f_netz(x) = w·x + b

w = Steigung (weight/Gewicht)
b = y-Achsenabschnitt (bias)
Diese Funktion ist eine Gerade

Visualisierung: Whiteboard-Zeichnung oder Graphik zeigen

Daten als Punkte (x_i, y_i) auf dem Koordinatensystem
Die Netzfunktion als variable Linie, die "durch die Punkte passen soll"

2.2 Das Ziel: Fehler minimieren (5 min)

Verlustfunktion einführen:

L(w, b) = (1/N) · Σ(y_i − f_netz(x_i))²

Umformulieren in verständlicher Form:

L = durchschnittlicher Fehler (Loss)
Unterschied zwischen echten Daten (y_i) und Vorhersage (f_netz(x_i))
Quadrieren, um negative Fehler zu "bestrafen"

Intuitive Erklärung:

Je besser die Gerade passt, desto kleiner L
Unser Ziel: L minimieren durch Anpassung von w und b

2.3 Die Kettenregel – Kern des Verfahrens (15 min)

Lokale Kettenregel mit konkretem Beispiel:

Betrachte: L = (y − (w·x + b))² für einen Datenpunkt

Schrittweise Zerlegung:

Setze: 
    - y_net = w·x + b         (Schritt 1: lineares Netz)
    - d = y − y_net           (Schritt 2: Fehler)
    - L = d²                  (Schritt 3: Fehlerquadrat)

Graphischer Berechnungsbaum (vom Whiteboard):

        w ──┐
            ├──> [×] ──> y_net ──┐
        x ──┤                     ├──> [−] ──> d ──> [²] ──> L
            └──────────> y ─────┘
        b ──> [+]

Lokale Ableitungen:

dL/dd = 2·d (Ableitung von d²)
dd/dy_net = −1 (Ableitung von y − y_net)
dy_net/dw = x (Ableitung von w·x)
dy_net/db = 1 (Ableitung von w·x + b)

Kettenregel anwenden:

dL/dw = (dL/dd) · (dd/dy_net) · (dy_net/dw)
      = 2·d · (−1) · x
      = −2·x·(y − y_net)

dL/db = (dL/dd) · (dd/dy_net) · (dy_net/db)
      = 2·d · (−1) · 1
      = −2·(y − y_net)

Interpretation der Gradienten:

dL/dw sagt: "Um wie viel ändert sich der Fehler, wenn ich w um einen kleinen Betrag ändere?"
Negatives Vorzeichen bedeutet: Wenn dL/dw < 0, dann w erhöhen → L wird kleiner
Größerer Wert bedeutet: Stärkerer Effekt

Phase 3: Praktische Anwendung – Gradienten nutzen (25 Minuten)

Zeit: 35–60 min

3.1 Gradient Descent Step-by-Step (10 min)

Die Update-Regel:

w_neu = w_alt − η · (dL/dw)
b_neu = b_alt − η · (dL/db)

Wobei η (eta) = Lernrate (z.B. 0.01)

Praktisches Beispiel durchrechnen: Gegeben:

Datenpunkt: (x=2, y=5)
Aktuelle Parameter: w=1, b=0
Lernrate: η=0.01

Berechnung:

y_net = 1·2 + 0 = 2
d = 5 − 2 = 3
dL/dw = −2 · 2 · 3 = −12
dL/db = −2 · 3 = −6

w_neu = 1 − 0.01·(−12) = 1 + 0.12 = 1.12
b_neu = 0 − 0.01·(−6) = 0 + 0.06 = 0.06

Visualisierung:

Zeichnen, wie die Gerade sich nach diesem Schritt besser "anfügt"
Der Fehler L ist kleiner geworden

3.2 Mehrfache Iterationen - der Trainingsloop (8 min)

Demonstration mit mehreren Datenpunkten:

5–10 Datenpunkte vorgeben (z.B. in Tabelle)
Schüler berechnen für jeden Punkt die Gradienten
Parameter aktualisieren
Nach wenigen Iterationen: "Die Gerade passt besser!"

Oder: Live-Code-Demo (mit Colab-Notebook):

Die Google Colab öffnen
Kleine Datenmenge definieren
Training starten und Kurven-Anpassung beobachten
Fehler-Graph sinken sehen

3.3 Warum funktioniert das? (7 min)

Theoretischer Überblick:

Gradient zeigt die Richtung des steilsten Anstiegs
Mit negativem Vorzeichen gehen wir in Richtung des steilsten Abstiegs
Das ist wie Bergwandern: Der Bergsteiger schaut, wie das Gelände abfällt, und geht bergab
Nach vielen Schritten: Wir erreichen ein lokales Minimum von L

Verbindung zur Alltagserfahrung: "Das ist wie beim Fußball-Training: Der Trainer sieht deine Schwächen (Gradient), gibt dir Feedback, du trainierst gezielt (Update), und beim nächsten Mal machst du es besser."

Phase 4: Transfer zur großen KI (20 Minuten)

Zeit: 60–80 min

4.1 Von 1 Neuron zu Sprachmodellen (10 min)

Skalierung der Idee:

Unser System: 1 Neuron mit 2 Parametern (w, b)
ChatGPT-4: Milliarden von Neuronen, Milliarden von Parametern
Das Prinzip: IDENTISCH!

Die selbe Kettenregel wird auf Millionen von Schichten angewendet:

dL/d(alle Parameter) = 
  dL/d(Layer_n) · d(Layer_n)/d(Layer_{n-1}) · ... · d(Layer_1)/d(Input)

Das ist Backpropagation in voller Kraft.

Visualisierung:

Stanford-Material zeigen: Berechungsgraph mit mehreren Layern
Erklären: Der Gradient "fließt" rückwärts durch das ganze Netz
Jeder Parameter "weiß", wie sehr er den Fehler beeinflusst

4.2 Warum ist das so mächtig? (8 min)

Zwei Kernerkenntnisse:

Automatisierte Differenziation: Die Kettenregel wird auf Tausende oder Millionen Parameter angewendet. Das würde von Hand unmöglich sein. Computer machen das in Millisekunden.
Lernen aus Daten: Das System sieht Millionen Beispiele (Texte, Bilder), und die Kettenregel passt alle Parameter so an, dass der Fehler minimal wird. Das nennt sich maschinelles Lernen.

Konkrete Beispiele:

DALL-E: Bilderzeugung durch denselben Algorithmus, nur mit Milliarden von Parametern
Musikgeneratoren: Melodien komponieren mit Backpropagation
Protein-Folding (AlphaFold): Wissenschaftliche Entdeckungen durch neuronale Netze

4.3 Kritische Reflexion – Was nicht verstanden ist (2 min)

Wichtige Abgrenzung:

✓ Wir verstehen wie das System lernt (Kettenregel)
✗ Wir verstehen nicht wirklich, warum das so gut funktioniert (Black Box Problem)
✗ Wir verstehen nicht, was das System "denkt" oder "weiß"
✗ Wie man verhindert, dass es "halluziniert" oder Fehler macht

Weiterführende Fragen:

"Könnte ein solches System Halluzinationen haben?"
"Wie garantieren wir, dass es korrekte Informationen gibt?"

Phase 5: Reflexion & Vertiefung (10 Minuten)

Zeit: 80–90 min

5.1 Individuelle Hausaufgabe / Vertiefung (5 min)

Arbeitsblatt-Aufgabe:

Aufgabe 1: Gegeben ein neuer Datenpunkt (x=3, y=7) und aktuelle Parameter w=1.5, b=0.5, berechne dL/dw und dL/db.

Aufgabe 2: Erkläre in 3–4 Sätzen, warum die Kettenregel "der Kern von KI" ist.

Aufgabe 3 (Optional, für schnelle Schüler): Erstelle selbst einen Berechnungsgraph für eine quadratische Funktion f(x) = ax² + bx + c und berechne die Gradienten.

5.2 Gruppendiskussion / Plenum (5 min)

Fragen für die Runde:

"Was hat euch überrascht?"
"Wo seht ihr diese Technologie in 5 Jahren?"
"Welche ethischen Fragen stellen sich, wenn Maschinen so 'lernen'?"

Abschließende Feststellung: "Ihr habt heute verstanden, wie die stärksten KI-Systeme der Welt trainiert werden. Das braucht nicht mehr als Ableitungen, Kettenregel und Verständnis für Optimierung. Mathematik ist nicht abstrakt – sie ist der Code des Universums und der Maschinen."

IV. Methodische Gestaltung (Handwerkzeug)

4.1 Verwendete didaktische Prinzipien

Prinzip	Umsetzung	Lebensweltbezug
Authentizität	ChatGPT/KI als bekannte Technologie	Schüler kennen diese Systeme
Handlungsorientierung	Konkrete Berechnungen durchführen	"Das funktioniert wirklich"
Problemorientierung	Von der Frage "Wie passt eine Gerade?" zur Lösung	Iteratives Verstehen
Schrittweise Komplexität	1 Neuron → Dutzende → Milliarden	Progression nachvollziehbar
Visualisierung	Graphische Berechnungsbäume, Kurven	Mathematik wird sichtbar
Partnerarbeit	Zu zweit Gradienten berechnen	Soziales Lernen

4.2 Materialien

Notwendig:

Whiteboard / Tafel + Stifte
Beamer + Laptop
Papier und Stifte (für Notizen und Berechnungen)
Google Colab Link (bereitgestellt)

Optional:

Handout mit Formeln
Datensatz (einfache Punkte, z.B. CSV)
Grafik-Software (Desmos oder GeoGebra)

4.3 Differenzierung

Für leistungsstarke Schüler:

Zusatzaufgabe: Berechnung mit mehreren Parametern oder nicht-linearer Aktivierungsfunktion
Vertiefung: Warum funktioniert Gradient Descent nicht immer? (lokale Minima)

Für Schüler mit Schwierigkeiten:

Fertige Berechnungsgraphen vorgeben, nur Zahlenwerte einsetzen
Kettenregel-Formeln zur Verfügung stellen
Pairing mit stärkeren Schülern

V. Begründung: Lebensweltbezug & Forschungsstand

5.1 Warum Lebensweltbezug hier funktioniert

Laut aktueller Forschung (Boaler 2016, Viau 2009) erhöht Lebensweltbezug Lernmotivation durch drei Faktoren:

Wahrgenommene Relevanz: 78% der Schüler berichten höhere Lernmotivation bei Verbindung zu realen Situationen
- In unserem Fall: ChatGPT und KI sind nicht abstrakt, sondern täglich präsent
Kompetenzempfindung: Schüler fühlen sich kompetent, wenn sie "echte" Probleme lösen
- In unserem Fall: "Ich kann den Algorithmus nachvollziehen, der GPT trainiert" = starkes Erfolgserlebnis
Emotionale Aktivation durch Wahlfreiheit: Wenn Schüler das Thema mitgestalten können, steigt intrinsische Motivation
- In unserem Fall: Diskussion über ethische Fragen, eigene Datenbeispiele wählen

5.2 Konstruktivistische Verankerung

Nach Vygotsky und Holzkamp (Tätigkeitstheorie):

Lernprozesse basieren auf tätigen Aneignungserfahrungen
Formale Lernziele sind nur erreichbar, wenn sie an lebensweltliche Bewältigungsstrategien anknüpfen

Übertragen auf dieses Konzept:

Tätigkeit: Mit echten Daten arbeiten, Gradienten berechnen, Parameter tunen
Lebenswelt: KI im Alltag kennen und nutzen
Formal: Mathematische Ableitungsregeln, Kettenregel, Optimierung

VI. Evaluation & Lernzielkontrolle

Formativ (während der Stunde):

Beobachtung bei Berechnungen: Verstehen die Schüler die Kettenregel?
Partnerarbeit-Diskussionen: Können sie die Gradienten interpretieren?
Mündliche Beiträge: Transferieren sie auf größere Netze?

Summativ (am Ende / danach):

Hausaufgabe: Eigene Berechnung eines neuen Datenpunkts
Essay: "Erkläre einem Freund in 5 Sätzen, warum Backpropagation funktioniert"
Projektidee: Mit dem Colab experimentieren und Ergebnisse dokumentieren

VII. Weitere Ressourcen & Literatur

Stanford CS231n: https://cs231n.github.io/optimization-2/#patterns
Boaler, J. (2016): "Real-world mathematics projects improve problem-solving"
Viau, R. (2009): Modell der motivationalen Dynamik
Holzkamp, K.: Kritische Psychologie – Tätigkeitstheorie und Lebenswelt
Colab Notebook: Praktische Implementierung eines einfachen neuronalen Netzes

Stand: Dezember 2025 Adressaten: Mathematik-Unterricht in Berufsbildung Dauer: 90 Minuten (modular erweiterbar auf 135 oder 180 Minuten)

14 KiB Raw Permalink Blame History Unescape Escape