lernen_lehren/Unterrichtskonzept_90min.md

# Unterrichtskonzept: "Mathematik hinter KI – Gradienten verstehen"
## 90-Minuten-Unterrichtseinheit für Berufsbildung (Mathematik)

---

## I. Ausgangslage und Alltagsrelevanz

### 1.1 Einstieg in die Lebenswelt der Lernenden
**Leitfrage**: "Wer hat schon ChatGPT, Sprachassistenten oder Bildgeneratoren genutzt?"

Die Schüler kennen diese Technologien aus ihrem Alltag. Sie nutzen sie im Unterricht, in der Ausbildung, privat. Doch wie funktionieren diese Systeme wirklich?

**These des Unterrichtskonzepts**: Die mathematischen Grundprinzipien, die hinter diesen **hochmodernen Technologien** stecken, sind überraschend einfach und basieren auf **handwerklichem mathematischem Können** – nicht auf Zauberei oder Geheimwissen.

### 1.2 Konkreter Lernkontext
In dieser Stunde lernen die Schüler, wie man mit mathematischen Ableitungsregeln ein **einfaches neuronales Netz trainiert**, das eine Gerade aus Datenpunkten lernt. Sie werden verstehen, dass:
- **Ein Neuron** ist eine winzige mathematische Funktion: `f(x) = w·x + b`
- **Training** bedeutet: Parameter (w und b) so anpassen, dass der Fehler minimal wird
- **Fehlerrückpropagation (Backpropagation)** ist die **Kettenregel aus Klasse 11** – angewendet

**Unmittelbar erkennbare Relevanz**: Das Prinzip, das in dieser Stunde gelernt wird, ist der exakt gleiche Kern-Algorithmus, der GPT-4, DALL-E und alle modernen KI-Systeme trainiert – nur auf einem größeren Maßstab.

---

## II. Lernziele (SMART formuliert)

### Fachliche Lernziele
1. **Die Kettenregel verstehen** und auf zusammengesetzte Funktionen anwenden
2. **Die lokale Kettenregel interpretieren**: Gradient als Sensitivität einer Ausgabe auf Eingabe-Änderungen
3. **Backpropagation als systematische Anwendung der Kettenregel** rekonstruieren
4. **Partielle Ableitungen** auf Verlustfunktionen (L = (y − y_net)²) anwenden

### Kompetenzorientierte Lernziele (Berufsbildung)
1. **Problemorientierung**: Von der konkreten Aufgabe (Gerade anpassen) zum abstrakten Algorithmus
2. **Handlungsorientierung**: Mit echten Daten arbeiten, Berechnungen durchführen, Code ausführen
3. **Lebensweltorientierung**: Verbindung zu modernen Technologien, die Schüler kennen und nutzen
4. **Kritische Reflexion**: Verstehen, *wie* und *warum* KI funktioniert – nicht nur dass sie funktioniert

---

## III. Strukturelle Gestaltung der 90 Minuten

### Phase 1: Einstieg & Motivation (10 Minuten)

**Zeit**: 0–10 min

**Aktivität**: "KI im Alltag – Wir stellen Fragen"
- Kurzes Brainstorming: Wo begegnen euch KI-Systeme?
- Drei konkrete Fragen an ChatGPT oder ein anderes System stellen (Schüler-Smartphones)
- **Überleitung**: "Das Erstaunliche: Der Kern-Algorithmus, der diese Systeme trainiert, braucht nicht mehr als Mathematik der 11. Klasse!"

**Lebensweltbezug**: Authentische, eigenständig erlebte Erfahrung mit der Technologie aktivieren

---

### Phase 2: Mathematisches Verständnis aufbauen (25 Minuten)

**Zeit**: 10–35 min

#### 2.1 Das einfachste neuronale Netz (5 min)
**Grundfunktion einführen**:
```
f_netz(x) = w·x + b
```
- **w** = Steigung (weight/Gewicht)
- **b** = y-Achsenabschnitt (bias)
- Diese Funktion ist eine **Gerade**

**Visualisierung**: Whiteboard-Zeichnung oder Graphik zeigen
- Daten als Punkte (x_i, y_i) auf dem Koordinatensystem
- Die Netzfunktion als variable Linie, die "durch die Punkte passen soll"

#### 2.2 Das Ziel: Fehler minimieren (5 min)
**Verlustfunktion einführen**:
```
L(w, b) = (1/N) · Σ(y_i − f_netz(x_i))²
```
Umformulieren in verständlicher Form:
- **L** = durchschnittlicher Fehler (Loss)
- Unterschied zwischen echten Daten (y_i) und Vorhersage (f_netz(x_i))
- Quadrieren, um negative Fehler zu "bestrafen"

**Intuitive Erklärung**:
- Je besser die Gerade passt, desto kleiner L
- Unser Ziel: L minimieren durch Anpassung von w und b

#### 2.3 Die Kettenregel – Kern des Verfahrens (15 min)
**Lokale Kettenregel mit konkretem Beispiel**:

Betrachte: **L = (y − (w·x + b))²** für einen Datenpunkt

Schrittweise Zerlegung:
```
Setze:
    - y_net = w·x + b         (Schritt 1: lineares Netz)
    - d = y − y_net           (Schritt 2: Fehler)
    - L = d²                  (Schritt 3: Fehlerquadrat)
```

**Graphischer Berechnungsbaum** (vom Whiteboard):
```
        w ──┐
            ├──> [×] ──> y_net ──┐
        x ──┤                     ├──> [−] ──> d ──> [²] ──> L
            └──────────> y ─────┘
        b ──> [+]
```

**Lokale Ableitungen**:
- dL/dd = 2·d  (Ableitung von d²)
- dd/dy_net = −1  (Ableitung von y − y_net)
- dy_net/dw = x  (Ableitung von w·x)
- dy_net/db = 1  (Ableitung von w·x + b)

**Kettenregel anwenden**:
```
dL/dw = (dL/dd) · (dd/dy_net) · (dy_net/dw)
      = 2·d · (−1) · x
      = −2·x·(y − y_net)

dL/db = (dL/dd) · (dd/dy_net) · (dy_net/db)
      = 2·d · (−1) · 1
      = −2·(y − y_net)
```

**Interpretation der Gradienten**:
- **dL/dw** sagt: "Um wie viel ändert sich der Fehler, wenn ich w um einen kleinen Betrag ändere?"
- **Negatives Vorzeichen** bedeutet: Wenn dL/dw < 0, dann w erhöhen → L wird kleiner
- **Größerer Wert** bedeutet: Stärkerer Effekt

---

### Phase 3: Praktische Anwendung – Gradienten nutzen (25 Minuten)

**Zeit**: 35–60 min

#### 3.1 Gradient Descent Step-by-Step (10 min)
**Die Update-Regel**:
```
w_neu = w_alt − η · (dL/dw)
b_neu = b_alt − η · (dL/db)
```
Wobei **η** (eta) = Lernrate (z.B. 0.01)

**Praktisches Beispiel durchrechnen**:
Gegeben:
- Datenpunkt: (x=2, y=5)
- Aktuelle Parameter: w=1, b=0
- Lernrate: η=0.01

Berechnung:
```
y_net = 1·2 + 0 = 2
d = 5 − 2 = 3
dL/dw = −2 · 2 · 3 = −12
dL/db = −2 · 3 = −6

w_neu = 1 − 0.01·(−12) = 1 + 0.12 = 1.12
b_neu = 0 − 0.01·(−6) = 0 + 0.06 = 0.06
```

**Visualisierung**:
- Zeichnen, wie die Gerade sich nach diesem Schritt besser "anfügt"
- Der Fehler L ist kleiner geworden

#### 3.2 Mehrfache Iterationen - der Trainingsloop (8 min)
**Demonstration mit mehreren Datenpunkten**:
- 5–10 Datenpunkte vorgeben (z.B. in Tabelle)
- Schüler berechnen für jeden Punkt die Gradienten
- Parameter aktualisieren
- Nach wenigen Iterationen: "Die Gerade passt besser!"

**Oder: Live-Code-Demo** (mit Colab-Notebook):
- Die Google Colab öffnen
- Kleine Datenmenge definieren
- Training starten und Kurven-Anpassung beobachten
- Fehler-Graph sinken sehen

#### 3.3 Warum funktioniert das? (7 min)
**Theoretischer Überblick**:
- **Gradient** zeigt die **Richtung des steilsten Anstiegs**
- Mit **negativem Vorzeichen** gehen wir in Richtung des steilsten **Abstiegs**
- Das ist wie Bergwandern: Der Bergsteiger schaut, wie das Gelände abfällt, und geht bergab
- Nach vielen Schritten: Wir erreichen ein **lokales Minimum** von L

**Verbindung zur Alltagserfahrung**:
"Das ist wie beim Fußball-Training: Der Trainer sieht deine Schwächen (Gradient), gibt dir Feedback, du trainierst gezielt (Update), und beim nächsten Mal machst du es besser."

---

### Phase 4: Transfer zur großen KI (20 Minuten)

**Zeit**: 60–80 min

#### 4.1 Von 1 Neuron zu Sprachmodellen (10 min)
**Skalierung der Idee**:
- **Unser System**: 1 Neuron mit 2 Parametern (w, b)
- **ChatGPT-4**: Milliarden von Neuronen, Milliarden von Parametern
- **Das Prinzip**: **IDENTISCH!**

Die selbe Kettenregel wird auf Millionen von Schichten angewendet:
```
dL/d(alle Parameter) =
  dL/d(Layer_n) · d(Layer_n)/d(Layer_{n-1}) · ... · d(Layer_1)/d(Input)
```

Das ist **Backpropagation** in voller Kraft.

**Visualisierung**:
- Stanford-Material zeigen: Berechungsgraph mit mehreren Layern
- Erklären: Der Gradient "fließt" rückwärts durch das ganze Netz
- Jeder Parameter "weiß", wie sehr er den Fehler beeinflusst

#### 4.2 Warum ist das so mächtig? (8 min)
**Zwei Kernerkenntnisse**:

1. **Automatisierte Differenziation**: Die Kettenregel wird auf **Tausende oder Millionen Parameter** angewendet. Das würde von Hand unmöglich sein. Computer machen das in Millisekunden.

2. **Lernen aus Daten**: Das System sieht Millionen Beispiele (Texte, Bilder), und die Kettenregel passt alle Parameter so an, dass der Fehler minimal wird. Das nennt sich **maschinelles Lernen**.

**Konkrete Beispiele**:
- **DALL-E**: Bilderzeugung durch denselben Algorithmus, nur mit Milliarden von Parametern
- **Musikgeneratoren**: Melodien komponieren mit Backpropagation
- **Protein-Folding (AlphaFold)**: Wissenschaftliche Entdeckungen durch neuronale Netze

#### 4.3 Kritische Reflexion – Was **nicht** verstanden ist (2 min)
**Wichtige Abgrenzung**:
- ✓ Wir verstehen **wie** das System lernt (Kettenregel)
- ✗ Wir verstehen **nicht** wirklich, **warum** das so gut funktioniert (Black Box Problem)
- ✗ Wir verstehen nicht, **was** das System "denkt" oder "weiß"
- ✗ Wie man verhindert, dass es "halluziniert" oder Fehler macht

**Weiterführende Fragen**:
- "Könnte ein solches System Halluzinationen haben?"
- "Wie garantieren wir, dass es korrekte Informationen gibt?"

---

### Phase 5: Reflexion & Vertiefung (10 Minuten)

**Zeit**: 80–90 min

#### 5.1 Individuelle Hausaufgabe / Vertiefung (5 min)
**Arbeitsblatt-Aufgabe**:

*Aufgabe 1*: Gegeben ein neuer Datenpunkt (x=3, y=7) und aktuelle Parameter w=1.5, b=0.5, berechne dL/dw und dL/db.

*Aufgabe 2*: Erkläre in 3–4 Sätzen, warum die Kettenregel "der Kern von KI" ist.

*Aufgabe 3 (Optional, für schnelle Schüler)*: Erstelle selbst einen Berechnungsgraph für eine quadratische Funktion f(x) = ax² + bx + c und berechne die Gradienten.

#### 5.2 Gruppendiskussion / Plenum (5 min)
**Fragen für die Runde**:
1. "Was hat euch überrascht?"
2. "Wo seht ihr diese Technologie in 5 Jahren?"
3. "Welche ethischen Fragen stellen sich, wenn Maschinen so 'lernen'?"

**Abschließende Feststellung**:
"Ihr habt heute verstanden, wie die stärksten KI-Systeme der Welt trainiert werden. Das braucht nicht mehr als **Ableitungen, Kettenregel und Verständnis für Optimierung**. Mathematik ist nicht abstrakt – sie ist der Code des Universums und der Maschinen."

---

## IV. Methodische Gestaltung (Handwerkzeug)

### 4.1 Verwendete didaktische Prinzipien

| Prinzip | Umsetzung | Lebensweltbezug |
|---------|-----------|-----------------|
| **Authentizität** | ChatGPT/KI als bekannte Technologie | Schüler kennen diese Systeme |
| **Handlungsorientierung** | Konkrete Berechnungen durchführen | "Das funktioniert wirklich" |
| **Problemorientierung** | Von der Frage "Wie passt eine Gerade?" zur Lösung | Iteratives Verstehen |
| **Schrittweise Komplexität** | 1 Neuron → Dutzende → Milliarden | Progression nachvollziehbar |
| **Visualisierung** | Graphische Berechnungsbäume, Kurven | Mathematik wird sichtbar |
| **Partnerarbeit** | Zu zweit Gradienten berechnen | Soziales Lernen |

### 4.2 Materialien

**Notwendig**:
- Whiteboard / Tafel + Stifte
- Beamer + Laptop
- Papier und Stifte (für Notizen und Berechnungen)
- Google Colab Link (bereitgestellt)

**Optional**:
- Handout mit Formeln
- Datensatz (einfache Punkte, z.B. CSV)
- Grafik-Software (Desmos oder GeoGebra)

### 4.3 Differenzierung

**Für leistungsstarke Schüler**:
- Zusatzaufgabe: Berechnung mit mehreren Parametern oder nicht-linearer Aktivierungsfunktion
- Vertiefung: Warum funktioniert Gradient Descent nicht immer? (lokale Minima)

**Für Schüler mit Schwierigkeiten**:
- Fertige Berechnungsgraphen vorgeben, nur Zahlenwerte einsetzen
- Kettenregel-Formeln zur Verfügung stellen
- Pairing mit stärkeren Schülern

---

## V. Begründung: Lebensweltbezug & Forschungsstand

### 5.1 Warum Lebensweltbezug hier funktioniert

Laut aktueller Forschung (Boaler 2016, Viau 2009) erhöht **Lebensweltbezug** Lernmotivation durch drei Faktoren:

1. **Wahrgenommene Relevanz**: 78% der Schüler berichten höhere Lernmotivation bei Verbindung zu realen Situationen
   - *In unserem Fall*: ChatGPT und KI sind nicht abstrakt, sondern täglich präsent

2. **Kompetenzempfindung**: Schüler fühlen sich kompetent, wenn sie "echte" Probleme lösen
   - *In unserem Fall*: "Ich kann den Algorithmus nachvollziehen, der GPT trainiert" = starkes Erfolgserlebnis

3. **Emotionale Aktivation durch Wahlfreiheit**: Wenn Schüler das Thema mitgestalten können, steigt intrinsische Motivation
   - *In unserem Fall*: Diskussion über ethische Fragen, eigene Datenbeispiele wählen

### 5.2 Konstruktivistische Verankerung

Nach **Vygotsky** und **Holzkamp** (Tätigkeitstheorie):
- Lernprozesse basieren auf **tätigen Aneignungserfahrungen**
- Formale Lernziele sind nur erreichbar, wenn sie an **lebensweltliche Bewältigungsstrategien** anknüpfen

*Übertragen auf dieses Konzept*:
- **Tätigkeit**: Mit echten Daten arbeiten, Gradienten berechnen, Parameter tunen
- **Lebenswelt**: KI im Alltag kennen und nutzen
- **Formal**: Mathematische Ableitungsregeln, Kettenregel, Optimierung

---

## VI. Evaluation & Lernzielkontrolle

### Formativ (während der Stunde):
- Beobachtung bei Berechnungen: Verstehen die Schüler die Kettenregel?
- Partnerarbeit-Diskussionen: Können sie die Gradienten interpretieren?
- Mündliche Beiträge: Transferieren sie auf größere Netze?

### Summativ (am Ende / danach):
- Hausaufgabe: Eigene Berechnung eines neuen Datenpunkts
- Essay: "Erkläre einem Freund in 5 Sätzen, warum Backpropagation funktioniert"
- Projektidee: Mit dem Colab experimentieren und Ergebnisse dokumentieren

---

## VII. Weitere Ressourcen & Literatur

- **Stanford CS231n**: https://cs231n.github.io/optimization-2/#patterns
- **Boaler, J. (2016)**: "Real-world mathematics projects improve problem-solving"
- **Viau, R. (2009)**: Modell der motivationalen Dynamik
- **Holzkamp, K.**: Kritische Psychologie – Tätigkeitstheorie und Lebenswelt
- **Colab Notebook**: Praktische Implementierung eines einfachen neuronalen Netzes

---

**Stand**: Dezember 2025
**Adressaten**: Mathematik-Unterricht in Berufsbildung
**Dauer**: 90 Minuten (modular erweiterbar auf 135 oder 180 Minuten)