357 lines
14 KiB
Markdown
357 lines
14 KiB
Markdown
# Unterrichtskonzept: "Mathematik hinter KI – Gradienten verstehen"
|
||
## 90-Minuten-Unterrichtseinheit für Berufsbildung (Mathematik)
|
||
|
||
---
|
||
|
||
## I. Ausgangslage und Alltagsrelevanz
|
||
|
||
### 1.1 Einstieg in die Lebenswelt der Lernenden
|
||
**Leitfrage**: "Wer hat schon ChatGPT, Sprachassistenten oder Bildgeneratoren genutzt?"
|
||
|
||
Die Schüler kennen diese Technologien aus ihrem Alltag. Sie nutzen sie im Unterricht, in der Ausbildung, privat. Doch wie funktionieren diese Systeme wirklich?
|
||
|
||
**These des Unterrichtskonzepts**: Die mathematischen Grundprinzipien, die hinter diesen **hochmodernen Technologien** stecken, sind überraschend einfach und basieren auf **handwerklichem mathematischem Können** – nicht auf Zauberei oder Geheimwissen.
|
||
|
||
### 1.2 Konkreter Lernkontext
|
||
In dieser Stunde lernen die Schüler, wie man mit mathematischen Ableitungsregeln ein **einfaches neuronales Netz trainiert**, das eine Gerade aus Datenpunkten lernt. Sie werden verstehen, dass:
|
||
- **Ein Neuron** ist eine winzige mathematische Funktion: `f(x) = w·x + b`
|
||
- **Training** bedeutet: Parameter (w und b) so anpassen, dass der Fehler minimal wird
|
||
- **Fehlerrückpropagation (Backpropagation)** ist die **Kettenregel aus Klasse 11** – angewendet
|
||
|
||
**Unmittelbar erkennbare Relevanz**: Das Prinzip, das in dieser Stunde gelernt wird, ist der exakt gleiche Kern-Algorithmus, der GPT-4, DALL-E und alle modernen KI-Systeme trainiert – nur auf einem größeren Maßstab.
|
||
|
||
---
|
||
|
||
## II. Lernziele (SMART formuliert)
|
||
|
||
### Fachliche Lernziele
|
||
1. **Die Kettenregel verstehen** und auf zusammengesetzte Funktionen anwenden
|
||
2. **Die lokale Kettenregel interpretieren**: Gradient als Sensitivität einer Ausgabe auf Eingabe-Änderungen
|
||
3. **Backpropagation als systematische Anwendung der Kettenregel** rekonstruieren
|
||
4. **Partielle Ableitungen** auf Verlustfunktionen (L = (y − y_net)²) anwenden
|
||
|
||
### Kompetenzorientierte Lernziele (Berufsbildung)
|
||
1. **Problemorientierung**: Von der konkreten Aufgabe (Gerade anpassen) zum abstrakten Algorithmus
|
||
2. **Handlungsorientierung**: Mit echten Daten arbeiten, Berechnungen durchführen, Code ausführen
|
||
3. **Lebensweltorientierung**: Verbindung zu modernen Technologien, die Schüler kennen und nutzen
|
||
4. **Kritische Reflexion**: Verstehen, *wie* und *warum* KI funktioniert – nicht nur dass sie funktioniert
|
||
|
||
---
|
||
|
||
## III. Strukturelle Gestaltung der 90 Minuten
|
||
|
||
### Phase 1: Einstieg & Motivation (10 Minuten)
|
||
|
||
**Zeit**: 0–10 min
|
||
|
||
**Aktivität**: "KI im Alltag – Wir stellen Fragen"
|
||
- Kurzes Brainstorming: Wo begegnen euch KI-Systeme?
|
||
- Drei konkrete Fragen an ChatGPT oder ein anderes System stellen (Schüler-Smartphones)
|
||
- **Überleitung**: "Das Erstaunliche: Der Kern-Algorithmus, der diese Systeme trainiert, braucht nicht mehr als Mathematik der 11. Klasse!"
|
||
|
||
**Lebensweltbezug**: Authentische, eigenständig erlebte Erfahrung mit der Technologie aktivieren
|
||
|
||
---
|
||
|
||
### Phase 2: Mathematisches Verständnis aufbauen (25 Minuten)
|
||
|
||
**Zeit**: 10–35 min
|
||
|
||
#### 2.1 Das einfachste neuronale Netz (5 min)
|
||
**Grundfunktion einführen**:
|
||
```
|
||
f_netz(x) = w·x + b
|
||
```
|
||
- **w** = Steigung (weight/Gewicht)
|
||
- **b** = y-Achsenabschnitt (bias)
|
||
- Diese Funktion ist eine **Gerade**
|
||
|
||
**Visualisierung**: Whiteboard-Zeichnung oder Graphik zeigen
|
||
- Daten als Punkte (x_i, y_i) auf dem Koordinatensystem
|
||
- Die Netzfunktion als variable Linie, die "durch die Punkte passen soll"
|
||
|
||
#### 2.2 Das Ziel: Fehler minimieren (5 min)
|
||
**Verlustfunktion einführen**:
|
||
```
|
||
L(w, b) = (1/N) · Σ(y_i − f_netz(x_i))²
|
||
```
|
||
Umformulieren in verständlicher Form:
|
||
- **L** = durchschnittlicher Fehler (Loss)
|
||
- Unterschied zwischen echten Daten (y_i) und Vorhersage (f_netz(x_i))
|
||
- Quadrieren, um negative Fehler zu "bestrafen"
|
||
|
||
**Intuitive Erklärung**:
|
||
- Je besser die Gerade passt, desto kleiner L
|
||
- Unser Ziel: L minimieren durch Anpassung von w und b
|
||
|
||
#### 2.3 Die Kettenregel – Kern des Verfahrens (15 min)
|
||
**Lokale Kettenregel mit konkretem Beispiel**:
|
||
|
||
Betrachte: **L = (y − (w·x + b))²** für einen Datenpunkt
|
||
|
||
Schrittweise Zerlegung:
|
||
```
|
||
Setze:
|
||
- y_net = w·x + b (Schritt 1: lineares Netz)
|
||
- d = y − y_net (Schritt 2: Fehler)
|
||
- L = d² (Schritt 3: Fehlerquadrat)
|
||
```
|
||
|
||
**Graphischer Berechnungsbaum** (vom Whiteboard):
|
||
```
|
||
w ──┐
|
||
├──> [×] ──> y_net ──┐
|
||
x ──┤ ├──> [−] ──> d ──> [²] ──> L
|
||
└──────────> y ─────┘
|
||
b ──> [+]
|
||
```
|
||
|
||
**Lokale Ableitungen**:
|
||
- dL/dd = 2·d (Ableitung von d²)
|
||
- dd/dy_net = −1 (Ableitung von y − y_net)
|
||
- dy_net/dw = x (Ableitung von w·x)
|
||
- dy_net/db = 1 (Ableitung von w·x + b)
|
||
|
||
**Kettenregel anwenden**:
|
||
```
|
||
dL/dw = (dL/dd) · (dd/dy_net) · (dy_net/dw)
|
||
= 2·d · (−1) · x
|
||
= −2·x·(y − y_net)
|
||
|
||
dL/db = (dL/dd) · (dd/dy_net) · (dy_net/db)
|
||
= 2·d · (−1) · 1
|
||
= −2·(y − y_net)
|
||
```
|
||
|
||
**Interpretation der Gradienten**:
|
||
- **dL/dw** sagt: "Um wie viel ändert sich der Fehler, wenn ich w um einen kleinen Betrag ändere?"
|
||
- **Negatives Vorzeichen** bedeutet: Wenn dL/dw < 0, dann w erhöhen → L wird kleiner
|
||
- **Größerer Wert** bedeutet: Stärkerer Effekt
|
||
|
||
---
|
||
|
||
### Phase 3: Praktische Anwendung – Gradienten nutzen (25 Minuten)
|
||
|
||
**Zeit**: 35–60 min
|
||
|
||
#### 3.1 Gradient Descent Step-by-Step (10 min)
|
||
**Die Update-Regel**:
|
||
```
|
||
w_neu = w_alt − η · (dL/dw)
|
||
b_neu = b_alt − η · (dL/db)
|
||
```
|
||
Wobei **η** (eta) = Lernrate (z.B. 0.01)
|
||
|
||
**Praktisches Beispiel durchrechnen**:
|
||
Gegeben:
|
||
- Datenpunkt: (x=2, y=5)
|
||
- Aktuelle Parameter: w=1, b=0
|
||
- Lernrate: η=0.01
|
||
|
||
Berechnung:
|
||
```
|
||
y_net = 1·2 + 0 = 2
|
||
d = 5 − 2 = 3
|
||
dL/dw = −2 · 2 · 3 = −12
|
||
dL/db = −2 · 3 = −6
|
||
|
||
w_neu = 1 − 0.01·(−12) = 1 + 0.12 = 1.12
|
||
b_neu = 0 − 0.01·(−6) = 0 + 0.06 = 0.06
|
||
```
|
||
|
||
**Visualisierung**:
|
||
- Zeichnen, wie die Gerade sich nach diesem Schritt besser "anfügt"
|
||
- Der Fehler L ist kleiner geworden
|
||
|
||
#### 3.2 Mehrfache Iterationen - der Trainingsloop (8 min)
|
||
**Demonstration mit mehreren Datenpunkten**:
|
||
- 5–10 Datenpunkte vorgeben (z.B. in Tabelle)
|
||
- Schüler berechnen für jeden Punkt die Gradienten
|
||
- Parameter aktualisieren
|
||
- Nach wenigen Iterationen: "Die Gerade passt besser!"
|
||
|
||
**Oder: Live-Code-Demo** (mit Colab-Notebook):
|
||
- Die Google Colab öffnen
|
||
- Kleine Datenmenge definieren
|
||
- Training starten und Kurven-Anpassung beobachten
|
||
- Fehler-Graph sinken sehen
|
||
|
||
#### 3.3 Warum funktioniert das? (7 min)
|
||
**Theoretischer Überblick**:
|
||
- **Gradient** zeigt die **Richtung des steilsten Anstiegs**
|
||
- Mit **negativem Vorzeichen** gehen wir in Richtung des steilsten **Abstiegs**
|
||
- Das ist wie Bergwandern: Der Bergsteiger schaut, wie das Gelände abfällt, und geht bergab
|
||
- Nach vielen Schritten: Wir erreichen ein **lokales Minimum** von L
|
||
|
||
**Verbindung zur Alltagserfahrung**:
|
||
"Das ist wie beim Fußball-Training: Der Trainer sieht deine Schwächen (Gradient), gibt dir Feedback, du trainierst gezielt (Update), und beim nächsten Mal machst du es besser."
|
||
|
||
---
|
||
|
||
### Phase 4: Transfer zur großen KI (20 Minuten)
|
||
|
||
**Zeit**: 60–80 min
|
||
|
||
#### 4.1 Von 1 Neuron zu Sprachmodellen (10 min)
|
||
**Skalierung der Idee**:
|
||
- **Unser System**: 1 Neuron mit 2 Parametern (w, b)
|
||
- **ChatGPT-4**: Milliarden von Neuronen, Milliarden von Parametern
|
||
- **Das Prinzip**: **IDENTISCH!**
|
||
|
||
Die selbe Kettenregel wird auf Millionen von Schichten angewendet:
|
||
```
|
||
dL/d(alle Parameter) =
|
||
dL/d(Layer_n) · d(Layer_n)/d(Layer_{n-1}) · ... · d(Layer_1)/d(Input)
|
||
```
|
||
|
||
Das ist **Backpropagation** in voller Kraft.
|
||
|
||
**Visualisierung**:
|
||
- Stanford-Material zeigen: Berechungsgraph mit mehreren Layern
|
||
- Erklären: Der Gradient "fließt" rückwärts durch das ganze Netz
|
||
- Jeder Parameter "weiß", wie sehr er den Fehler beeinflusst
|
||
|
||
#### 4.2 Warum ist das so mächtig? (8 min)
|
||
**Zwei Kernerkenntnisse**:
|
||
|
||
1. **Automatisierte Differenziation**: Die Kettenregel wird auf **Tausende oder Millionen Parameter** angewendet. Das würde von Hand unmöglich sein. Computer machen das in Millisekunden.
|
||
|
||
2. **Lernen aus Daten**: Das System sieht Millionen Beispiele (Texte, Bilder), und die Kettenregel passt alle Parameter so an, dass der Fehler minimal wird. Das nennt sich **maschinelles Lernen**.
|
||
|
||
**Konkrete Beispiele**:
|
||
- **DALL-E**: Bilderzeugung durch denselben Algorithmus, nur mit Milliarden von Parametern
|
||
- **Musikgeneratoren**: Melodien komponieren mit Backpropagation
|
||
- **Protein-Folding (AlphaFold)**: Wissenschaftliche Entdeckungen durch neuronale Netze
|
||
|
||
#### 4.3 Kritische Reflexion – Was **nicht** verstanden ist (2 min)
|
||
**Wichtige Abgrenzung**:
|
||
- ✓ Wir verstehen **wie** das System lernt (Kettenregel)
|
||
- ✗ Wir verstehen **nicht** wirklich, **warum** das so gut funktioniert (Black Box Problem)
|
||
- ✗ Wir verstehen nicht, **was** das System "denkt" oder "weiß"
|
||
- ✗ Wie man verhindert, dass es "halluziniert" oder Fehler macht
|
||
|
||
**Weiterführende Fragen**:
|
||
- "Könnte ein solches System Halluzinationen haben?"
|
||
- "Wie garantieren wir, dass es korrekte Informationen gibt?"
|
||
|
||
---
|
||
|
||
### Phase 5: Reflexion & Vertiefung (10 Minuten)
|
||
|
||
**Zeit**: 80–90 min
|
||
|
||
#### 5.1 Individuelle Hausaufgabe / Vertiefung (5 min)
|
||
**Arbeitsblatt-Aufgabe**:
|
||
|
||
*Aufgabe 1*: Gegeben ein neuer Datenpunkt (x=3, y=7) und aktuelle Parameter w=1.5, b=0.5, berechne dL/dw und dL/db.
|
||
|
||
*Aufgabe 2*: Erkläre in 3–4 Sätzen, warum die Kettenregel "der Kern von KI" ist.
|
||
|
||
*Aufgabe 3 (Optional, für schnelle Schüler)*: Erstelle selbst einen Berechnungsgraph für eine quadratische Funktion f(x) = ax² + bx + c und berechne die Gradienten.
|
||
|
||
#### 5.2 Gruppendiskussion / Plenum (5 min)
|
||
**Fragen für die Runde**:
|
||
1. "Was hat euch überrascht?"
|
||
2. "Wo seht ihr diese Technologie in 5 Jahren?"
|
||
3. "Welche ethischen Fragen stellen sich, wenn Maschinen so 'lernen'?"
|
||
|
||
**Abschließende Feststellung**:
|
||
"Ihr habt heute verstanden, wie die stärksten KI-Systeme der Welt trainiert werden. Das braucht nicht mehr als **Ableitungen, Kettenregel und Verständnis für Optimierung**. Mathematik ist nicht abstrakt – sie ist der Code des Universums und der Maschinen."
|
||
|
||
---
|
||
|
||
## IV. Methodische Gestaltung (Handwerkzeug)
|
||
|
||
### 4.1 Verwendete didaktische Prinzipien
|
||
|
||
| Prinzip | Umsetzung | Lebensweltbezug |
|
||
|---------|-----------|-----------------|
|
||
| **Authentizität** | ChatGPT/KI als bekannte Technologie | Schüler kennen diese Systeme |
|
||
| **Handlungsorientierung** | Konkrete Berechnungen durchführen | "Das funktioniert wirklich" |
|
||
| **Problemorientierung** | Von der Frage "Wie passt eine Gerade?" zur Lösung | Iteratives Verstehen |
|
||
| **Schrittweise Komplexität** | 1 Neuron → Dutzende → Milliarden | Progression nachvollziehbar |
|
||
| **Visualisierung** | Graphische Berechnungsbäume, Kurven | Mathematik wird sichtbar |
|
||
| **Partnerarbeit** | Zu zweit Gradienten berechnen | Soziales Lernen |
|
||
|
||
### 4.2 Materialien
|
||
|
||
**Notwendig**:
|
||
- Whiteboard / Tafel + Stifte
|
||
- Beamer + Laptop
|
||
- Papier und Stifte (für Notizen und Berechnungen)
|
||
- Google Colab Link (bereitgestellt)
|
||
|
||
**Optional**:
|
||
- Handout mit Formeln
|
||
- Datensatz (einfache Punkte, z.B. CSV)
|
||
- Grafik-Software (Desmos oder GeoGebra)
|
||
|
||
### 4.3 Differenzierung
|
||
|
||
**Für leistungsstarke Schüler**:
|
||
- Zusatzaufgabe: Berechnung mit mehreren Parametern oder nicht-linearer Aktivierungsfunktion
|
||
- Vertiefung: Warum funktioniert Gradient Descent nicht immer? (lokale Minima)
|
||
|
||
**Für Schüler mit Schwierigkeiten**:
|
||
- Fertige Berechnungsgraphen vorgeben, nur Zahlenwerte einsetzen
|
||
- Kettenregel-Formeln zur Verfügung stellen
|
||
- Pairing mit stärkeren Schülern
|
||
|
||
---
|
||
|
||
## V. Begründung: Lebensweltbezug & Forschungsstand
|
||
|
||
### 5.1 Warum Lebensweltbezug hier funktioniert
|
||
|
||
Laut aktueller Forschung (Boaler 2016, Viau 2009) erhöht **Lebensweltbezug** Lernmotivation durch drei Faktoren:
|
||
|
||
1. **Wahrgenommene Relevanz**: 78% der Schüler berichten höhere Lernmotivation bei Verbindung zu realen Situationen
|
||
- *In unserem Fall*: ChatGPT und KI sind nicht abstrakt, sondern täglich präsent
|
||
|
||
2. **Kompetenzempfindung**: Schüler fühlen sich kompetent, wenn sie "echte" Probleme lösen
|
||
- *In unserem Fall*: "Ich kann den Algorithmus nachvollziehen, der GPT trainiert" = starkes Erfolgserlebnis
|
||
|
||
3. **Emotionale Aktivation durch Wahlfreiheit**: Wenn Schüler das Thema mitgestalten können, steigt intrinsische Motivation
|
||
- *In unserem Fall*: Diskussion über ethische Fragen, eigene Datenbeispiele wählen
|
||
|
||
### 5.2 Konstruktivistische Verankerung
|
||
|
||
Nach **Vygotsky** und **Holzkamp** (Tätigkeitstheorie):
|
||
- Lernprozesse basieren auf **tätigen Aneignungserfahrungen**
|
||
- Formale Lernziele sind nur erreichbar, wenn sie an **lebensweltliche Bewältigungsstrategien** anknüpfen
|
||
|
||
*Übertragen auf dieses Konzept*:
|
||
- **Tätigkeit**: Mit echten Daten arbeiten, Gradienten berechnen, Parameter tunen
|
||
- **Lebenswelt**: KI im Alltag kennen und nutzen
|
||
- **Formal**: Mathematische Ableitungsregeln, Kettenregel, Optimierung
|
||
|
||
---
|
||
|
||
## VI. Evaluation & Lernzielkontrolle
|
||
|
||
### Formativ (während der Stunde):
|
||
- Beobachtung bei Berechnungen: Verstehen die Schüler die Kettenregel?
|
||
- Partnerarbeit-Diskussionen: Können sie die Gradienten interpretieren?
|
||
- Mündliche Beiträge: Transferieren sie auf größere Netze?
|
||
|
||
### Summativ (am Ende / danach):
|
||
- Hausaufgabe: Eigene Berechnung eines neuen Datenpunkts
|
||
- Essay: "Erkläre einem Freund in 5 Sätzen, warum Backpropagation funktioniert"
|
||
- Projektidee: Mit dem Colab experimentieren und Ergebnisse dokumentieren
|
||
|
||
---
|
||
|
||
## VII. Weitere Ressourcen & Literatur
|
||
|
||
- **Stanford CS231n**: https://cs231n.github.io/optimization-2/#patterns
|
||
- **Boaler, J. (2016)**: "Real-world mathematics projects improve problem-solving"
|
||
- **Viau, R. (2009)**: Modell der motivationalen Dynamik
|
||
- **Holzkamp, K.**: Kritische Psychologie – Tätigkeitstheorie und Lebenswelt
|
||
- **Colab Notebook**: Praktische Implementierung eines einfachen neuronalen Netzes
|
||
|
||
---
|
||
|
||
**Stand**: Dezember 2025
|
||
**Adressaten**: Mathematik-Unterricht in Berufsbildung
|
||
**Dauer**: 90 Minuten (modular erweiterbar auf 135 oder 180 Minuten)
|