lernen_lehren/artikel.md

# Mathematik hinter künstlicher Intelligenz: Backpropagation als Unterrichtsgegenstand für die Berufsbildung

## Wie die Kettenregel zum Kern von Sprachmodellen wird – Ein konzeptionelles Unterrichtsdesign mit Alltagsrelevanz

---

## Einleitung

ChatGPT, Bildgeneratoren und Sprachassistenten sind längst keine Phänomene von morgen mehr. Sie sind Alltagstechnologien, mit denen Schülerinnen und Schüler täglich in Berührung kommen – im Unterricht, in der Ausbildung, im privaten Leben. Gleichzeitig bleibt die grundsätzliche Funktionsweise dieser Systeme für die meisten Nutzenden ein Mysterium. Sie funktionieren, aber wie und warum? Diese Unklarheit führt häufig zu einer zwiespältigen Wahrnehmung: Einerseits werden diese Systeme mit großem Interesse genutzt, andererseits werden sie als undurchschaubare „Black Boxes“ wahrgenommen, deren Komplexität sich dem Verständnis zu entziehen scheint.

Ein zentrales Ziel dieser Unterrichtskonzeption besteht darin, diese Wahrnehmung zu verändern. Die zentrale These lautet: **Die mathematischen Grundprinzipien, die hinter diesen hochmodernen Technologien stecken, sind überraschend zugänglich und bauen auf handwerklichem mathematischem Können auf – nämlich auf den Ableitungsregeln, die seit Jahren im Unterricht gelehrt werden.** Konkret ist es die Kettenregel aus der 11. Klasse, angewendet auf tausende oder Millionen von Parametern, die den Kern-Algorithmus aller modernen künstlichen Intelligenzsysteme darstellt.

Diese Einsicht hat unmittelbare Konsequenzen für Lernmotivation und Relevanzwahrnehmung. Wenn Schülerinnen und Schüler verstehen, dass sie mit dem Verständnis der lokalen Kettenregel einen direkten Zugang zu den mächtigsten Technologien ihrer Zeit erhalten, verschiebt sich ihre Wahrnehmung von Mathematik grundlegend. Sie wird nicht mehr als bloßer Schulfachinhalt wahrgenommen, sondern als unmittelbar relevant für das Verständnis ihrer lebensweltlichen Realität. Genau diese Wahrnehmungsverschiebung ist es, die nach aktuellem Forschungsstand eine zentrale Voraussetzung für intrinsische Lernmotivation und tiefes konzeptuelles Verständnis darstellt.

Die folgende Konzeption skizziert ein 90-Minuten-Unterrichtsdesign für den Berufsbildungskontext, das diese Idee konkretisiert. Sie verfolgt dabei ein doppeltes Anliegen: Einerseits vermittelt sie zentrale mathematische und informatische Konzepte (Kettenregel, Gradient, Backpropagation), andererseits nutzt sie diese Vermittlung, um Schülerinnen und Schüler für die epistemologischen und ethischen Grundlagen von Künstlicher Intelligenz zu sensibilisieren.

---

## 1. Lebensweltbezug und Lernmotivation – Theoretisches Fundament

Die Forschung der letzten zwei Jahrzehnte zum Thema Lernmotivation und Engagement hat eine klare Erkenntnis hervorgebracht: Der Zusammenhang zwischen lebensweltlichem Bezug und Lernmotivation ist kein Phänomen der Oberflächenmotivation, sondern tangiert grundlegende Prozesse des konzeptuellen Verständnisses. Dies ist besonders in den Naturwissenschaften und der Mathematik relevant, wo die Wahrnehmung von Relevanz für den Lernstoff oft unterentwickelt ist.

Viviane Viau (2009) hat in seinem Modell der Dynamik von Lernmotivation drei zentrale Faktoren identifiziert, die zusammenwirken müssen, damit Lernende sich für eine Aufgabe intrinsisch motivieren: erstens der wahrgenommene Aktivitätswert (also das Empfinden von Interesse und Nützlichkeit der Aufgabe), zweitens die empfundene Kontrollierbarkeit (das Gefühl, die Aufgabe eigenständig bewältigen zu können), und drittens die Kompetenzempfindung (das Selbstwirksamkeitserlebnis bei der Aufgabenbearbeitung). Eine zentrale empirische Befund aus Viaus Forschung besagt, dass kontextreiche Probleme, insbesondere solche, bei denen Schülerinnen und Schüler Wahlmöglichkeiten bei der Problemgestaltung haben, zu signifikanten Zuwächsen in allen drei Faktoren führen. Nicht weniger als 78 Prozent der befragten Schülerinnen und Schüler berichten von erhöhter Lernmotivation, wenn mathematische Inhalte mit realen, relevanten Situationen verbunden sind.

Dahinter steckt ein tieferes Phänomen, das Lev Vygotsky und später Klaus Holzkamp in der Tätigkeitstheorie beschrieben haben: Lernprozesse gründen sich nicht auf Wissensvermittlung im abstrakten Sinne, sondern auf die tätige Aneignung von Bedeutungsstrukturen. Menschen konstruieren Wissen durch ihre Handlungen in der Welt und in Auseinandersetzung mit ihr. Die Bedeutung von mathematischen Konzepten erschließt sich daher nicht aus ihrer formalen Darstellung, sondern aus ihrer situierten Anwendung in Kontexten, die für die Lernenden eine erkennbare Relevanz haben. Wenn diese situierte Anwendung in lebensweltlichen Kontexten stattfindet – in Problemsituationen also, die Lernende als authentisch und bedeutsam wahrnehmen – dann haben sie die Möglichkeit zu dem, was Holzkamp als „expansives Lernen“ bezeichnet: einem eigenständig motivierten Eindringen in die „Tiefenstruktur der Bedeutungszusammenhänge“ eines Lerngegenstands, nicht bloß das Erfassen oberflächlicher Merkmale zur Bedrohungsabwehr.

Der zentrale Mechanismus besteht dabei in der Wahrnehmung von Nützlichkeit. Werden mathematische Konzepte als konkrete Werkzeuge zur Lösung von Problemen erlebbar, deren Relevanz Schülerinnen und Schüler selbst erkennen, verschiebt sich die emotionale Färbung des Lernens grundlegend. Aus „Ich muss das für die Schule/Ausbildung können“ wird „Ich möchte verstehen, wie das funktioniert, weil es mein Verständnis der Welt verändert.“

Genau diesem Ziel dient das folgende Unterrichtskonzept. Die Alltagstechnologie der Sprachmodelle wird zum Anlass genommen, fundamentale mathematische Konzepte (Kettenregel, Gradient, Optimierung) zu erschließen. Damit wird nicht nur ein Lernziel verfolgt, sondern eine doppelte Transformation: Das Verständnis von Mathematik wandelt sich von abstrakt zu konkret-anwendbar, und gleichzeitig wandelt sich die Wahrnehmung von KI von geheimnisvoll-unverständlich zu begreifbar-machbar.

---

## 2. Das einfachste neuronale Netz als Unterrichtsgegenstand

Bevor das volle Ausmaß moderner Sprachmodelle Gegenstand wird, ist es didaktisch sinnvoll, sich dem Konzept über ein extremes Minimalbeispiel zu nähern: das einfachste denkbare neuronale Netz, bestehend aus **einem Neuron**, das **zwei Parameter** hat. Ein solches System ist mathematisch vollkommen transparent und dennoch strukturell identisch mit den Grundbausteinen von GPT-4 und vergleichbaren Systemen.

Das einfachste Neuron ist mathematisch nichts anderes als eine lineare Funktion:
f_{\text{netz}}(x) = w \cdot x + b


Dabei ist \(w\) (weight, Gewicht) ein Skalar, der die Steigung der Funktion bestimmt, und \(b\) (bias) der y-Achsenabschnitt. Diese Funktion beschreibt eine Gerade in der Ebene. Das Ziel des Trainings besteht darin, die Parameter \(w\) und \(b\) so anzupassen, dass die Gerade eine Menge von Datenpunkten \((x_i, y_i)\) möglichst gut approximiert.

Dieses Szenario ist Schülerinnen und Schülern aus der Mathematik bekannt: Lineare Regression, Anpassung von Geraden an empirische Daten. Das gibt dem Unterrichtsgegenstand eine doppelte Verankerung – einerseits in bekanntem mathematischem Terrain, andererseits in einem Problem, das sich sofort als relevant anfühlt, sobald verstanden wird, dass es sich um den elementarsten Baustein von Sprachmodellen handelt.

Die Aufgabe besteht darin, die Parameter \(w\) und \(b\) so zu variieren, dass die durchschnittliche Abweichung zwischen den echten Datenpunkten und den Vorhersagen des Netzes minimal wird. Dies wird formalisiert durch eine **Verlustfunktion** (Loss Function), die den Fehler quantifiziert:
L(w, b) = \frac{1}{N} \sum_{i=1}^{N} \left(y_i - f_{\text{netz}}(x_i)\right)^2
= \frac{1}{N} \sum_{i=1}^{N} \left(y_i - (w \cdot x_i + b)\right)^2

Diese Formulierung ist nicht zufällig gewählt. Das Quadrieren des Fehlers ist mathematisch elegant (es straft sowohl positive als auch negative Abweichungen), und es ist eine Form, die Schülerinnen und Schüler aus der Statistik (Varianz, Standardabweichung) bereits kennen. Die Verlustfunktion ist daher verständlich als das „Maß der Unzufriedenheit“ des Systems mit seinen aktuellen Parametern: Je größer \(L\), desto schlechter passt die Gerade zu den Daten.

Das Kernproblem der Optimierung besteht nun darin: Wie können wir \(w\) und \(b\) schrittweise variieren, um \(L\) zu minimieren? Dies führt direkt zum Konzept des **Gradienten**.

---

## 3. Der Gradient als zentrales Konzept und die universelle Approximationsfähigkeit

Der Gradient einer Funktion ist ein geometrisches und analytisches Konzept, das sich eng an die Ableitung anlehnt. In unserem Fall interessiert uns die Frage: Wie stark ändert sich der Fehler \(L\), wenn ich den Parameter \(w\) (oder \(b\)) um einen kleinen Betrag variiere?

Dies ist genau das, was die partielle Ableitung \(\frac{\partial L}{\partial w}\) aussagt. Sie gibt an, wie sensibel der Fehler bezüglich des Parameters \(w\) ist. Ein positiver Wert bedeutet: Wenn ich \(w\) erhöhe, wächst der Fehler. Ein negativer Wert bedeutet: Wenn ich \(w\) erhöhe, sinkt der Fehler. Der Betrag der Ableitung sagt aus, wie stark dieser Effekt ist.

An dieser Stelle ist es wichtig zu verstehen, warum neuronale Netze überhaupt so mächtig sind. Das **Universelle Approximationstheorem** besagt mathematisch, dass ein neuronales Netz mit genügend Neuronen und mindestens einer ausreichend breiten Schicht jede stetige Funktion, die auf einem kompakten Bereich definiert ist, mit beliebiger Genauigkeit approximieren kann. Dies ist kein empirisches Phänomen, sondern ein bewiesenes mathematisches Resultat. Ein tiefes Netz mit vielen Schichten stellt mathematisch also eine **große, verschachtelte Funktion** dar – eine Komposition von Millionen oder Milliarden von elementaren Operationen (Matrizenmultiplikationen, Aktivierungsfunktionen).

Der pädagogische Clou besteht nun darin: Wenn man die Ableitung dieser kolossalen Komposition berechnen wollte, ohne die Struktur auszunutzen, würde dies zu einer völlig unüberschaubaren Ausdrucksbaumexplosion führen. Man würde versuchen müssen, die äußerste Ableitung auszurechnen, dann die davon abhängigen Ableitungen, und so weiter – rekursiv über Millionen von Schichten. Dies ist praktisch unmöglich. **Hier tritt die Kettenregel in ihrer ganzen Kraft auf.** Sie zeigt, dass man dieses Problem zerlegen kann in lokale Gradienten an jedem Neuron – man rechnet nicht die eine gigantische Ableitung, sondern Millionen kleine, lokale Ableitungen und multipliziert sie systematisch zusammen. Dies ist der Kern von Backpropagation: Eine intelligente, algorithmisch effiziente Anwendung der Kettenregel, die das Unmögliche machbar macht.

Für unser einfaches System gibt die Kettenregel die Werkzeuge in die Hand, um diese Ableitungen systematisch zu berechnen. Dies ist der Ausgangspunkt für **Backpropagation**, das zentrale Trainingsverfahren für neuronale Netze. Der Begriff ist in gewisser Weise eine Bezeichnung dafür, dass die Kettenregel „rückwärts“ durch die Funktionskomposition angewendet wird, um jedem Parameter zu sagen, wie sehr er zum Gesamtfehler beiträgt.

Um dies konkret zu machen, ist es hilfreich, die Berechnung der Verlustfunktion in eine Folge elementarer Schritte zu zerlegen. Graphisch lässt sich dies als **Berechnungsgraph** darstellen, wie er von den Materialien der Stanford-CS231n-Vorlesung veranschaulicht wird. Jeder Knoten im Graphen repräsentiert eine elementare Operation oder Variable. Die Kanten zeigen die Abhängigkeiten zwischen ihnen. Ein solcher Graph könnte für unseren Fall etwa so aussehen:

- Der Parameter \(w\) und die Eingabe \(x\) werden multipliziert: \(w \cdot x\)
- Das Ergebnis wird mit dem Bias \(b\) addiert: \((w \cdot x) + b = y_{\text{net}}\)
- Von \(y_{\text{net}}\) wird der echte Wert \(y\) subtrahiert: \(d = y - y_{\text{net}}\)
- Dieser Differenzwert wird quadriert: \(L = d^2\)

Die Kettenregel besagt nun, dass die Ableitung einer verschachtelten Funktion berechnet wird, indem man die Ableitungen der einzelnen Schritte miteinander multipliziert (in umgekehrter Reihenfolge). So ergeben sich die Gradienten:

\frac{\partial L}{\partial d} = 2d
\frac{\partial d}{\partial y_{\text{net}}} = -1
\frac{\partial y_{\text{net}}}{\partial w} = x

\frac{\partial L}{\partial w}
= \frac{\partial L}{\partial d} \cdot \frac{\partial d}{\partial y_{\text{net}}} \cdot \frac{\partial y_{\text{net}}}{\partial w}
= 2d \cdot (-1) \cdot x
= -2x (y - y_{\text{net}})


Analog:

\frac{\partial L}{\partial b}
= 2d \cdot (-1) \cdot 1
= -2 (y - y_{\text{net}})


Hier offenbaren sich mehrere pädagogisch zentrale Momente. Erstens ist die Berechnung vollkommen transparent und regelbasiert – es sind keine Zaubereien im Spiel, sondern die systematische Anwendung bekannter Ableitungsregeln. Zweitens wird deutlich, dass jeder Parameter durch die Gradienten „erfährt“, wie sehr er zum Fehler beiträgt. Ein großer Gradient bedeutet: Ein großer Einfluss. Drittens hat das negative Vorzeichen eine intuitive Bedeutung: Wenn der Gradient negativ ist, sollte man den Parameter in positiver Richtung ändern, um den Fehler zu reduzieren.

---

## 4. Vom Gradienten zur Optimierung – Gradient Descent

Sobald die Gradienten berechnet sind, ergibt sich die Optimierungsstrategie fast von selbst. Die Idee ist simpel: Gehe in die Richtung des steilsten Abstiegs. Konkret wird dies durch eine **Update-Regel** formalisiert:
w_{\text{neu}} = w_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial w}
b_{\text{neu}} = b_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial b}

Dabei ist \(\eta\) (eta), die sogenannte **Lernrate**, ein Hyperparameter, der bestimmt, wie groß die Schritte sein sollen. Eine hohe Lernrate führt zu schnelleren Änderungen, riskiert aber, über das Optimum hinauszuschießen. Eine zu niedrige Lernrate führt zu langsamem Fortschritt. Die Balance zu finden ist ein klassisches Problem in der Optimierung.

Dieser Prozess wird wiederholt über mehrere **Iterationen**. In jeder Iteration werden die Gradienten für alle Datenpunkte berechnet (oder für eine Stichprobe davon), und die Parameter werden aktualisiert. Nach ausreichend vielen Iterationen konvergiert das Verfahren zu einem lokalen Minimum der Verlustfunktion – das heißt, die Gerade passt immer besser zu den Datenpunkten.

Eine zentrale pädagogische Einsicht ist hierbei: Dies ist nicht mysteriös. Es ist ein iteratives Verfahren, das man vollständig verstehen kann, wenn man die Kettenregel versteht. Und dies ist genau der Algorithmus (in massiv skalisierter Form), der GPT-4, DALL-E und alle modernen KI-Systeme trainiert. Der Unterschied besteht nicht in konzeptuellen Neuerungen, sondern in der Skalierung: Statt zwei Parametern haben diese Systeme Milliarden; statt eines einfachen linearen Netzes verwenden sie komplexe, mehrschichtige Architekturen mit nichtlinearen Aktivierungsfunktionen. Aber der mathematische Kern bleibt identisch: Gradienten berechnen, Parameter aktualisieren, iterieren, bis Konvergenz.

---

## 5. Die komplexe Realität: Wie Sprachmodelle wirklich trainiert werden

Die bisherige Darstellung beschreibt die mathematischen Grundlagen mit exemplarischer Klarheit. Die Realität der Sprachmodell-Entwicklung ist jedoch erheblich komplexer und bietet wertvolle Anknüpfungspunkte zu ethischen und praktischen Überlegungen, die in einem reflektierten Unterricht nicht unterschlagen werden sollten.

### 5.1 Pretraining, Instruction Tuning und RLHF

Das Training von Sprachmodellen erfolgt in mehreren Phasen. Als erstes wird ein **Basis-Modell** (Base Model) auf einer gigantischen Menge an Textdaten aus dem Internet vortrainiert. In dieser Phase – dem **Pretraining** – lernt das Modell bloß auf der Grundlage der Aufgabe, das nächste Wort einer Sequenz vorherzusagen (Next Token Prediction). OpenAI zum Beispiel hat GPT-3 und später GPT-3.5 auf dieser Grundlage trainiert, wobei etwa 175 Milliarden Parameter über Hunderte von Milliarden von Text-Tokens optimiert wurden.

Dieses Basis-Modell ist bereits beeindruckend – es kann Texte generieren, einfache Fragen beantworten, Muster erkennen. Aber es ist nicht das System, das wir als ChatGPT oder InstructGPT kennen. Denn ein reines Basis-Modell hat keine „Anweisung“ bekommen, wie es mit menschlichen Anfragen interagieren soll. Es hat gelernt, die Welt zu modellieren, nicht, hilfreich zu sein.

Deshalb folgt eine zweite Phase: das **Instruction Tuning** (auch Supervised Fine-Tuning, SFT genannt). Hier wird das Basis-Modell auf einem kuratierten Datensatz von Anweisung-Antwort-Paaren nachtrainiert. Menschliche Annotatorinnen und Annotatoren schreiben Tausende oder Hunderttausende von hochqualitativen Antworten auf verschiedenste Anfragen. Das Modell wird dann trainiert, diese Antworten nachzuahmen. Diese Phase nutzt ebenfalls Gradient Descent und Backpropagation – nur dass die Verlustfunktion jetzt auf die Anweisung-Antwort-Paare angewendet wird, nicht auf beliebige Textvorhersagen.

Danach kommt eine dritte Phase: das **Reinforcement Learning from Human Feedback (RLHF)**. Auch hier ist die Mathematik interessant für unser Verständnis. Im RLHF-Prozess werden wiederum mehrere Komponenten trainiert. Zuerst wird ein **Reward-Modell** trainiert, das lernt, eine Antwort auf einer Skala von „gut“ bis „schlecht“ zu bewerten, basierend auf menschlichen Präferenzen. Dann wird das Sprachmodell selbst mit Reinforcement-Learning-Verfahren (etwa Proximal Policy Optimization, PPO) optimiert, um Antworten zu generieren, die vom Reward-Modell hoch bewertet werden. Auch hier wirkt die Kettenregel, nur dass die Optimierungsziele komplexer sind als bloße Fehlerquadrate.

Die pädagogische Relevanz dieser mehrphasigen Trainingsstruktur liegt darin, dass Schülerinnen und Schüler verstehen, dass KI-Systeme nicht einfach „das Internet aufgesaugt haben“ und dann clever antworten. Sondern es gibt mehrere explizite Trainingsphasen, in denen menschliche Entscheidungen eingeflossen sind: Welche Daten wurden als Pretraining-Korpora verwendet? Welche Annotatorinnen und Annotatoren haben die hochqualitativen Antworten geschrieben? Welche Präferenzen wurden beim RLHF-Training bevorzugt?

### 5.2 Eingebettete Konzepte und die Geometrie des Wissens

Ein weiterer faszinierender Aspekt betrifft die innere Struktur trainierter Modelle. Es hat sich herausgestellt, dass neuronale Netze – und Sprachmodelle insbesondere – während des Trainings mathematische Räume aufbauen, in denen Konzepte geometrisch organisiert sind. Ein berühmtes Beispiel ist der sogenannte **Word2Vec-Effekt**: Wenn man die Vektorrepräsentationen (Embeddings) von Wörtern analysiert und darin algebraische Operationen durchführt, können überraschende semantische Beziehungen sichtbar werden. Ein klassisches Beispiel lautet sinngemäß: „König − Tante + Onkel“ zeigt in eine Richtung, die Männlichkeit kodiert. Solche Beobachtungen zeigen, dass das Netz während des Trainings nicht-triviale konzeptuelle Strukturen aufgebaut hat.

Dies hat unmittelbare ethische Implikationen, die einen Reflexionspunkt in der Unterrichtseinheit bilden können. Wenn Trainingsdaten geschlechtsspezifische Verzerrungen enthalten (etwa: „Ärztinnen“ tauchen seltener auf als „Ärzte“, oder „Krankenschwester“ wird mit weiblich assoziiert, „Chirurg“ mit männlich), dann wird das Modell diese Verzerrungen mathematisch einkodieren. Die Kettenregel wird diese Muster während des Trainings verstärken, weil die Gradienten in Richtung der in den Daten habituellen Assoziationen zeigen.

Hier offenbaren sich tiefgreifende Gerechtigkeits- und Machtfragen: **Wessen Daten werden genutzt? Wer kontrolliert die Trainingsdaten? Welche konzeptuellen Strukturen werden einkodiert und als „normal“ oder „neutral“ dargestellt, obwohl sie kulturelle Entscheidungen widerspiegeln?**

### 5.3 Geopolitische Asymmetrien und technologische Abhängigkeit

Ein noch größerer Maßstab offenbart sich bei Betrachtung der globalen Situation. Die größten und mächtigsten Sprachmodelle werden von drei Hauptakteuren entwickelt: OpenAI (USA), Google/DeepMind (USA) und in jüngster Zeit zunehmend von chinesischen Unternehmen wie Baidu und Alibaba. Europa hat bisher keine vergleichbaren Modelle entwickelt, sondern ist darauf angewiesen, diese amerikanischen oder chinesischen Modelle zu nutzen oder auf Open-Source-Modellen aufzubauen.

Dies ist nicht bloß ein wirtschaftliches oder technologisches Phänomen, sondern ein Phänomen der Wissensmacht. Wenn europäische oder afrikanische Schulen, Universitäten und Unternehmen ihre Arbeit auf KI-Systemen aufbauen, die nach amerikanischen oder chinesischen Wertesystemen trainiert wurden, dann bedeutet das: Die konzeptuellen Strukturen, die Verzerrungen, die Lücken in diesen Modellen werden zur Grundlage europäischen oder afrikanischen Wissens. Länder ohne Ressourcen, um eigene Modelle zu trainieren, haben wenig Einfluss auf die konzeptuellen Strukturen, mit denen ihre Kinder und Arbeitskräfte lernen und arbeiten.

Dies ist ein kritischer Lernpunkt: **Mathematik ist nicht neutral. Die Kettenregel ist neutral – das ist ein rein mathematisches Objekt. Aber die Daten, auf denen Modelle trainiert werden, die Parameter, die optimiert werden, die Ziele, die durch die Verlustfunktion kodiert werden – diese sind zutiefst politisch und kulturell.** Schülerinnen und Schüler sollten verstehen, dass es beim Training von Sprachmodellen nicht nur um mathematische Eleganz geht, sondern um Macht, Kontrolle und kulturelle Hegemonien.

---

## 6. Speicher, Ressourcen und die praktischen Grenzen von Backpropagation

Es gibt noch einen letzten, praktischen Aspekt der Backpropagation, der für Verständnis zentral ist und insbesondere für die Berufsbildung relevant: die **Speicheranforderungen** beim Training versus beim Einsatz (Inferenz).

Wenn wir ein trainiertes Sprachmodell zur Inferenz nutzen – also um vorherzusagen, welches Wort als nächstes kommt – dann müssen wir den Forward Pass durchführen. Die Eingabe fließt durch alle Schichten, und am Ende bekommen wir eine Vorhersage. Die meisten modernen Sprachmodelle können auf diese Weise auf relativ bescheidener Hardware laufen. Ein Modell wie LLaMA 3 mit 7 Milliarden Parametern kann auf einer Consumer-GPU mit 12–16 GB Speicher ausgeführt werden. Manche Modelle können sogar auf modernen Smartphones laufen.

Aber Backpropagation – also das Training – ist eine völlig andere Geschichte. Wenn wir das Modell trainieren (oder sogar nur nachtrainieren, etwa um es auf neue Aufgaben zu spezialisieren), müssen wir Backpropagation durchführen. Dies bedeutet:

1. **Aktivierungen speichern**: Während des Forward Pass wird jede Schicht eine Aktivierung erzeugen (die Ausgabe dieser Schicht, gegeben die Eingabe). Diese Aktivierungen müssen **vollständig im Speicher gehalten** werden, bis die entsprechende Backpropagation-Phase abgeschlossen ist. Dies ist notwendig, weil die Gradienten dieser Aktivierungen berechnet werden müssen.

2. **Gradienten berechnen und speichern**: Für jeden Parameter muss der Gradient \(\frac{\partial L}{\partial w}\) berechnet und (mindestens temporär) gespeichert werden. Bei einem Modell mit Milliarden von Parametern bedeutet das Milliarden von Gradientenwerten.

3. **Optimizer-Zustände**: Moderne Optimierer wie AdamW speichern nicht nur die Gradienten, sondern auch Momentum- und Varianzschätzungen für jeden Parameter. Dies verdoppelt oder verdreifacht die Speicheranforderungen.

Das Ergebnis: Während die Inferenz eines 70-Milliarden-Parameter-Modells (etwa LLaMA 3 70B in 16-Bit-Präzision) etwa 140 GB VRAM benötigt, kann das Training desselben Modells 500–800 GB VRAM erfordern – eine Menge, die praktisch nur mit Cluster-Infrastruktur erreichbar ist.

Dies hat dramatische Konsequenzen: **Ein kleineres Sprachmodell kann auf einer lokalen GPU inferenziell ausgeführt werden. Aber dasselbe Modell kann nicht lokal nachtrainiert werden.** Das bedeutet: Kleine Unternehmen, Schulen, individuelle Forschende können mit vortrainierten Modellen experimentieren, aber sie können diese Modelle nicht an ihre spezifischen Daten oder Anforderungen anpassen. Sie sind auf die Vortrainingsentscheidungen, die Verzerrungen und die konzeptuellen Strukturen des ursprünglichen Modellierers festgelegt.

Dies ist eine praktische Manifestation des geopolitischen Problems aus dem vorherigen Abschnitt: Es gibt nicht nur eine konzeptuelle, sondern auch eine **technologisch-infrastrukturelle Asymmetrie**. Wer die Ressourcen hat, um große Modelle zu trainieren, hat Macht über die konzeptuellen Strukturen, die der Welt zur Verfügung stehen.

Für Schülerinnen und Schüler ist dies eine wichtige Lektion: Mathematik und Informatik sind nicht bloß abstrakt. Sie haben materielle, infrastrukturelle Konsequenzen. Die Tatsache, dass Backpropagation so viel Speicher braucht, dass nur wenige Institutionen Modelle trainieren können, ist nicht eine bloße technische Schwäche – es ist ein Strukturmerkmal, das Macht konzentriert.

---

## 7. Unterrichtsstruktur: Ein 90-Minuten-Design

Basierend auf diesen konzeptuellen und kritischen Grundlagen lässt sich ein Unterrichtsdesign entwerfen, das sowohl fachlich tiefgreifend als auch didaktisch wirkungsvoll und kritisch reflektierend ist. Die folgende Gliederung dient als Orientierungsrahmen, wobei die konkrete Umsetzung an die spezifischen Voraussetzungen der Lerngruppe angepasst werden muss.

### 7.1 Einstiegsphase: Alltagserfahrung aktivieren (0–10 Minuten)

Die Unterrichtseinheit beginnt mit einer authentischen Aktivierungsphase: Schülerinnen und Schüler werden eingeladen, ihre Erfahrungen mit Sprachmodellen, Bildgeneratoren oder anderen KI-Systemen zu teilen. Vielleicht hat jemand ChatGPT bereits im Unterricht verwendet, um Texte zu generieren oder zu überprüfen. Vielleicht haben andere mit Bildgeneratoren experimentiert oder mit einem Sprachassistenten interagiert. Diese Erfahrungen sind wertvoll, weil sie die **lebensweltliche Vertrautheit** mit der Technologie sichtbar machen.

Im nächsten Schritt wird eine zentrale Frage gestellt: Wie funktioniert das eigentlich? Die meisten werden auf eine Antwort hinauslaufen wie „Das ist KI“ oder „Das ist irgendwie Machine Learning“. Dies ist der perfekte Ausgangspunkt, um eine provokative These zu präsentieren: **„Das System, das ChatGPT trainiert, ist nicht hochkompliziert, sondern basiert auf Mathematik, die ihr bereits aus der 11. Klasse kennt: der Kettenregel.“** Diese These wird in den kommenden 80 Minuten verständlich gemacht.

### 7.2 Mathematisches Fundament: Vom Neuron zur Verlustfunktion (10–35 Minuten)

Diese Phase widmet sich dem systematischen Aufbau der mathematischen Konzepte. Der Unterricht beginnt mit der Definition des einfachsten Neurons als linearer Funktion \(f(x) = wx + b\). Dies wird visuell dargestellt – eine Gerade, die durch Datenpunkte gelegt werden soll. Die Gerade wird interaktiv bewegt, indem \(w\) und \(b\) variiert werden. Schülerinnen und Schüler können unmittelbar sehen, wie die Parameter die Form der Gerade bestimmen.

Dann wird die Frage gestellt: Wie messen wir, ob die Gerade gut passt? Dies führt zur Verlustfunktion \(L = \frac{1}{N} \sum (y_i - (wx_i + b))^2\). Der Fehler ist ein Maß für die Qualität der Anpassung. Je kleiner der Fehler, desto besser die Gerade.

Der zentrale konzeptuelle Schritt besteht darin, diesen Fehler als Funktion der Parameter \(w\) und \(b\) zu verstehen: \(L(w, b)\). Die Verlustfunktion ist keine mysteriöse Black Box, sondern eine völlig transparente mathematische Komposition bekannter Operationen (Multiplikation, Addition, Subtraktion, Quadrieren). Dies wird durch einen **Berechnungsgraph** visualisiert, der die Abhängigkeiten zwischen den Größen explizit darstellt.

### 7.3 Die Kettenregel in Aktion: Gradienten berechnen (35–50 Minuten)

Jetzt wird die Kettenregel als zentrales Werkzeug eingeführt. Die Frage lautet: Wie stark ändert sich \(L\), wenn ich \(w\) um einen kleinen Betrag variiere? Die Antwort ist: \(\frac{\partial L}{\partial w}\). Dies ist nicht abgeleitet aus magischen Prinzipien, sondern direkt aus der Kettenregel: Man multipliziert die Ableitungen aller Schritte in der Komposition.

Ein **konkretes Beispiel** wird durchgerechnet. Gegeben ein Datenpunkt \((x = 2, y = 5)\) und aktuelle Parameter \((w = 1, b = 0)\):

- \(y_{\text{net}} = 1 \cdot 2 + 0 = 2\)
- Fehler: \(d = 5 - 2 = 3\)
- Verlust: \(L = 3^2 = 9\)

Nun die Gradienten:

- \(\frac{\partial L}{\partial d} = 2 \cdot 3 = 6\)
- \(\frac{\partial d}{\partial y_{\text{net}}} = -1\)
- \(\frac{\partial y_{\text{net}}}{\partial w} = 2\)
- Also: \(\frac{\partial L}{\partial w} = 6 \cdot (-1) \cdot 2 = -12\)

Analog: \(\frac{\partial L}{\partial b} = -6\).

Dies wird mehrfach wiederholt – mit verschiedenen Datenpunkten, verschiedenen Parameterwerten – bis die Mechanik der Kettenregel internalisiert ist. Das Zentrale ist: Es gibt keine verborgene Komplexität hier. Es ist reine Regelanwendung. Die Lehrkraft kann an diesem Punkt auch erwähnen, dass in größeren Netzen genau dieses Prinzip angewendet wird, nur dass statt zweier Parameter Milliarden von Parametern existieren und statt einer einfachen Funktion eine tiefe Verschachtelung von Tausenden von Schichten – aber das Prinzip ist identisch.

### 7.4 Iterative Optimierung: Training erleben (50–70 Minuten)

Jetzt wird klar gemacht, wie diese Gradienten verwendet werden, um die Parameter zu verbessern. Die Update-Regel wird eingeführt: \(w_{\text{neu}} = w_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial w}\). Mit einer Lernrate von etwa \(\eta = 0{,}01\) wird mit dem obigen Beispiel ein Update-Schritt durchgeführt:

- \(w_{\text{neu}} = 1 - 0{,}01 \cdot (-12) = 1 + 0{,}12 = 1{,}12\)
- \(b_{\text{neu}} = 0 - 0{,}01 \cdot (-6) = 0{,}06\)

Der Effekt ist sofort sichtbar: Mit den neuen Parametern wird die Vorhersage für den Datenpunkt besser (\(y_{\text{net}} = 1{,}12 \cdot 2 + 0{,}06 = 2{,}30\) statt 2), und der Fehler sinkt.

Dieser Prozess wird mehrfach wiederholt – idealerweise mit mehreren Datenpunkten. Nach wenigen Iterationen wird sichtbar, dass die Gerade immer besser passt. Dies kann durch eine Live-Code-Demonstration mit einem **Google-Colab-Notebook** veranschaulicht werden, in dem Schülerinnen und Schüler in Echtzeit sehen können, wie die Gerade sich anpasst und der Fehler sinkt. Dies ist der Moment, in dem das abstrakte Verfahren „real“ wird: Das Trainieren funktioniert wirklich.

### 7.5 Transfer und Komplexität: Vom Neuron zu realen Sprachmodellen (70–85 Minuten)

Nachdem die grundsätzliche Funktionsweise verstanden ist, wird der Blick vergrößert – aber mit kritischem Bewusstsein für die Komplexität. Die Lehrkraft erklärt: Das Prinzip, das wir gerade verstanden haben, skaliert. Statt eines Neurons mit zwei Parametern können es Milliarden von Neuronen mit Milliarden von Parametern sein. Das neuronale Netz stellt mathematisch **eine gigantische, verschachtelte Funktion** dar – eine Komposition von Tausenden von Schichten.

Die mathematische Grundstruktur bleibt dieselbe: Man wendet die Kettenregel an, um lokale Gradienten zu berechnen, und fügt sie zu globalen Gradienten zusammen. Aber die praktischen Konsequenzen sind erheblich. Der Begriff **Backpropagation** wird jetzt verständlich als die systematische Anwendung der Kettenregel durch mehrere Schichten hindurch. Der Gradient „fließt“ rückwärts durch das Netz, von der Ausgabeschicht zur Eingabeschicht, und jedem Parameter wird mitgeteilt, wie sehr er zum Fehler beiträgt.

Hier wird auch ein kritischer praktischer Punkt eingefügt: Während ein trainiertes Sprachmodell lokal auf einer modernen GPU ausgeführt werden kann (Inferenz), ist das **Nachtraining oder Fine-Tuning eines großen Modells nicht lokal möglich**. Der Grund ist die Speicheranforderung. Bei der Inferenz können Aktivierungen nach Durchlauf einer Schicht gelöscht werden, da sie nicht mehr gebraucht werden. Aber während Backpropagation müssen **alle Aktivierungen aus allen Schichten im Speicher gehalten werden**, um die Gradienten berechnen zu können. Bei einem 70-Milliarden-Parameter-Modell kann dies 500–800 GB VRAM erfordern. Dies ist praktisch nur mit großen Cluster-Infrastrukturen erreichbar – was bedeutet, dass kleine Organisationen, Schulen oder Länder ohne Ressourcen nicht in der Lage sind, Modelle an ihre spezifischen Anforderungen anzupassen.

Dies führt zu wichtigen Einsichten: **Es ist nicht nur eine Wissensfrage, sondern eine Frage der infrastrukturellen Macht, wer Modelle trainieren kann und wer nicht.**

Mit dieser Erkenntnis werden konkrete Beispiele genannt: **ChatGPT** hat in früheren Versionen etwa 175 Milliarden Parameter. Beim Training sieht es Milliarden von Textbeispielen, wendet diese exakt gleiche Gradient-Descent-Strategie an. Aber das Training erfolgt in mehreren Phasen: erst Pretraining auf allgemeinen Textdaten, dann Instruction Tuning auf kuratierten Frage-Antwort-Paaren, dann Reinforcement Learning from Human Feedback (RLHF), um das Verhalten zu verfeinern. **DALL·E** funktioniert nach dem gleichen Prinzip, nur dass die Eingaben und Ausgaben Bilder statt Text sind. **AlphaFold** (für Protein-Folding) trainiert dasselbe Verfahren auf biologische Strukturen an.

Die Lehrkraft kann hier auch erwähnen, dass in den Trainingsdaten und in der Wahl der Ziele (etwa welche Antworten als „gut“ und welche als „schlecht“ eingestuft werden) kulturelle und ethische Entscheidungen einfließen. Das Modell ist nicht neutral – es lernt die Verzerrungen seiner Trainingsdaten.

### 7.6 Kritische Reflexion: Macht, Verzerrung und globale Asymmetrien (85–90 Minuten)

Die letzte Phase widmet sich kritisch-ethischen Fragen. Dies ist fundamental für einen reflektierten Unterricht in der Berufsbildung.

Erstens zur Frage von Verzerrung und eingebetteten Konzepten: Sprachmodelle lernen während des Trainings mathematische Räume, in denen Konzepte geometrisch organisiert sind. Wenn die Trainingsdaten Verzerrungen enthalten – etwa geschlechtsspezifische Assoziationen oder kulturelle Stereotype –, werden diese Verzerrungen während des Trainings durch Gradient Descent mathematisch einkodiert und verstärkt. Eine wichtige Frage lautet: **Wenn die Kettenregel in Richtung von Stereotypen in den Trainingsdaten zeigt, wer trägt Verantwortung? Der Algorithmus? Die Annotatoren? Die Trainingsdatensammler? Oder die Unternehmen, die sie einsetzen?**

Zweitens zur geopolitischen Dimension: Die größten Sprachmodelle werden von wenigen Organisationen trainiert – primär in den USA und zunehmend in China. Europa hat bisher keine vergleichbaren Modelle entwickelt, sondern nutzt diese amerikanischen oder chinesischen Systeme. Dies bedeutet: Die konzeptuellen Strukturen, die Verzerrungen, die Lücken in diesen Modellen prägen das Wissen, auf dem europäische Schulen, Universitäten und Unternehmen aufbauen. **Länder und Kontinente ohne Ressourcen, um eigene Modelle zu trainieren, haben wenig Einfluss auf die konzeptuellen Strukturen, mit denen ihre Bevölkerung lernt und arbeitet.**

Drittens zur praktischen Zugänglichkeit: Während kleine Modelle lokal verwendet werden können, können sie nicht lokal nachtrainiert werden. Dies bedeutet, reale Organisationen und Schulen sind auf vorgefertigte Modelle angewiesen. Sie können diese nicht an ihre spezifischen Daten oder Anforderungen anpassen. Dies ist nicht bloß ein technisches Problem – es ist ein Problem von Autonomie und Kontrolle.

Eine zentrale Einsicht für Schülerinnen und Schüler lautet daher: **Mathematik ist nicht neutral. Die Kettenregel ist ein wunderschönes, universelles mathematisches Objekt. Aber was damit optimiert wird – welche Daten, welche Ziele, welche Verzerrungen – das ist zutiefst politisch.** Dies ist ein Punkt, an dem mathematisches und ethisches Verständnis zusammenkommen müssen.

---

## 8. Forschungsbasierte Begründung: Lebensweltbezug und Motivation

Die vorliegende Unterrichtskonzeption stützt sich auf empirische Forschungsbefunde, die zeigen, dass lebensweltlicher Bezug – verstanden als Anknüpfung an Erfahrungen und Interessensgebiete der Schülerinnen und Schüler – eine Schlüsselvariable für Lernmotivation und konzeptuelles Verständnis ist.

Wie einleitend bereits dargelegt, identifiziert Viau drei zentrale Faktoren, die zusammenwirken müssen: die wahrgenommene Relevanz und das Interesse am Stoff, die Kontrollierbarkeit (das Gefühl, die Aufgabe selbst bewältigen zu können) und die Kompetenzempfindung. Eine zentrale empirische Befund lautet, dass Schülerinnen und Schüler, denen bei kontextreichen Problemen Wahlfreiheit gegeben wird (beispielsweise bei der Wahl von Datenbeispielen oder Themenschwerpunkten), größere Lernzuwächse erzielen als jene, denen alles vorgegeben ist. Dies hängt damit zusammen, dass die Wahlfreiheit die Kontrollierbarkeit erhöht und damit auch die emotionale Bindung zur Aufgabe verstärkt.

Barbara Boaler hat in Langzeitstudien zu projektbasiertem mathematischem Lernen gezeigt, dass Schülerinnen und Schüler, die mit echten, realweltlichen Daten und Problemen arbeiten, nicht nur bessere Problemlösungsfähigkeiten entwickeln, sondern auch eine grundlegend veränderte Einstellung zu Mathematik. Sie sehen sie nicht mehr als abgelöst von ihrer Lebenserfahrung, sondern als direktes Werkzeug zur Bearbeitung von Problemen, die ihnen wichtig sind.

Genau diesen Effekt nutzt die vorliegende Konzeption: Indem KI-Systeme zum Unterrichtsgegenstand werden – Technologien, die Schülerinnen und Schüler täglich nutzen und deren Funktionsweise sie verstehen möchten – wird eine authentische Motivationslage geschaffen. Dies ist nicht künstlich konstruiert (wie etwa: „Stelle dir vor, du bist Lebensmittelhändler und musst eine Parabel berechnen“). Sondern es ist genuine Neugier und genuine Relevanzwahrnehmung.

Die tätigkeitstheoretische Perspektive von Holzkamp unterstreicht zudem, dass echtes konzeptuelles Lernen immer von konkreten Problemsituationen ausgeht, in denen Lernende mit ihren gewohnten Mitteln nicht weiterkommen und daher zur „Lernschleife“ genötigt sind. Eine solche Situation liegt vor, wenn Schülerinnen und Schüler sich fragen: „Wie funktioniert das wirklich?“ – bezogen auf eine Technologie, die ihnen vertraut ist, deren Funktionsweise aber rätselhaft bleibt. Die Unterrichtskonzeption schafft genau diese Situation.

Schließlich ist zu betonen, dass die Berufsbildung qua ihrer Fokussierung auf zukünftige Arbeitsfähigkeit einen besonderen Anspruch hat. In einer digitalisierten, von KI zunehmend durchdrungenen Berufswelt ist Verständnis von grundlegenden KI-Konzepten für viele Berufe relevant – nicht nur für IT-Fachleute. Ein Mechaniker, eine Elektronikerin, ein Techniker wird zunehmend mit KI-basierten Optimierungssystemen, mit automatisierten Inspektionsverfahren, mit Predictive-Maintenance-Systemen arbeiten. Die Fähigkeit, die Grundprinzipien dieser Systeme zu verstehen, wird zum Bestandteil beruflicher Handlungskompetenz. Damit hat die Unterrichtskonzeption nicht bloß allgemeine Bildungsrelevanz, sondern auch direkten berufspädagogischen Sinn. Noch wichtiger ist: Die kritische Reflexion über Macht, Daten und globale Asymmetrien bereitet Schülerinnen und Schüler darauf vor, nicht als bloße Konsumentinnen und Konsumenten von KI-Systemen zu fungieren, sondern als kritische, reflektierte Nutzerinnen und Nutzer und möglicherweise als Mitgestaltende solcher Systeme.

---

## 9. Fazit und Ausblick

Die Unterrichtskonzeption „Mathematik hinter KI“ verfolgt die zentrale Idee, dass Verständnis von modernen Künstliche-Intelligenz-Systemen nicht auf Zauberei oder undurchschaubare Black Boxes hinauslaufen muss. Sondern es ist möglich, die mathematischen und konzeptuellen Grundprinzipien transparent zu machen und damit Schülerinnen und Schülern die Möglichkeit zu geben, diese Technologien als Werkzeuge zu verstehen, nicht bloß zu nutzen.

Der Schlüssel dazu liegt in der didaktischen Wahl eines minimalen Beispiels (das einfachste Neuron), durch das die zentralen Konzepte (Kettenregel, Gradient, Backpropagation, iterative Optimierung) verstanden werden können, ohne dabei in technischer Komplexität zu versinken. Dies wird ermöglicht durch die Anknüpfung an lebensweltliche Erfahrung (die alltägliche Nutzung von KI-Systemen) und authentische Lernmotivation (das genuine Interesse am Verständnis).

Darüber hinaus hat die Konzeption eine reflektierte, kritische Dimension. Sie zeigt auf, dass moderne Sprachmodelle in mehreren Phasen trainiert werden (Pretraining, Instruction Tuning, RLHF), dass sie während des Trainings konzeptuelle Strukturen – einschließlich Verzerrungen – einkodieren, und dass die Infrastruktur zum Trainieren großer Modelle so teuer ist, dass sie nur wenige globale Akteure kontrollieren. Diese Erkenntnisse sind nicht bloß akademisches Wissen, sondern sie bereiten Schülerinnen und Schüler darauf vor, die KI-Systeme, mit denen sie arbeiten werden, kritisch einzuordnen.

Eine zukünftige Umsetzung könnte diese Konzeption auf verschiedene Weisen erweitern: durch die Integration von praktischen Coding-Aktivitäten im Google-Colab-Notebook, durch die Bearbeitung echter Datensätze aus beruflichen Kontexten, durch vertiefende Diskussionen zu ethischen Implikationen und globalen Asymmetrien oder durch die Verbindung mit Fachunterricht (etwa Automatisierungstechnik, Qualitätssicherung oder Datenanalyse). Auch die Differenzierung für unterschiedliche Leistungsniveaus könnte weiterentwickelt werden – beispielsweise durch optionale Vertiefungen in nichtlineare Aktivierungsfunktionen, mehrschichtige Netze oder die empirische Untersuchung von Hyperparameter-Effekten.

Das übergeordnete Ziel bleibt: Mathematik – und insbesondere ihre Anwendung in Optimierungsproblemen – als unmittelbar relevant für das Verständnis der Technologien zu zeigen, die unsere Zeit prägen. Und gleichzeitig eine kritische, reflektierte Haltung zu fördern gegenüber den Machtstrukturen, die diese Technologien prägen. Dies ist nicht nur eine unterrichtliche, sondern auch eine bildungspolitische Aufgabe. Denn es geht um nicht weniger als darum, dass künftige Fachkräfte nicht passive Konsumentinnen und Konsumenten von „Black-Box“-Systemen sind, sondern in der Lage sind, diese zu verstehen, kritisch zu reflektieren und verantwortungsvoll – und demokratisch mitgestaltend – einzusetzen.