# Mathematik hinter künstlicher Intelligenz: Backpropagation als Unterrichtsgegenstand für die Berufsbildung

## Wie die Kettenregel zum Kern von Sprachmodellen wird – Ein konzeptionelles Unterrichtsdesign mit Alltagsrelevanz

---

## Einleitung

ChatGPT, Bildgeneratoren und Sprachassistenten sind längst keine Phänomene von morgen mehr. Sie sind Alltagstechnologien, mit denen Schülerinnen und Schüler täglich in Berührung kommen – im Unterricht, in der Ausbildung, im privaten Leben. Gleichzeitig bleibt die grundsätzliche Funktionsweise dieser Systeme für die meisten Nutzenden ein Mysterium. Sie funktionieren, aber wie und warum? Diese Unklarheit führt häufig zu einer zwiespältigen Wahrnehmung: Einerseits werden diese Systeme mit großem Interesse genutzt, andererseits werden sie als undurchschaubare „Black Boxes" wahrgenommen, deren Komplexität sich dem Verständnis zu entziehen scheint.

Ein zentrales Ziel dieser Unterrichtskonzeption besteht darin, diese Wahrnehmung zu verändern. Die zentrale These lautet: **Die mathematischen Grundprinzipien, die hinter diesen hochmodernen Technologien stecken, sind überraschend zugänglich und bauen auf handwerklichem mathematischem Können auf – nämlich auf den Ableitungsregeln, die seit Jahren im Unterricht gelehrt werden.** Konkret ist es die Kettenregel aus der 11. Klasse, angewendet auf tausende oder Millionen von Parametern, die den Kern-Algorithmus aller modernen künstlichen Intelligenzsysteme darstellt.

Diese Einsicht hat unmittelbare Konsequenzen für Lernmotivation und Relevanzwahrnehmung. Wenn Schülerinnen und Schüler verstehen, dass sie mit dem Verständnis der lokalen Kettenregel einen direkten Zugang zu den mächtigsten Technologien ihrer Zeit erhalten, verschiebt sich ihre Wahrnehmung von Mathematik grundlegend. Sie wird nicht mehr als bloße Schulfachinhalt wahrgenommen, sondern als unmittelbar relevant für das Verständnis ihrer lebensweltlichen Realität. Genau diese Wahrnehmungsverschiebung ist es, die nach aktuellem Forschungsstand eine zentrale Voraussetzung für intrinsische Lernmotivation und tiefes konzeptuelles Verständnis darstellt.

Die folgende Konzeption skizziert ein 90-Minuten-Unterrichtsdesign für den Berufsbildungskontext, das diese Idee konkretisiert. Sie verfolgt dabei ein doppeltes Anliegen: Einerseits vermittelt sie zentrale mathematische und informatische Konzepte (Kettenregel, Gradient, Backpropagation), andererseits nutzt sie diese Vermittlung, um Schülerinnen und Schüler für die epistemologischen Grundlagen von Künstlicher Intelligenz zu sensibilisieren.

---

## 1. Lebensweltbezug und Lernmotivation – Theoretisches Fundament

Die Forschung der letzten zwei Jahrzehnte zum Thema Lernmotivation und Engagement hat eine klare Erkenntnis hervorgebracht: Der Zusammenhang zwischen lebensweltlichem Bezug und Lernmotivation ist kein Phänomen der Oberflächenmotivation, sondern tangiert grundlegende Prozesse des konzeptuellen Verständnisses. Dies ist besonders in den Naturwissenschaften und der Mathematik relevant, wo die Wahrnehmung von Relevanz für den Lernstoff oft unterentwickelt ist.

Viviane Viau (2009) hat in seinem Modell der Dynamik von Lernmotivation drei zentrale Faktoren identifiziert, die zusammenwirken müssen, damit Lernende sich für eine Aufgabe intrinsisch motivieren: erstens der wahrgenommene Aktivitätswert (also das Empfinden von Interesse und Nützlichkeit der Aufgabe), zweitens die empfundene Kontrollierbarkeit (das Gefühl, die Aufgabe eigenständig bewältigen zu können), und drittens die Kompetenzempfindung (das Selbstwirksamkeitserlebnis bei der Aufgabenbearbeitung). Eine zentrale empirische Befund aus Vhaus Forschung besagt, dass kontextreiche Probleme, insbesondere solche, bei denen Schülerinnen und Schüler Wahlmöglichkeiten bei der Problemgestaltung haben, zu signifikanten Zuwächsen in allen drei Faktoren führen. Nicht weniger als 78 Prozent der befragten Schülerinnen und Schüler berichten von erhöhter Lernmotivation, wenn mathematische Inhalte mit realen, relevanten Situationen verbunden sind.

Dahinter steckt ein tieferes Phänomen, das Lev Vygotsky und später Klaus Holzkamp in der Tätigkeitstheorie beschrieben haben: Lernprozesse gründen sich nicht auf Wissensvermittlung im abstrakten Sinne, sondern auf die tätige Aneignung von Bedeutungsstrukturen. Menschen konstruieren Wissen durch ihre Handlungen in der Welt und in Auseinandersetzung mit ihr. Die Bedeutung von mathematischen Konzepten erschließt sich daher nicht aus ihrer formalen Darstellung, sondern aus ihrer situierten Anwendung in Kontexten, die für die Lernenden eine erkennbare Relevanz haben. Wenn diese situierte Anwendung in lebensweltlichen Kontexten stattfindet – in Problemsituationen also, die Lernende als authentisch und bedeutsam wahrnehmen – dann haben sie die Möglichkeit zu dem, was Holzkamp als „expansives Lernen" bezeichnet: einem eigenständig motivierten Eindringen in die „Tiefenstruktur der Bedeutungszusammenhänge" eines Lerngegenstands, nicht bloß das Erfassen oberflächlicher Merkmale zur Bedrohungsabwehr.

Der zentrale Mechanismus besteht dabei in der Wahrnehmung von Nützlichkeit. Werden mathematische Konzepte als konkrete Werkzeuge zur Lösung von Problemen erlebbar, deren Relevanz Schülerinnen und Schüler selbst erkennen, verschiebt sich die emotionale Färbung des Lernens grundlegend. Aus „Ich muss das für die Schule/Ausbildung können" wird „Ich möchte verstehen, wie das funktioniert, weil es mein Verständnis der Welt verändert."

Genau diesem Ziel dient das folgende Unterrichtskonzept. Die Alltagstechnologie der Sprachmodelle wird zum Anlass genommen, fundamentale mathematische Konzepte (Kettenregel, Gradient, Optimierung) zu erschließen. Damit wird nicht nur ein Lernziel verfolgt, sondern eine doppelte Transformation: Das Verständnis von Mathematik wandelt sich von abstrakt zu konkret-anwendbar, und gleichzeitig wandelt sich die Wahrnehmung von KI von geheimnisvoll-unverständlich zu begreifbar-machbar.

---

## 2. Das einfachste neuronale Netz als Unterrichtsgegenstand

Bevor das volle Ausmaß moderner Sprachmodelle Gegenstand wird, ist es didaktisch sinnvoll, sich dem Konzept über ein extremes Minimalbeispiel zu nähern: das einfachste denkbare neuronale Netz, bestehend aus **einem Neuron**, das **zwei Parameter** hat. Ein solches System ist mathematisch vollkommen transparent und dennoch strukturell identisch mit den Grundbausteinen von GPT-4 und vergleichbaren Systemen.

Das einfachste Neuron ist mathematisch nichts anderes als eine lineare Funktion:

$$f_{\text{netz}}(x) = w \cdot x + b$$

Dabei ist $w$ (weight, Gewicht) ein Skalar, der die Steigung der Funktion bestimmt, und $b$ (bias) der y-Achsenabschnitt. Diese Funktion beschreibt eine Gerade in der Ebene. Das Ziel des Trainings besteht darin, die Parameter $w$ und $b$ so anzupassen, dass die Gerade eine Menge von Datenpunkten $(x_i, y_i)$ möglichst gut approximiert.

Dieses Szenario ist Schülerinnen und Schülern aus der Mathematik bekannt: Lineare Regression, Anpassung von Geraden an empirische Daten. Das gibt dem Unterrichtsgegenstand eine doppelte Verankerung – einerseits in bekanntem mathematischem Terrain, andererseits in einem Problem, das sich sofort als relevant anfühlt, sobald verstanden wird, dass es sich um den elementarsten Baustein von Sprachmodellen handelt.

Die Aufgabe besteht darin, die Parameter $w$ und $b$ so zu variieren, dass die durchschnittliche Abweichung zwischen den echten Datenpunkten und den Vorhersagen des Netzes minimal wird. Dies wird formalisiert durch eine **Verlustfunktion** (Loss Function), die den Fehler quantifiziert:

$$L(w, b) = \frac{1}{N} \sum_{i=1}^{N} (y_i - f_{\text{netz}}(x_i))^2 = \frac{1}{N} \sum_{i=1}^{N} (y_i - (w \cdot x_i + b))^2$$

Diese Formulierung ist nicht zufällig gewählt. Das Quadrieren des Fehlers ist mathematisch elegant (es straft sowohl positive als auch negative Abweichungen), und es ist eine Form, die Schülerinnen und Schüler aus der Statistik (Varianz, Standardabweichung) bereits kennen. Die Verlustfunktion ist daher verständlich als das „Maß der Unzufriedenheit" des Systems mit seinen aktuellen Parametern: Je größer $L$, desto schlechter passt die Gerade zu den Daten.

Das Kernproblem der Optimierung besteht nun darin: Wie können wir $w$ und $b$ schrittweise variieren, um $L$ zu minimieren? Dies führt direkt zum Konzept des **Gradienten**.

---

## 3. Der Gradient als zentrales Konzept

Der Gradient einer Funktion ist ein geometrisches und analytisches Konzept, das sich eng an die Ableitung anlehnt. In unserem Fall interessiert uns die Frage: Wie stark ändert sich der Fehler $L$, wenn ich den Parameter $w$ (oder $b$) um einen kleinen Betrag variiere?

Dies ist genau das, was die partielle Ableitung $\frac{\partial L}{\partial w}$ aussagt. Sie gibt an, die Sensitivität des Fehlers bezüglich des Parameters $w$ ist. Ein positiver Wert bedeutet: Wenn ich $w$ erhöhe, wächst der Fehler. Ein negativer Wert bedeutet: Wenn ich $w$ erhöhe, sinkt der Fehler. Der Betrag der Ableitung sagt aus, wie stark dieser Effekt ist.

Für unser System gibt die Kettenregel die Werkzeuge in die Hand, um diese Ableitungen systematisch zu berechnen. Dies ist der Ausgangspunkt für **Backpropagation**, das zentrale Trainingsverfahren für neuronale Netze. Der Begriff ist in gewisser Weise eine Bezeichnung dafür, dass die Kettenregel „rückwärts" durch die Funktionskomposition angewendet wird, um jeden Parameter zu sagen, wie sehr er zum Gesamtfehler beiträgt.

Um dies konkret zu machen, ist es hilfreich, die Berechnung der Verlustfunktion in eine Folge elementarer Schritte zu zerlegen. Graphisch lässt sich dies als **Berechnungsgraph** darstellen, wie er von den Materialien der Stanford CS231n-Vorlesung (Karpathy et al.) veranschaulicht wird. Jeder Knoten im Graphen repräsentiert eine elementare Operation oder Variable. Die Kanten zeigen die Abhängigkeiten zwischen ihnen. Ein solcher Graph könnte für unseren Fall etwa so aussehen:

- Der Parameter $w$ und die Eingabe $x$ werden multipliziert: $w \cdot x$
- Das Ergebnis wird mit dem Bias $b$ addiert: $(w \cdot x) + b = y_{\text{net}}$
- Von $y_{\text{net}}$ wird der echte Wert $y$ subtrahiert: $d = y - y_{\text{net}}$
- Dieser Differenzwert wird quadriert: $L = d^2$

Die Kettenregel besagt nun, dass die Ableitung einer verschachtelten Funktion berechnet wird, indem man die Ableitungen der einzelnen Schritte miteinander multipliziert (in umgekehrter Reihenfolge). So ergeben sich die Gradienten:

$$\frac{\partial L}{\partial d} = 2d$$

$$\frac{\partial d}{\partial y_{\text{net}}} = -1$$

$$\frac{\partial y_{\text{net}}}{\partial w} = x$$

$$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial d} \cdot \frac{\partial d}{\partial y_{\text{net}}} \cdot \frac{\partial y_{\text{net}}}{\partial w} = 2d \cdot (-1) \cdot x = -2x(y - y_{\text{net}})$$

Analog:

$$\frac{\partial L}{\partial b} = 2d \cdot (-1) \cdot 1 = -2(y - y_{\text{net}})$$

Hier offenbaren sich mehrere pädagogisch zentrale Momente. Erstens ist die Berechnung vollkommen transparent und regelbasiert – es sind keine Zaubereien im Spiel, sondern die systematische Anwendung bekannter Ableitungsregeln. Zweitens wird deutlich, dass jeder Parameter durch die Gradienten „erfährt", wie sehr er zum Fehler beiträgt. Ein großer Gradient bedeutet: Ein großer Einfluss. Drittens hat das negative Vorzeichen eine intuitive Bedeutung: Wenn der Gradient negativ ist, sollte man den Parameter in positiver Richtung ändern, um den Fehler zu reduzieren.

---

## 4. Vom Gradienten zur Optimierung – Gradient Descent

Sobald die Gradienten berechnet sind, ergibt sich die Optimierungsstrategie fast von selbst. Die Idee ist simpel: Gehe in die Richtung des steilsten Abstiegs. Konkret wird dies durch eine **Update-Regel** formalisiert:

$$w_{\text{neu}} = w_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial w}$$

$$b_{\text{neu}} = b_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial b}$$

Dabei ist $\eta$ (eta), die sogenannte **Lernrate**, ein Hyperparameter, der bestimmt, wie große die Schritte sein sollen. Eine hohe Lernrate führt zu schnelleren Änderungen, riskiert aber, über das Optimum hinauszuschießen. Eine zu niedrige Lernrate führt zu langsamen Fortschritt. Die Balance zu finden ist ein klassisches Problem in der Optimierung.

Dieser Prozess wird wiederholt über mehrere **Iterationen**. In jeder Iteration werden die Gradienten für alle Datenpunkte berechnet (oder für eine Stichprobe davon), und die Parameter werden aktualisiert. Nach ausreichend vielen Iterationen konvergiert das Verfahren zu einem lokalen Minimum der Verlustfunktion – das heißt, die Gerade passt immer besser zu den Datenpunkten.

Eine zentrale pädagogische Einsicht ist hierbei: Dies ist nicht mysteriös. Es ist ein iteratives Verfahren, das man vollständig verstehen kann, wenn man die Kettenregel versteht. Und dies ist genau der Algorithmus (in massiv skalierter Form), der GPT-4, DALL-E und alle modernen KI-Systeme trainiert. Der Unterschied besteht nicht in konzeptuellen Neuerungen, sondern in der Skalierung: Statt zwei Parametern haben diese Systeme Milliarden; statt einem einfachen linearen Netz verwenden sie komplexe, mehrschichtige Architekturen mit nichtlinearen Aktivierungsfunktionen. Aber der mathematische Kern bleibt identisch: Gradienten berechnen, Parameter aktualisieren, iterieren, bis Konvergenz.

---

## 5. Unterrichtsstruktur: Ein 90-Minuten-Design

Basierend auf diesen konzeptuellen Grundlagen lässt sich ein Unterrichtsdesign entwerfen, das sowohl fachlich tiefgreifend als auch didaktisch wirkungsvoll ist. Die folgende Gliederung dient als Orientierungsrahmen, wobei die konkrete Umsetzung an die spezifischen Voraussetzungen der Lerngruppe angepasst werden muss.

### 5.1 Einstiegsphase: Alltagserfahrung aktivieren (0–10 Minuten)

Die Unterrichtseinheit beginnt mit einer authentischen Aktivierungsphase: Schülerinnen und Schüler werden eingeladen, ihre Erfahrungen mit Sprachmodellen, Bildgeneratoren oder anderen KI-Systemen zu teilen. Vielleicht hat jemand ChatGPT bereits im Unterricht verwendet, um Texte zu generieren oder zu überprüfen. Vielleicht haben andere mit Midjourney Bilder erzeugt oder mit einem Sprachassistenten interagiert. Diese Erfahrungen sind wertvoll, weil sie die **lebensweltliche Vertrautheit** mit der Technologie sichtbar machen.

Im nächsten Schritt wird eine zentrale Frage gestellt: Wie funktioniert das eigentlich? Die meisten werden auf eine Antwort hinauslaufen wie „Das ist KI" oder „Das ist irgendwie Maschine Learning." Dies ist der perfekte Ausgangspunkt, um eine provokative These zu präsentieren: **„Das System, das ChatGPT trainiert, ist nicht hochkompliziert, sondern basiert auf Mathematik, die ihr bereits aus der 11. Klasse kennt: der Kettenregel."** Diese These wird in den kommenden 80 Minuten verständlich gemacht.

### 5.2 Mathematisches Fundament: Vom Neuron zur Verlustfunktion (10–35 Minuten)

Diese Phase widmet sich dem systematischen Aufbau der mathematischen Konzepte. Der Unterricht beginnt mit der Definition des einfachsten Neurons als linearer Funktion $f(x) = wx + b$. Dies wird visuell dargestellt – eine Gerade, die durch Datenpunkte gelegt werden soll. Die Gerade wird interaktiv bewegt, indem $w$ und $b$ variiert werden. Schülerinnen und Schüler können unmittelbar sehen, wie die Parameter die Form der Gerade bestimmen.

Dann wird die Frage gestellt: Wie messen wir, ob die Gerade gut passt? Dies führt zur Verlustfunktion $L = \frac{1}{N} \sum (y_i - (wx_i + b))^2$. Der Fehler ist ein Maß für die Qualität der Anpassung. Je kleiner der Fehler, desto besser die Gerade.

Der zentrale konzeptuelle Schritt besteht darin, diesen Fehler als Funktion der Parameter $w$ und $b$ zu verstehen: $L(w, b)$. Die Verlustfunktion ist keine mysteriöse Black Box, sondern eine völlig transparente mathematische Komposition bekannter Operationen (Multiplikation, Addition, Subtraktion, Quadrieren). Dies wird durch einen **Berechnungsgraph** visualisiert (wie sie die Stanford-Materialien zeigen), der die Abhängigkeiten zwischen den Größen explicit darstellt.

### 5.3 Die Kettenregel in Aktion: Gradienten berechnen (35–50 Minuten)

Jetzt wird die Kettenregel als zentrales Werkzeug eingeführt. Die Frage lautet: Wie stark ändert sich $L$, wenn ich $w$ um einen kleinen Betrag variiere? Die Antwort ist: $\frac{\partial L}{\partial w}$. Dies ist nicht abgeleitet aus magischen Prinzipien, sondern direkt aus der Kettenregel: Man multipliziert die Ableitungen aller Schritte in der Komposition.

Ein **konkretes Beispiel** wird durchgerechnet. Gegeben ein Datenpunkt $(x = 2, y = 5)$ und aktuelle Parameter $(w = 1, b = 0)$:

- $y_{\text{net}} = 1 \cdot 2 + 0 = 2$
- Fehler: $d = 5 - 2 = 3$
- Verlust: $L = 3^2 = 9$

Nun die Gradienten:

- $\frac{\partial L}{\partial d} = 2 \cdot 3 = 6$
- $\frac{\partial d}{\partial y_{\text{net}}} = -1$
- $\frac{\partial y_{\text{net}}}{\partial w} = 2$
- Also: $\frac{\partial L}{\partial w} = 6 \cdot (-1) \cdot 2 = -12$

Analog: $\frac{\partial L}{\partial b} = -6$

Dies wird mehrfach wiederholt – mit verschiedenen Datenpunkten, verschiedenen Parameterwerten – bis die Mechanik der Kettenregel internalisiert ist. Das Zentrale ist: Es gibt keine verborgene Komplexität hier. Es ist reine Regel-Anwendung.

### 5.4 Iterative Optimierung: Training erleben (50–70 Minuten)

Jetzt wird klar gemacht, wie diese Gradienten verwendet werden, um die Parameter zu verbessern. Die Update-Regel wird eingeführt: $w_{\text{neu}} = w_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial w}$. Mit einer Lernrate von etwa $\eta = 0.01$ wird mit dem obigen Beispiel eine Update-Schritt durchgeführt:

- $w_{\text{neu}} = 1 - 0.01 \cdot (-12) = 1 + 0.12 = 1.12$
- $b_{\text{neu}} = 0 - 0.01 \cdot (-6) = 0.06$

Der Effekt ist sofort sichtbar: Mit den neuen Parametern wird die Vorhersage für den Datenpunkt besser ($y_{\text{net}} = 1.12 \cdot 2 + 0.06 = 2.30$ statt $2$), und der Fehler sinkt.

Dieser Prozess wird mehrfach wiederholt – idealerweise mit mehreren Datenpunkten. Nach wenigen Iterationen wird sichtbar, dass die Gerade immer besser passt. Dies kann durch Live-Code-Demonstration mit einem **Google Colab-Notebook** veranschaulicht werden, in dem Schülerinnen und Schüler in Echtzeit sehen können, wie die Gerade sich anpasst und der Fehler sinkt. Dies ist der Moment, in dem das abstrakte Verfahren „real" wird: Das Trainieren funktioniert wirklich!

### 5.5 Transfer: Von einem Neuron zu Sprachmodellen (70–85 Minuten)

Nachdem die grundsätzliche Funktionsweise verstanden ist, wird der Blick vergrößert. Die zentrale Beobachtung: Das Prinzip skaliert. Statt eines Neurons mit zwei Parametern können es Milliarden von Neuronen mit Milliarden von Parametern sein. Die mathematische Grundstruktur bleibt dieselbe. Was sich ändert, ist nicht die Idee, sondern die Komplexität der Funktionszusammensetzung und die Rechenleistung, die nötig ist, um die Gradienten zu berechnen.

Dies wird zunächst mit einer **mehrschichtigen Architektur** illustriert. Der Begriff **Backpropagation** wird jetzt verständlich als die systematische Anwendung der Kettenregel durch mehrere Schichten hindurch. Der Gradient „fließt" rückwärts durch das Netz, von der Ausgabeschicht zur Eingabeschicht, und jedem Parameter wird mitgeteilt, wie sehr er zum Fehler beiträgt.

Mit dieser Erkenntnis wird es möglich, konkrete Beispiele zu nennen: **ChatGPT** hat etwa 175 Milliarden Parameter. Beim Training sieht es Milliarden von Textbeispielen, wendet diese exakt gleiche Gradient-Descent-Strategie an, und nach dieser Exposition passt es seine Parameter so an, dass seine Vorhersagen für die nächsten Wörter in einem Satz immer besser werden. **DALL-E** funktioniert nach dem gleichen Prinzip, nur dass die Eingaben und Ausgaben Bilder statt Text sind. **AlphaFold** (für Protein-Folding) trainiert dasselbe Verfahren auf biologische Strukturen an.

Dies ist der Kern-Insight: Die Technologien, die unsere Zeit prägen, funktionieren nach diesem universellen Prinzip. Es ist nicht, dass jedes System andere Mathematik hat. Sie alle verwenden Backpropagation, also die Kettenregel in ihrer skalierten Form.

### 5.6 Kritische Reflexion und Grenzen des Verständnisses (85–90 Minuten)

Die letzte Phase weicht bewusst von technischen Details ab und wendet sich kritischen und epistemischen Fragen zu. Es ist wichtig, dass Schülerinnen und Schüler verstehen, was sie **verstanden haben** und was nicht.

Was verstanden wurde:
- Wie neuronale Netze trainiert werden (das Verfahren)
- Warum Gradienten und Kettenregel zentral sind
- Dass dies skalierbar ist auf Millionen oder Milliarden Parameter

Was **nicht** verstanden wurde (und ehrlich benannt werden sollte):
- Warum dieses Verfahren so gut funktioniert, obwohl die Systeme so groß sind
- Wie Systeme zu „Halluzinationen" (falschen Informationen) kommen
- Wie man verhindert, dass Systeme voreingenommen sind
- Was genau die Parameter „bedeuten" oder „repräsentieren"

Diese Unterscheidung ist wichtig. Sie wahrt die epistemische Demut und zeigt, dass Verständnis keine totale Transparenz bedeutet, sondern die Fähigkeit, grundlegende Prinzipien zu erkennen und Grenzen zu akzeptieren. Dies führt zu vertiefenden Fragen, die die Unterrichtseinheit abschließen können: Könnte ein solches System lernen, korrekte von falschen Informationen zu unterscheiden? Wie sichern wir, dass diese Systeme ethisch verwendet werden? Was sind gesellschaftliche Implikationen dieser Technologie?

---

## 6. Forschungsbasierte Begründung: Lebensweltbezug und Motivation

Die vorliegende Unterrichtskonzeption stützt sich auf empirische Forschungsbefunde, die zeigen, dass lebensweltlicher Bezug – verstanden als Anknüpfung an Erfahrungen und Interessensgebiete der Schülerinnen und Schüler – eine Schlüsselvariable für Lernmotivation und konzeptuelles Verständnis ist.

Wie einleitend bereits dargelegt, identifiziert Viau drei zentrale Faktoren, die zusammenwirken müssen: die wahrgenommene Relevanz und das Interesse am Stoff, die Kontrollierbarkeit (das Gefühl, die Aufgabe selbst bewältigen zu können) und die Kompetenzempfindung. Eine zentrale empirische Befund lautet, dass Schülerinnen und Schüler, denen bei kontextreichen Problemen Wahlfreiheit gegeben wird (beispielsweise bei der Wahl von Datenbeispielen oder Themenschwerpunkten), größere Lernzuwächse erzielen als jene, denen alles vorgegeben ist. Dies hängt damit zusammen, dass die Wahlfreiheit die Kontrollierbarkeit erhöht und damit auch die emotionale Bindung zur Aufgabe verstärkt.

Barbara Boaler (2016) hat in ihrer Langzeitstudie zu projektbasiertem mathematischem Lernen gezeigt, dass Schülerinnen und Schüler, die mit echten, realweltlichen Daten und Problemen arbeiten, nicht nur bessere Problemlösungsfähigkeiten entwickeln, sondern auch eine grundlegend veränderte Einstellung zu Mathematik. Sie sehen sie nicht mehr als abgelöst von ihrer Lebenserfahrung, sondern als direktes Werkzeug zur Bearbeitung von Problemen, die ihnen wichtig sind.

Genau diesen Effekt nutzt die vorliegende Konzeption: Indem KI-Systeme zum Unterrichtsgegenstand werden – Technologien, die Schülerinnen und Schüler täglich nutzen und deren Funktionsweise sie verstehen möchten – wird eine authentische Motivationslage geschaffen. Dies ist nicht künstlich konstruiert (wie etwa: „Stelle dir vor, du lebensmittelverkäufer und musst eine Parabel berechnen"). Sondern es ist genuine Neugier und genuine Relevanzwahrnehmung.

Die tätigkeitstheoretische Perspektive von Holzkamp unterstreicht zudem, dass echtes konzeptuelles Lernen immer von konkreten Problemsituationen ausgeht, in denen Lernende mit ihren gewohnten Mitteln nicht weiterkomm und daher zur „Lernschleife" genötigt sind. Eine solche Situation liegt vor, wenn Schülerinnen und Schüler sich fragen: „Wie funktioniert das wirklich?" – bezogen auf eine Technologie, die ihnen vertraut ist, deren Funktionsweise aber rätselhaft bleibt. Die Unterrichtskonzeption schafft genau diese Situation.

Schließlich ist zu betonen, dass die Berufsbildung qua ihrer Fokussierung auf zukünftige Arbeitsfähigkeit einen besonderen Anspruch hat. In einer digitalisierten, von KI zunehmend durchdrungenen Berufswelt ist Verständnis von grundlegenden KI-Konzepten für viele Berufe relevant – nicht nur für IT-Fachleute. Ein Mechaniker, ein Elektroniker, ein Techniker wird zunehmend mit KI-basierten Optimierungssystemen, mit automatisierten Inspektionsverfahren, mit Predictive-Maintenance-Systemen arbeiten. Die Fähigkeit, die Grundprinzipien dieser Systeme zu verstehen, wird zum Bestandteil beruflicher Handlungskompetenz. Damit hat die Unterrichtskonzeption nicht bloß allgemeine Bildungsrelevanz, sondern auch direkten berufspädagogischen Sinn.

---

## 7. Fazit und Ausblick

Die Unterrichtskonzeption „Mathematik hinter KI" verfolgt die zentrale Idee, dass Verständnis von modernen Künstliche-Intelligenz-Systemen nicht auf Zauberei oder undurchschaubare Black Boxes hinauslaufen muss. Sondern es ist möglich, die mathematischen und konzeptuellen Grundprinzipien transparent zu machen und damit Schülerinnen und Schülern die Möglichkeit zu geben, diese Technologien als Werkzeuge zu verstehen, nicht bloß zu nutzen.

Der Schlüssel dazu liegt in der didaktischen Wahl eines minimalen Beispiels (das einfachste Neuron), durch das die zentralen Konzepte (Kettenregel, Gradient, Backpropagation, iterative Optimierung) verstanden werden können, ohne dabei in technischer Komplexität zu versinken. Dies wird ermöglicht durch die Anknüpfung an lebensweltliche Erfahrung (die alltägliche Nutzung von KI-Systemen) und authentische Lernmotivation (das genuine Interesse an dem Verständnis).

Die empirische Forschung zum Lebensweltbezug und zur Lernmotivation unterstützt nachdrücklich diesen Ansatz. Wenn es gelingt, mathematische Konzepte als Werkzeuge zur Bearbeitung authentisch relevanter Probleme erlebbar zu machen, dann verschieben sich sowohl das Verständnis als auch die Einstellung zum Lernstoff grundlegend.

Eine zukünftige Umsetzung könnte diese Konzeption auf verschiedene Weisen erweitern: durch die Integration von praktischen Coding-Aktivitäten im Google Colab Notebook, durch die Bearbeitung echte Datensätze aus beruflichen Kontexten, durch die Diskussion ethischer Implikationen von KI-Systemen, oder durch die Verbindung mit Fachunterricht (etwa Automatisierungstechnik, Qualitätssicherung oder Datenanalyse). Auch die Differenzierung für unterschiedliche Leistungsniveaus könnte weiterentwickelt werden – beispielsweise durch optionale Vertiefungen in nichtlineare Aktivierungsfunktionen, mehrschichtige Netze, oder die empirische Untersuchung von Hyperparameter-Effekten.

Das übergeordnete Ziel bleibt: Mathematik – und insbesondere ihre Anwendung in Optimierungsproblemen – als unmittelbar relevant für das Verständnis der Technologien zu zeigen, die unsere Zeit prägen. Dies ist nicht nur eine unterrichtliche, sondern auch eine bildungspolitische Aufgabe. Denn es geht um nicht weniger als darum, dass künftige Fachkräfte nicht passive Konsumenten von „Black-Box"-Systemen sind, sondern in der Lage sind, diese zu verstehen, kritisch zu reflektieren und verantwortungsvoll einzusetzen.