From 898134533895ddb0951672f4dcf0ed158df5a188 Mon Sep 17 00:00:00 2001 From: admin Date: Mon, 22 Dec 2025 18:38:45 +0000 Subject: [PATCH] Dateien nach "/" hochladen --- Artikel_KI_Mathematik_LernLehren.md | 210 ++++++++++++++++ Forschungsquellen_Lebensweltbezug.md | 226 +++++++++++++++++ Unterrichtskonzept_90min.md | 356 +++++++++++++++++++++++++++ 3 files changed, 792 insertions(+) create mode 100644 Artikel_KI_Mathematik_LernLehren.md create mode 100644 Forschungsquellen_Lebensweltbezug.md create mode 100644 Unterrichtskonzept_90min.md diff --git a/Artikel_KI_Mathematik_LernLehren.md b/Artikel_KI_Mathematik_LernLehren.md new file mode 100644 index 0000000..372b48e --- /dev/null +++ b/Artikel_KI_Mathematik_LernLehren.md @@ -0,0 +1,210 @@ +# Mathematik hinter künstlicher Intelligenz: Backpropagation als Unterrichtsgegenstand für die Berufsbildung + +## Wie die Kettenregel zum Kern von Sprachmodellen wird – Ein konzeptionelles Unterrichtsdesign mit Alltagsrelevanz + +--- + +## Einleitung + +ChatGPT, Bildgeneratoren und Sprachassistenten sind längst keine Phänomene von morgen mehr. Sie sind Alltagstechnologien, mit denen Schülerinnen und Schüler täglich in Berührung kommen – im Unterricht, in der Ausbildung, im privaten Leben. Gleichzeitig bleibt die grundsätzliche Funktionsweise dieser Systeme für die meisten Nutzenden ein Mysterium. Sie funktionieren, aber wie und warum? Diese Unklarheit führt häufig zu einer zwiespältigen Wahrnehmung: Einerseits werden diese Systeme mit großem Interesse genutzt, andererseits werden sie als undurchschaubare „Black Boxes" wahrgenommen, deren Komplexität sich dem Verständnis zu entziehen scheint. + +Ein zentrales Ziel dieser Unterrichtskonzeption besteht darin, diese Wahrnehmung zu verändern. Die zentrale These lautet: **Die mathematischen Grundprinzipien, die hinter diesen hochmodernen Technologien stecken, sind überraschend zugänglich und bauen auf handwerklichem mathematischem Können auf – nämlich auf den Ableitungsregeln, die seit Jahren im Unterricht gelehrt werden.** Konkret ist es die Kettenregel aus der 11. Klasse, angewendet auf tausende oder Millionen von Parametern, die den Kern-Algorithmus aller modernen künstlichen Intelligenzsysteme darstellt. + +Diese Einsicht hat unmittelbare Konsequenzen für Lernmotivation und Relevanzwahrnehmung. Wenn Schülerinnen und Schüler verstehen, dass sie mit dem Verständnis der lokalen Kettenregel einen direkten Zugang zu den mächtigsten Technologien ihrer Zeit erhalten, verschiebt sich ihre Wahrnehmung von Mathematik grundlegend. Sie wird nicht mehr als bloße Schulfachinhalt wahrgenommen, sondern als unmittelbar relevant für das Verständnis ihrer lebensweltlichen Realität. Genau diese Wahrnehmungsverschiebung ist es, die nach aktuellem Forschungsstand eine zentrale Voraussetzung für intrinsische Lernmotivation und tiefes konzeptuelles Verständnis darstellt. + +Die folgende Konzeption skizziert ein 90-Minuten-Unterrichtsdesign für den Berufsbildungskontext, das diese Idee konkretisiert. Sie verfolgt dabei ein doppeltes Anliegen: Einerseits vermittelt sie zentrale mathematische und informatische Konzepte (Kettenregel, Gradient, Backpropagation), andererseits nutzt sie diese Vermittlung, um Schülerinnen und Schüler für die epistemologischen Grundlagen von Künstlicher Intelligenz zu sensibilisieren. + +--- + +## 1. Lebensweltbezug und Lernmotivation – Theoretisches Fundament + +Die Forschung der letzten zwei Jahrzehnte zum Thema Lernmotivation und Engagement hat eine klare Erkenntnis hervorgebracht: Der Zusammenhang zwischen lebensweltlichem Bezug und Lernmotivation ist kein Phänomen der Oberflächenmotivation, sondern tangiert grundlegende Prozesse des konzeptuellen Verständnisses. Dies ist besonders in den Naturwissenschaften und der Mathematik relevant, wo die Wahrnehmung von Relevanz für den Lernstoff oft unterentwickelt ist. + +Viviane Viau (2009) hat in seinem Modell der Dynamik von Lernmotivation drei zentrale Faktoren identifiziert, die zusammenwirken müssen, damit Lernende sich für eine Aufgabe intrinsisch motivieren: erstens der wahrgenommene Aktivitätswert (also das Empfinden von Interesse und Nützlichkeit der Aufgabe), zweitens die empfundene Kontrollierbarkeit (das Gefühl, die Aufgabe eigenständig bewältigen zu können), und drittens die Kompetenzempfindung (das Selbstwirksamkeitserlebnis bei der Aufgabenbearbeitung). Eine zentrale empirische Befund aus Vhaus Forschung besagt, dass kontextreiche Probleme, insbesondere solche, bei denen Schülerinnen und Schüler Wahlmöglichkeiten bei der Problemgestaltung haben, zu signifikanten Zuwächsen in allen drei Faktoren führen. Nicht weniger als 78 Prozent der befragten Schülerinnen und Schüler berichten von erhöhter Lernmotivation, wenn mathematische Inhalte mit realen, relevanten Situationen verbunden sind. + +Dahinter steckt ein tieferes Phänomen, das Lev Vygotsky und später Klaus Holzkamp in der Tätigkeitstheorie beschrieben haben: Lernprozesse gründen sich nicht auf Wissensvermittlung im abstrakten Sinne, sondern auf die tätige Aneignung von Bedeutungsstrukturen. Menschen konstruieren Wissen durch ihre Handlungen in der Welt und in Auseinandersetzung mit ihr. Die Bedeutung von mathematischen Konzepten erschließt sich daher nicht aus ihrer formalen Darstellung, sondern aus ihrer situierten Anwendung in Kontexten, die für die Lernenden eine erkennbare Relevanz haben. Wenn diese situierte Anwendung in lebensweltlichen Kontexten stattfindet – in Problemsituationen also, die Lernende als authentisch und bedeutsam wahrnehmen – dann haben sie die Möglichkeit zu dem, was Holzkamp als „expansives Lernen" bezeichnet: einem eigenständig motivierten Eindringen in die „Tiefenstruktur der Bedeutungszusammenhänge" eines Lerngegenstands, nicht bloß das Erfassen oberflächlicher Merkmale zur Bedrohungsabwehr. + +Der zentrale Mechanismus besteht dabei in der Wahrnehmung von Nützlichkeit. Werden mathematische Konzepte als konkrete Werkzeuge zur Lösung von Problemen erlebbar, deren Relevanz Schülerinnen und Schüler selbst erkennen, verschiebt sich die emotionale Färbung des Lernens grundlegend. Aus „Ich muss das für die Schule/Ausbildung können" wird „Ich möchte verstehen, wie das funktioniert, weil es mein Verständnis der Welt verändert." + +Genau diesem Ziel dient das folgende Unterrichtskonzept. Die Alltagstechnologie der Sprachmodelle wird zum Anlass genommen, fundamentale mathematische Konzepte (Kettenregel, Gradient, Optimierung) zu erschließen. Damit wird nicht nur ein Lernziel verfolgt, sondern eine doppelte Transformation: Das Verständnis von Mathematik wandelt sich von abstrakt zu konkret-anwendbar, und gleichzeitig wandelt sich die Wahrnehmung von KI von geheimnisvoll-unverständlich zu begreifbar-machbar. + +--- + +## 2. Das einfachste neuronale Netz als Unterrichtsgegenstand + +Bevor das volle Ausmaß moderner Sprachmodelle Gegenstand wird, ist es didaktisch sinnvoll, sich dem Konzept über ein extremes Minimalbeispiel zu nähern: das einfachste denkbare neuronale Netz, bestehend aus **einem Neuron**, das **zwei Parameter** hat. Ein solches System ist mathematisch vollkommen transparent und dennoch strukturell identisch mit den Grundbausteinen von GPT-4 und vergleichbaren Systemen. + +Das einfachste Neuron ist mathematisch nichts anderes als eine lineare Funktion: + +$$f_{\text{netz}}(x) = w \cdot x + b$$ + +Dabei ist $w$ (weight, Gewicht) ein Skalar, der die Steigung der Funktion bestimmt, und $b$ (bias) der y-Achsenabschnitt. Diese Funktion beschreibt eine Gerade in der Ebene. Das Ziel des Trainings besteht darin, die Parameter $w$ und $b$ so anzupassen, dass die Gerade eine Menge von Datenpunkten $(x_i, y_i)$ möglichst gut approximiert. + +Dieses Szenario ist Schülerinnen und Schülern aus der Mathematik bekannt: Lineare Regression, Anpassung von Geraden an empirische Daten. Das gibt dem Unterrichtsgegenstand eine doppelte Verankerung – einerseits in bekanntem mathematischem Terrain, andererseits in einem Problem, das sich sofort als relevant anfühlt, sobald verstanden wird, dass es sich um den elementarsten Baustein von Sprachmodellen handelt. + +Die Aufgabe besteht darin, die Parameter $w$ und $b$ so zu variieren, dass die durchschnittliche Abweichung zwischen den echten Datenpunkten und den Vorhersagen des Netzes minimal wird. Dies wird formalisiert durch eine **Verlustfunktion** (Loss Function), die den Fehler quantifiziert: + +$$L(w, b) = \frac{1}{N} \sum_{i=1}^{N} (y_i - f_{\text{netz}}(x_i))^2 = \frac{1}{N} \sum_{i=1}^{N} (y_i - (w \cdot x_i + b))^2$$ + +Diese Formulierung ist nicht zufällig gewählt. Das Quadrieren des Fehlers ist mathematisch elegant (es straft sowohl positive als auch negative Abweichungen), und es ist eine Form, die Schülerinnen und Schüler aus der Statistik (Varianz, Standardabweichung) bereits kennen. Die Verlustfunktion ist daher verständlich als das „Maß der Unzufriedenheit" des Systems mit seinen aktuellen Parametern: Je größer $L$, desto schlechter passt die Gerade zu den Daten. + +Das Kernproblem der Optimierung besteht nun darin: Wie können wir $w$ und $b$ schrittweise variieren, um $L$ zu minimieren? Dies führt direkt zum Konzept des **Gradienten**. + +--- + +## 3. Der Gradient als zentrales Konzept + +Der Gradient einer Funktion ist ein geometrisches und analytisches Konzept, das sich eng an die Ableitung anlehnt. In unserem Fall interessiert uns die Frage: Wie stark ändert sich der Fehler $L$, wenn ich den Parameter $w$ (oder $b$) um einen kleinen Betrag variiere? + +Dies ist genau das, was die partielle Ableitung $\frac{\partial L}{\partial w}$ aussagt. Sie gibt an, die Sensitivität des Fehlers bezüglich des Parameters $w$ ist. Ein positiver Wert bedeutet: Wenn ich $w$ erhöhe, wächst der Fehler. Ein negativer Wert bedeutet: Wenn ich $w$ erhöhe, sinkt der Fehler. Der Betrag der Ableitung sagt aus, wie stark dieser Effekt ist. + +Für unser System gibt die Kettenregel die Werkzeuge in die Hand, um diese Ableitungen systematisch zu berechnen. Dies ist der Ausgangspunkt für **Backpropagation**, das zentrale Trainingsverfahren für neuronale Netze. Der Begriff ist in gewisser Weise eine Bezeichnung dafür, dass die Kettenregel „rückwärts" durch die Funktionskomposition angewendet wird, um jeden Parameter zu sagen, wie sehr er zum Gesamtfehler beiträgt. + +Um dies konkret zu machen, ist es hilfreich, die Berechnung der Verlustfunktion in eine Folge elementarer Schritte zu zerlegen. Graphisch lässt sich dies als **Berechnungsgraph** darstellen, wie er von den Materialien der Stanford CS231n-Vorlesung (Karpathy et al.) veranschaulicht wird. Jeder Knoten im Graphen repräsentiert eine elementare Operation oder Variable. Die Kanten zeigen die Abhängigkeiten zwischen ihnen. Ein solcher Graph könnte für unseren Fall etwa so aussehen: + +- Der Parameter $w$ und die Eingabe $x$ werden multipliziert: $w \cdot x$ +- Das Ergebnis wird mit dem Bias $b$ addiert: $(w \cdot x) + b = y_{\text{net}}$ +- Von $y_{\text{net}}$ wird der echte Wert $y$ subtrahiert: $d = y - y_{\text{net}}$ +- Dieser Differenzwert wird quadriert: $L = d^2$ + +Die Kettenregel besagt nun, dass die Ableitung einer verschachtelten Funktion berechnet wird, indem man die Ableitungen der einzelnen Schritte miteinander multipliziert (in umgekehrter Reihenfolge). So ergeben sich die Gradienten: + +$$\frac{\partial L}{\partial d} = 2d$$ + +$$\frac{\partial d}{\partial y_{\text{net}}} = -1$$ + +$$\frac{\partial y_{\text{net}}}{\partial w} = x$$ + +$$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial d} \cdot \frac{\partial d}{\partial y_{\text{net}}} \cdot \frac{\partial y_{\text{net}}}{\partial w} = 2d \cdot (-1) \cdot x = -2x(y - y_{\text{net}})$$ + +Analog: + +$$\frac{\partial L}{\partial b} = 2d \cdot (-1) \cdot 1 = -2(y - y_{\text{net}})$$ + +Hier offenbaren sich mehrere pädagogisch zentrale Momente. Erstens ist die Berechnung vollkommen transparent und regelbasiert – es sind keine Zaubereien im Spiel, sondern die systematische Anwendung bekannter Ableitungsregeln. Zweitens wird deutlich, dass jeder Parameter durch die Gradienten „erfährt", wie sehr er zum Fehler beiträgt. Ein großer Gradient bedeutet: Ein großer Einfluss. Drittens hat das negative Vorzeichen eine intuitive Bedeutung: Wenn der Gradient negativ ist, sollte man den Parameter in positiver Richtung ändern, um den Fehler zu reduzieren. + +--- + +## 4. Vom Gradienten zur Optimierung – Gradient Descent + +Sobald die Gradienten berechnet sind, ergibt sich die Optimierungsstrategie fast von selbst. Die Idee ist simpel: Gehe in die Richtung des steilsten Abstiegs. Konkret wird dies durch eine **Update-Regel** formalisiert: + +$$w_{\text{neu}} = w_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial w}$$ + +$$b_{\text{neu}} = b_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial b}$$ + +Dabei ist $\eta$ (eta), die sogenannte **Lernrate**, ein Hyperparameter, der bestimmt, wie große die Schritte sein sollen. Eine hohe Lernrate führt zu schnelleren Änderungen, riskiert aber, über das Optimum hinauszuschießen. Eine zu niedrige Lernrate führt zu langsamen Fortschritt. Die Balance zu finden ist ein klassisches Problem in der Optimierung. + +Dieser Prozess wird wiederholt über mehrere **Iterationen**. In jeder Iteration werden die Gradienten für alle Datenpunkte berechnet (oder für eine Stichprobe davon), und die Parameter werden aktualisiert. Nach ausreichend vielen Iterationen konvergiert das Verfahren zu einem lokalen Minimum der Verlustfunktion – das heißt, die Gerade passt immer besser zu den Datenpunkten. + +Eine zentrale pädagogische Einsicht ist hierbei: Dies ist nicht mysteriös. Es ist ein iteratives Verfahren, das man vollständig verstehen kann, wenn man die Kettenregel versteht. Und dies ist genau der Algorithmus (in massiv skalierter Form), der GPT-4, DALL-E und alle modernen KI-Systeme trainiert. Der Unterschied besteht nicht in konzeptuellen Neuerungen, sondern in der Skalierung: Statt zwei Parametern haben diese Systeme Milliarden; statt einem einfachen linearen Netz verwenden sie komplexe, mehrschichtige Architekturen mit nichtlinearen Aktivierungsfunktionen. Aber der mathematische Kern bleibt identisch: Gradienten berechnen, Parameter aktualisieren, iterieren, bis Konvergenz. + +--- + +## 5. Unterrichtsstruktur: Ein 90-Minuten-Design + +Basierend auf diesen konzeptuellen Grundlagen lässt sich ein Unterrichtsdesign entwerfen, das sowohl fachlich tiefgreifend als auch didaktisch wirkungsvoll ist. Die folgende Gliederung dient als Orientierungsrahmen, wobei die konkrete Umsetzung an die spezifischen Voraussetzungen der Lerngruppe angepasst werden muss. + +### 5.1 Einstiegsphase: Alltagserfahrung aktivieren (0–10 Minuten) + +Die Unterrichtseinheit beginnt mit einer authentischen Aktivierungsphase: Schülerinnen und Schüler werden eingeladen, ihre Erfahrungen mit Sprachmodellen, Bildgeneratoren oder anderen KI-Systemen zu teilen. Vielleicht hat jemand ChatGPT bereits im Unterricht verwendet, um Texte zu generieren oder zu überprüfen. Vielleicht haben andere mit Midjourney Bilder erzeugt oder mit einem Sprachassistenten interagiert. Diese Erfahrungen sind wertvoll, weil sie die **lebensweltliche Vertrautheit** mit der Technologie sichtbar machen. + +Im nächsten Schritt wird eine zentrale Frage gestellt: Wie funktioniert das eigentlich? Die meisten werden auf eine Antwort hinauslaufen wie „Das ist KI" oder „Das ist irgendwie Maschine Learning." Dies ist der perfekte Ausgangspunkt, um eine provokative These zu präsentieren: **„Das System, das ChatGPT trainiert, ist nicht hochkompliziert, sondern basiert auf Mathematik, die ihr bereits aus der 11. Klasse kennt: der Kettenregel."** Diese These wird in den kommenden 80 Minuten verständlich gemacht. + +### 5.2 Mathematisches Fundament: Vom Neuron zur Verlustfunktion (10–35 Minuten) + +Diese Phase widmet sich dem systematischen Aufbau der mathematischen Konzepte. Der Unterricht beginnt mit der Definition des einfachsten Neurons als linearer Funktion $f(x) = wx + b$. Dies wird visuell dargestellt – eine Gerade, die durch Datenpunkte gelegt werden soll. Die Gerade wird interaktiv bewegt, indem $w$ und $b$ variiert werden. Schülerinnen und Schüler können unmittelbar sehen, wie die Parameter die Form der Gerade bestimmen. + +Dann wird die Frage gestellt: Wie messen wir, ob die Gerade gut passt? Dies führt zur Verlustfunktion $L = \frac{1}{N} \sum (y_i - (wx_i + b))^2$. Der Fehler ist ein Maß für die Qualität der Anpassung. Je kleiner der Fehler, desto besser die Gerade. + +Der zentrale konzeptuelle Schritt besteht darin, diesen Fehler als Funktion der Parameter $w$ und $b$ zu verstehen: $L(w, b)$. Die Verlustfunktion ist keine mysteriöse Black Box, sondern eine völlig transparente mathematische Komposition bekannter Operationen (Multiplikation, Addition, Subtraktion, Quadrieren). Dies wird durch einen **Berechnungsgraph** visualisiert (wie sie die Stanford-Materialien zeigen), der die Abhängigkeiten zwischen den Größen explicit darstellt. + +### 5.3 Die Kettenregel in Aktion: Gradienten berechnen (35–50 Minuten) + +Jetzt wird die Kettenregel als zentrales Werkzeug eingeführt. Die Frage lautet: Wie stark ändert sich $L$, wenn ich $w$ um einen kleinen Betrag variiere? Die Antwort ist: $\frac{\partial L}{\partial w}$. Dies ist nicht abgeleitet aus magischen Prinzipien, sondern direkt aus der Kettenregel: Man multipliziert die Ableitungen aller Schritte in der Komposition. + +Ein **konkretes Beispiel** wird durchgerechnet. Gegeben ein Datenpunkt $(x = 2, y = 5)$ und aktuelle Parameter $(w = 1, b = 0)$: + +- $y_{\text{net}} = 1 \cdot 2 + 0 = 2$ +- Fehler: $d = 5 - 2 = 3$ +- Verlust: $L = 3^2 = 9$ + +Nun die Gradienten: + +- $\frac{\partial L}{\partial d} = 2 \cdot 3 = 6$ +- $\frac{\partial d}{\partial y_{\text{net}}} = -1$ +- $\frac{\partial y_{\text{net}}}{\partial w} = 2$ +- Also: $\frac{\partial L}{\partial w} = 6 \cdot (-1) \cdot 2 = -12$ + +Analog: $\frac{\partial L}{\partial b} = -6$ + +Dies wird mehrfach wiederholt – mit verschiedenen Datenpunkten, verschiedenen Parameterwerten – bis die Mechanik der Kettenregel internalisiert ist. Das Zentrale ist: Es gibt keine verborgene Komplexität hier. Es ist reine Regel-Anwendung. + +### 5.4 Iterative Optimierung: Training erleben (50–70 Minuten) + +Jetzt wird klar gemacht, wie diese Gradienten verwendet werden, um die Parameter zu verbessern. Die Update-Regel wird eingeführt: $w_{\text{neu}} = w_{\text{alt}} - \eta \cdot \frac{\partial L}{\partial w}$. Mit einer Lernrate von etwa $\eta = 0.01$ wird mit dem obigen Beispiel eine Update-Schritt durchgeführt: + +- $w_{\text{neu}} = 1 - 0.01 \cdot (-12) = 1 + 0.12 = 1.12$ +- $b_{\text{neu}} = 0 - 0.01 \cdot (-6) = 0.06$ + +Der Effekt ist sofort sichtbar: Mit den neuen Parametern wird die Vorhersage für den Datenpunkt besser ($y_{\text{net}} = 1.12 \cdot 2 + 0.06 = 2.30$ statt $2$), und der Fehler sinkt. + +Dieser Prozess wird mehrfach wiederholt – idealerweise mit mehreren Datenpunkten. Nach wenigen Iterationen wird sichtbar, dass die Gerade immer besser passt. Dies kann durch Live-Code-Demonstration mit einem **Google Colab-Notebook** veranschaulicht werden, in dem Schülerinnen und Schüler in Echtzeit sehen können, wie die Gerade sich anpasst und der Fehler sinkt. Dies ist der Moment, in dem das abstrakte Verfahren „real" wird: Das Trainieren funktioniert wirklich! + +### 5.5 Transfer: Von einem Neuron zu Sprachmodellen (70–85 Minuten) + +Nachdem die grundsätzliche Funktionsweise verstanden ist, wird der Blick vergrößert. Die zentrale Beobachtung: Das Prinzip skaliert. Statt eines Neurons mit zwei Parametern können es Milliarden von Neuronen mit Milliarden von Parametern sein. Die mathematische Grundstruktur bleibt dieselbe. Was sich ändert, ist nicht die Idee, sondern die Komplexität der Funktionszusammensetzung und die Rechenleistung, die nötig ist, um die Gradienten zu berechnen. + +Dies wird zunächst mit einer **mehrschichtigen Architektur** illustriert. Der Begriff **Backpropagation** wird jetzt verständlich als die systematische Anwendung der Kettenregel durch mehrere Schichten hindurch. Der Gradient „fließt" rückwärts durch das Netz, von der Ausgabeschicht zur Eingabeschicht, und jedem Parameter wird mitgeteilt, wie sehr er zum Fehler beiträgt. + +Mit dieser Erkenntnis wird es möglich, konkrete Beispiele zu nennen: **ChatGPT** hat etwa 175 Milliarden Parameter. Beim Training sieht es Milliarden von Textbeispielen, wendet diese exakt gleiche Gradient-Descent-Strategie an, und nach dieser Exposition passt es seine Parameter so an, dass seine Vorhersagen für die nächsten Wörter in einem Satz immer besser werden. **DALL-E** funktioniert nach dem gleichen Prinzip, nur dass die Eingaben und Ausgaben Bilder statt Text sind. **AlphaFold** (für Protein-Folding) trainiert dasselbe Verfahren auf biologische Strukturen an. + +Dies ist der Kern-Insight: Die Technologien, die unsere Zeit prägen, funktionieren nach diesem universellen Prinzip. Es ist nicht, dass jedes System andere Mathematik hat. Sie alle verwenden Backpropagation, also die Kettenregel in ihrer skalierten Form. + +### 5.6 Kritische Reflexion und Grenzen des Verständnisses (85–90 Minuten) + +Die letzte Phase weicht bewusst von technischen Details ab und wendet sich kritischen und epistemischen Fragen zu. Es ist wichtig, dass Schülerinnen und Schüler verstehen, was sie **verstanden haben** und was nicht. + +Was verstanden wurde: +- Wie neuronale Netze trainiert werden (das Verfahren) +- Warum Gradienten und Kettenregel zentral sind +- Dass dies skalierbar ist auf Millionen oder Milliarden Parameter + +Was **nicht** verstanden wurde (und ehrlich benannt werden sollte): +- Warum dieses Verfahren so gut funktioniert, obwohl die Systeme so groß sind +- Wie Systeme zu „Halluzinationen" (falschen Informationen) kommen +- Wie man verhindert, dass Systeme voreingenommen sind +- Was genau die Parameter „bedeuten" oder „repräsentieren" + +Diese Unterscheidung ist wichtig. Sie wahrt die epistemische Demut und zeigt, dass Verständnis keine totale Transparenz bedeutet, sondern die Fähigkeit, grundlegende Prinzipien zu erkennen und Grenzen zu akzeptieren. Dies führt zu vertiefenden Fragen, die die Unterrichtseinheit abschließen können: Könnte ein solches System lernen, korrekte von falschen Informationen zu unterscheiden? Wie sichern wir, dass diese Systeme ethisch verwendet werden? Was sind gesellschaftliche Implikationen dieser Technologie? + +--- + +## 6. Forschungsbasierte Begründung: Lebensweltbezug und Motivation + +Die vorliegende Unterrichtskonzeption stützt sich auf empirische Forschungsbefunde, die zeigen, dass lebensweltlicher Bezug – verstanden als Anknüpfung an Erfahrungen und Interessensgebiete der Schülerinnen und Schüler – eine Schlüsselvariable für Lernmotivation und konzeptuelles Verständnis ist. + +Wie einleitend bereits dargelegt, identifiziert Viau drei zentrale Faktoren, die zusammenwirken müssen: die wahrgenommene Relevanz und das Interesse am Stoff, die Kontrollierbarkeit (das Gefühl, die Aufgabe selbst bewältigen zu können) und die Kompetenzempfindung. Eine zentrale empirische Befund lautet, dass Schülerinnen und Schüler, denen bei kontextreichen Problemen Wahlfreiheit gegeben wird (beispielsweise bei der Wahl von Datenbeispielen oder Themenschwerpunkten), größere Lernzuwächse erzielen als jene, denen alles vorgegeben ist. Dies hängt damit zusammen, dass die Wahlfreiheit die Kontrollierbarkeit erhöht und damit auch die emotionale Bindung zur Aufgabe verstärkt. + +Barbara Boaler (2016) hat in ihrer Langzeitstudie zu projektbasiertem mathematischem Lernen gezeigt, dass Schülerinnen und Schüler, die mit echten, realweltlichen Daten und Problemen arbeiten, nicht nur bessere Problemlösungsfähigkeiten entwickeln, sondern auch eine grundlegend veränderte Einstellung zu Mathematik. Sie sehen sie nicht mehr als abgelöst von ihrer Lebenserfahrung, sondern als direktes Werkzeug zur Bearbeitung von Problemen, die ihnen wichtig sind. + +Genau diesen Effekt nutzt die vorliegende Konzeption: Indem KI-Systeme zum Unterrichtsgegenstand werden – Technologien, die Schülerinnen und Schüler täglich nutzen und deren Funktionsweise sie verstehen möchten – wird eine authentische Motivationslage geschaffen. Dies ist nicht künstlich konstruiert (wie etwa: „Stelle dir vor, du lebensmittelverkäufer und musst eine Parabel berechnen"). Sondern es ist genuine Neugier und genuine Relevanzwahrnehmung. + +Die tätigkeitstheoretische Perspektive von Holzkamp unterstreicht zudem, dass echtes konzeptuelles Lernen immer von konkreten Problemsituationen ausgeht, in denen Lernende mit ihren gewohnten Mitteln nicht weiterkomm und daher zur „Lernschleife" genötigt sind. Eine solche Situation liegt vor, wenn Schülerinnen und Schüler sich fragen: „Wie funktioniert das wirklich?" – bezogen auf eine Technologie, die ihnen vertraut ist, deren Funktionsweise aber rätselhaft bleibt. Die Unterrichtskonzeption schafft genau diese Situation. + +Schließlich ist zu betonen, dass die Berufsbildung qua ihrer Fokussierung auf zukünftige Arbeitsfähigkeit einen besonderen Anspruch hat. In einer digitalisierten, von KI zunehmend durchdrungenen Berufswelt ist Verständnis von grundlegenden KI-Konzepten für viele Berufe relevant – nicht nur für IT-Fachleute. Ein Mechaniker, ein Elektroniker, ein Techniker wird zunehmend mit KI-basierten Optimierungssystemen, mit automatisierten Inspektionsverfahren, mit Predictive-Maintenance-Systemen arbeiten. Die Fähigkeit, die Grundprinzipien dieser Systeme zu verstehen, wird zum Bestandteil beruflicher Handlungskompetenz. Damit hat die Unterrichtskonzeption nicht bloß allgemeine Bildungsrelevanz, sondern auch direkten berufspädagogischen Sinn. + +--- + +## 7. Fazit und Ausblick + +Die Unterrichtskonzeption „Mathematik hinter KI" verfolgt die zentrale Idee, dass Verständnis von modernen Künstliche-Intelligenz-Systemen nicht auf Zauberei oder undurchschaubare Black Boxes hinauslaufen muss. Sondern es ist möglich, die mathematischen und konzeptuellen Grundprinzipien transparent zu machen und damit Schülerinnen und Schülern die Möglichkeit zu geben, diese Technologien als Werkzeuge zu verstehen, nicht bloß zu nutzen. + +Der Schlüssel dazu liegt in der didaktischen Wahl eines minimalen Beispiels (das einfachste Neuron), durch das die zentralen Konzepte (Kettenregel, Gradient, Backpropagation, iterative Optimierung) verstanden werden können, ohne dabei in technischer Komplexität zu versinken. Dies wird ermöglicht durch die Anknüpfung an lebensweltliche Erfahrung (die alltägliche Nutzung von KI-Systemen) und authentische Lernmotivation (das genuine Interesse an dem Verständnis). + +Die empirische Forschung zum Lebensweltbezug und zur Lernmotivation unterstützt nachdrücklich diesen Ansatz. Wenn es gelingt, mathematische Konzepte als Werkzeuge zur Bearbeitung authentisch relevanter Probleme erlebbar zu machen, dann verschieben sich sowohl das Verständnis als auch die Einstellung zum Lernstoff grundlegend. + +Eine zukünftige Umsetzung könnte diese Konzeption auf verschiedene Weisen erweitern: durch die Integration von praktischen Coding-Aktivitäten im Google Colab Notebook, durch die Bearbeitung echte Datensätze aus beruflichen Kontexten, durch die Diskussion ethischer Implikationen von KI-Systemen, oder durch die Verbindung mit Fachunterricht (etwa Automatisierungstechnik, Qualitätssicherung oder Datenanalyse). Auch die Differenzierung für unterschiedliche Leistungsniveaus könnte weiterentwickelt werden – beispielsweise durch optionale Vertiefungen in nichtlineare Aktivierungsfunktionen, mehrschichtige Netze, oder die empirische Untersuchung von Hyperparameter-Effekten. + +Das übergeordnete Ziel bleibt: Mathematik – und insbesondere ihre Anwendung in Optimierungsproblemen – als unmittelbar relevant für das Verständnis der Technologien zu zeigen, die unsere Zeit prägen. Dies ist nicht nur eine unterrichtliche, sondern auch eine bildungspolitische Aufgabe. Denn es geht um nicht weniger als darum, dass künftige Fachkräfte nicht passive Konsumenten von „Black-Box"-Systemen sind, sondern in der Lage sind, diese zu verstehen, kritisch zu reflektieren und verantwortungsvoll einzusetzen. + diff --git a/Forschungsquellen_Lebensweltbezug.md b/Forschungsquellen_Lebensweltbezug.md new file mode 100644 index 0000000..5bebf15 --- /dev/null +++ b/Forschungsquellen_Lebensweltbezug.md @@ -0,0 +1,226 @@ +# Forschungsquellen: Lebensweltbezug als Schlüsselfaktor für Lernmotivation und Akzeptanz + +--- + +## Zusammenfassung der Forschungsevidenz + +### 1. Empirische Effekte von Lebensweltbezug + +**Motivationszuwachs** +- 78% der Schüler berichten erhöhte Lernmotivation, wenn mathematische Inhalte mit realen Situationen verbunden sind (NMSI 2018) +- Kontextreiche Probleme führen zu signifikanten Zuwächsen in konzeptuellem Verständnis und Problem-Solving-Fähigkeiten (Boaler 2016, Duval & Pagé 2013) + +**Lernzuwachs** +- Schüler, die reale Anwendungen bearbeiten, zeigen bessere Retention mathematischer Konzepte (NCTM Studien) +- Lernende, denen die Themenwahl bei kontextreichen Problemen bleibt, erzielen größere Lernzuwächse als jene mit vorgegebenen Themen (Viau 2009) +- Der Effekt wird mediiert durch zwei Faktoren: **Kompetenzempfindung** (besonders wichtig bei Lehrvorgabe) und **Interesse** (besonders wichtig bei Schülerwahl) + +**Lernansätze** +- Schüler mit Lebensweltbezug wechseln nachweislich von **Oberflächenlernansätzen** zu **tiefem Lernen** (Ryan & Deci 2000) +- Intrinsische Motivation führt zu besserer Exploration und Verknüpfung von Konzepten statt Auswendiglernen + +--- + +## 2. Theoretische Fundierung + +### 2.1 Motivationsmodell nach Viau (2009) + +Das Modell motivationaler Dynamik identifiziert drei Schlüsselfaktoren: + +| Faktor | Definition | Rolle bei Lebensweltbezug | +|--------|-----------|--------------------------| +| **Aktivitätswert** | Wahrnehmung von Interesse und Nützlichkeit | Kontextualisierung erhöht beides deutlich | +| **Kontrollierbarkeit** | Autonomie und Einflussnahme auf die Aufgabe | Wahlmöglichkeiten verstärken Motivation | +| **Kompetenzempfindung** | Selbstwirksamkeitserlebnis bei der Aufgabenbearbeitung | Authentische Aufgaben ermöglichen echtes Können | + +**Befund**: Alle drei Faktoren werden durch Lebensweltbezug signifikant erhöht, mit besonders starkem Effekt auf Interesse und Kompetenzempfindung. + +### 2.2 Situated Learning nach Lave & Wenger (1991) + +Kernprinzip: **Wissen wird in den Kontexten konstruiert, in denen es angewendet wird** + +- Lernen ist nicht Wissenserwerb, sondern **Teilhabe in Gemeinschaften der Praxis** +- Authentische Aufgaben ermöglichen **Transfer** auf echte Problemsituationen +- Decontextualisiertes Wissen wird weniger angewendet und schneller vergessen + +*Anwendung auf Mathematik im digitalen Kontext:* +- KI-Systeme sind nicht abstrakt, sondern alltägliche Werkzeuge +- Verständnis von Backpropagation erhält Relevanz durch Anwendung auf bekannte Technologien + +### 2.3 Konstruktivistische Lerntheorie – Vygotsky & Holzkamp + +**Kernthesen**: +1. **Zone of Proximal Development (ZPD)**: Individuen lernen besser, wenn die Anforderung an bekannte Situationen anknüpft (Vygotsky 1978) +2. **Tätigkeitstheorie**: Lernprozesse basieren auf **tätigen Aneignungserfahrungen**; lebensweltliche Bewältigungsstrategien sind Ausgangspunkt formaler Bildung (Holzkamp 1985, Leontjew) +3. **Bedeutungsstrukturen**: Die gleichen Konzepte können in lebensweltlichen und formalen Kontexten erworben werden, wenn didaktisch eine Brücke geschaffen wird + +*Praktische Implikation:* +- Schüler *kennen* ChatGPT und seine Nutzung (lebensweltlich) +- Die mathematische Kettenregel ist ihnen bekannt (formal) +- Die **didaktische Vermittlung** zeigt, dass die Kettenregel der Kern-Algorithmus ist, der KI trainiert + +--- + +## 3. Mechanismen: Warum Lebensweltbezug wirksam ist + +### 3.1 Emotionale Aktivation (Viau 2009) + +Kontextualisierung führt zu: +- **Erhöhtem Interesse** durch Relevanzwahrnehmung +- **Stärkerer Kompetenzempfindung** durch authentische Aufgaben, bei denen echtes Können sichtbar wird +- **Tieferem Engagement** durch emotionale Involviertheit + +**Befund**: Besonders wenn Schüler Wahlmöglichkeiten bei der Problemwahl haben, wird das affektive System stärker aktiviert, was zum besseren Lernen führt. + +### 3.2 Motivationale Brücke nach Holzkamp + +Lebensweltorientierung überwindet das klassische Dilemma zwischen: +- **Anforderungen der Gesellschaft** (formale Bildungsziele) +- **Lebenserfahrungen der Lernenden** (individuelle Voraussetzungen) + +Eine **"Übersetzungsleistung"** (didaktische Vermittlung) verbindet: +- Das, was Schüler bereits aus ihrer Lebenswelt wissen (KI nutzen) +- Mit formalen Anforderungen (Mathematik verstehen) + +--- + +## 4. Spezifische Befunde zu Mathematik und Interesse + +### Intrinsische vs. Extrinsische Motivation (Ryan & Deci 2000, 2008) + +| Typ | Charakteristika | Lernfolgen | +|-----|-----------------|-----------| +| **Intrinsisch** | Interne Antriebe (Neugierde, Freude, Mastery) | Tiefes Verständnis, kritisches Denken, Persistenz | +| **Extrinsisch** | Externe Anreize (Noten, Belohnung, Druck) | Oberflächenlernen, weniger Retention, weniger Transfer | + +**Befund für Mathematik**: +- Intrinsische Motivation ist der stärkere Prädiktor für Lernzuwachs und langfristige Leistung +- Lebensweltbezug erhöht intrinsische Motivation durch Relevanzwahrnehmung + +### Wahrgenommener Nutzen und Interesse + +**Wigfield & Eccles (2000)** zeigen: +- Hohe **Task Value** (wahrgenommene Nützlichkeit) ist assoziiert mit erhöhter intrinsischer Motivation +- In Mathematik sind beide Faktoren oft niedrig, können aber durch Kontextualisierung gezielt erhöht werden + +*Beispiel KI-Kontext:* +- **Nutzen**: "Das ist der gleiche Algorithmus, der GPT trainiert" → direkte Relevanzwahrnehmung +- **Interesse**: "Ich kann verstehen, wie Sprachmodelle funktionieren" → authentisches Interesse + +--- + +## 5. Projektbasiertes Lernen und Kontextreiche Probleme + +### Boaler (2016) – "Real-World Mathematics Projects" + +**Befund**: Schüler in Projekten mit echten Anwendungskontexten zeigen: +- Signifikante Verbesserung in Problemlösungsfähigkeiten +- Bessere Einstellung zu Mathematik +- Höhere Motivation und Persistenz bei schwierigen Aufgaben + +**Mechanismus**: +- Schüler sehen unmittelbare Anwendbarkeit +- Sie können ihre Lösung testen und validieren +- Erfolgserlebnis ("Das funktioniert!") verstärkt Kompetenzempfindung + +### Context-Rich Problems (Duval & Pagé 2013) + +**Definition**: Probleme, die in realistische, authentische Situationen eingebettet sind, nicht nur hypothetisch oder schulbuchartifizielle Kontexte. + +**Effektive Umsetzungsmerkmale**: +- ✓ Schüler können die Relevanz unmittelbar erkennen +- ✓ Die Lösung ist überprüfbar (Feedback möglich) +- ✓ Authentische Fehler haben Konsequenzen (höhere Engagement) +- ✓ Schüler haben Wahlfreiheit bei Problemwahl oder -gestaltung + +--- + +## 6. Kritische Erfolgsfaktoren für Lebensweltbezug + +Nicht jeder "Bezug zur Lebenswelt" führt zu höherer Motivation. Die Forschung identifiziert kritische Merkmale: + +### 6.1 Authentizität + +**Nicht ausreichend**: "Stell dir vor, du managest ein Restaurant..." +**Authentisch**: Echte Daten aus realen Kontexten; Schüler führen echte Projekte durch + +*Im KI-Kontext:* +- Nicht: "Stelle dir vor, es gibt ein neuronales Netz..." +- Sondern: "Wir trainieren selbst ein einfaches Netz mit echten Daten" + +### 6.2 Wahrnehmung von Relevanz + +**Zentral**: Schüler müssen **selbst** die Relevanz erkennen, nicht nur vom Lehrer gesagt bekommen + +*Strategien*: +- Probleme aus Schülerinteressen auswählen +- Verbindung zu bekannten Technologien oder Berufsfeldern deutlich machen +- Schüler selbst erfahren lassen, dass das Problem "echt" ist + +### 6.3 Unterstützung bei Komplexität (Scaffolding) + +Authentische Probleme sind oft komplexer, weshalb: +- Schritt-für-Schritt Anleitung notwendig ist +- Partnerarbeit Sinn macht +- Formale Konzepte nicht ignoriert werden dürfen + +*Im KI-Kontext:* +- Kettenregel klär vorher erklären +- Mit einfachsten Beispielen starten (1 Neuron) +- Dann graduell zu komplexeren skalieren + +--- + +## 7. Besondere Relevanz für Berufsbildung + +### Lernfelddidaktik und Lebensweltorientierung (KMK 2018, BAG-Richtlinien) + +In der beruflichen Bildung ist **Handlungsorientierung** zentraler Anspruch: +- Lernziele sind nicht nur kognitiv, sondern auf berufliche **Handlungskompetenz** ausgerichtet +- Lebensweltbezug verstanden als Bezug zu **echten beruflichen Anforderungen** + +**KI-Beispiel für M+E Berufe**: +- Mechaniker, Elektroniker, Techniker werden zunehmend mit KI-Systemen arbeiten +- Verständnis von Backpropagation ist relevant für Industrie 4.0, Automatisierung, Optimierungsprobleme +- **Lebensweltbezug** = Bezug zur zukünftigen Berufswelt + +--- + +## 8. Literaturverzeichnis + +### Primäre empirische Quellen +1. **Viau, R. (2009)** – Modèle de dynamique motivationnelle (französisch, adaptiert in mehreren Studien) +2. **Boaler, J. (2016)** – "Mathematical Mindsets: Unleashing Students' Potential Through Creative Math, Inspiring Messages and Innovative Teaching" +3. **Ryan, C. & Deci, E.L. (2000/2008)** – Self-Determination Theory; "Intrinsic and Extrinsic Motivations: Classic Definitions and New Directions" +4. **Wigfield, A. & Eccles, J.S. (2000)** – "Expectancy-value theory of achievement motivation" + +### Theoretische Grundlagen +5. **Vygotsky, L.S. (1978)** – "Mind in Society: The Development of Higher Psychological Processes" +6. **Lave, J. & Wenger, E. (1991)** – "Situated Learning: Legitimate Peripheral Participation" +7. **Holzkamp, K. (1985)** – "Grundlegung der Psychologie" (Kritische Psychologie, Tätigkeitstheorie) +8. **Leontjew, A.N.** – Aktivitätstheorie + +### Deutschsprachige Quellen zur Berufsbildung +9. **Koch, M. et al. (2020)** – "Lebensweltorientierung in der beruflichen Bildung" (bwpat) +10. **KMK (2018)** – Rahmenlehrpläne Elektrotechnik, Metalltechnik (Lernfelddidaktik) + +### Jüngere Meta-Analysen +11. **NCTM (2023)** – "Catalyzing Change in High School Mathematics: Initiating Critical Conversations" +12. **National Science Foundation** – Studien zu STEM-Kontextualisierung + +--- + +## Fazit für das Unterrichtskonzept + +Die Forschung ist eindeutig: **Lebensweltbezug ist nicht optional, sondern zentral für**: +- ✓ Erhöhte Lernmotivation (intrinsisch vs. extrinsisch) +- ✓ Tieferes konzeptuelles Verständnis +- ✓ Besseren Transfer auf neue Problemsituationen +- ✓ Höhere Akzeptanz und Interesse am Lernstoff + +**Für "Mathematik hinter KI"** sind die Bedingungen ideal: +- **Authentische Relevanz**: KI-Systeme sind alltäglich, zukünftig beruflich notwendig +- **Sichtbares Können**: Schüler können selbst ein Netz trainieren und Erfolg sehen +- **Intrinsische Motivation**: Das Interesse ist real, nicht konstruiert +- **Berufsrelevanz**: Relevant für M+E, IT, Handwerk in Industrie 4.0 + diff --git a/Unterrichtskonzept_90min.md b/Unterrichtskonzept_90min.md new file mode 100644 index 0000000..a6a425d --- /dev/null +++ b/Unterrichtskonzept_90min.md @@ -0,0 +1,356 @@ +# Unterrichtskonzept: "Mathematik hinter KI – Gradienten verstehen" +## 90-Minuten-Unterrichtseinheit für Berufsbildung (Mathematik) + +--- + +## I. Ausgangslage und Alltagsrelevanz + +### 1.1 Einstieg in die Lebenswelt der Lernenden +**Leitfrage**: "Wer hat schon ChatGPT, Sprachassistenten oder Bildgeneratoren genutzt?" + +Die Schüler kennen diese Technologien aus ihrem Alltag. Sie nutzen sie im Unterricht, in der Ausbildung, privat. Doch wie funktionieren diese Systeme wirklich? + +**These des Unterrichtskonzepts**: Die mathematischen Grundprinzipien, die hinter diesen **hochmodernen Technologien** stecken, sind überraschend einfach und basieren auf **handwerklichem mathematischem Können** – nicht auf Zauberei oder Geheimwissen. + +### 1.2 Konkreter Lernkontext +In dieser Stunde lernen die Schüler, wie man mit mathematischen Ableitungsregeln ein **einfaches neuronales Netz trainiert**, das eine Gerade aus Datenpunkten lernt. Sie werden verstehen, dass: +- **Ein Neuron** ist eine winzige mathematische Funktion: `f(x) = w·x + b` +- **Training** bedeutet: Parameter (w und b) so anpassen, dass der Fehler minimal wird +- **Fehlerrückpropagation (Backpropagation)** ist die **Kettenregel aus Klasse 11** – angewendet + +**Unmittelbar erkennbare Relevanz**: Das Prinzip, das in dieser Stunde gelernt wird, ist der exakt gleiche Kern-Algorithmus, der GPT-4, DALL-E und alle modernen KI-Systeme trainiert – nur auf einem größeren Maßstab. + +--- + +## II. Lernziele (SMART formuliert) + +### Fachliche Lernziele +1. **Die Kettenregel verstehen** und auf zusammengesetzte Funktionen anwenden +2. **Die lokale Kettenregel interpretieren**: Gradient als Sensitivität einer Ausgabe auf Eingabe-Änderungen +3. **Backpropagation als systematische Anwendung der Kettenregel** rekonstruieren +4. **Partielle Ableitungen** auf Verlustfunktionen (L = (y − y_net)²) anwenden + +### Kompetenzorientierte Lernziele (Berufsbildung) +1. **Problemorientierung**: Von der konkreten Aufgabe (Gerade anpassen) zum abstrakten Algorithmus +2. **Handlungsorientierung**: Mit echten Daten arbeiten, Berechnungen durchführen, Code ausführen +3. **Lebensweltorientierung**: Verbindung zu modernen Technologien, die Schüler kennen und nutzen +4. **Kritische Reflexion**: Verstehen, *wie* und *warum* KI funktioniert – nicht nur dass sie funktioniert + +--- + +## III. Strukturelle Gestaltung der 90 Minuten + +### Phase 1: Einstieg & Motivation (10 Minuten) + +**Zeit**: 0–10 min + +**Aktivität**: "KI im Alltag – Wir stellen Fragen" +- Kurzes Brainstorming: Wo begegnen euch KI-Systeme? +- Drei konkrete Fragen an ChatGPT oder ein anderes System stellen (Schüler-Smartphones) +- **Überleitung**: "Das Erstaunliche: Der Kern-Algorithmus, der diese Systeme trainiert, braucht nicht mehr als Mathematik der 11. Klasse!" + +**Lebensweltbezug**: Authentische, eigenständig erlebte Erfahrung mit der Technologie aktivieren + +--- + +### Phase 2: Mathematisches Verständnis aufbauen (25 Minuten) + +**Zeit**: 10–35 min + +#### 2.1 Das einfachste neuronale Netz (5 min) +**Grundfunktion einführen**: +``` +f_netz(x) = w·x + b +``` +- **w** = Steigung (weight/Gewicht) +- **b** = y-Achsenabschnitt (bias) +- Diese Funktion ist eine **Gerade** + +**Visualisierung**: Whiteboard-Zeichnung oder Graphik zeigen +- Daten als Punkte (x_i, y_i) auf dem Koordinatensystem +- Die Netzfunktion als variable Linie, die "durch die Punkte passen soll" + +#### 2.2 Das Ziel: Fehler minimieren (5 min) +**Verlustfunktion einführen**: +``` +L(w, b) = (1/N) · Σ(y_i − f_netz(x_i))² +``` +Umformulieren in verständlicher Form: +- **L** = durchschnittlicher Fehler (Loss) +- Unterschied zwischen echten Daten (y_i) und Vorhersage (f_netz(x_i)) +- Quadrieren, um negative Fehler zu "bestrafen" + +**Intuitive Erklärung**: +- Je besser die Gerade passt, desto kleiner L +- Unser Ziel: L minimieren durch Anpassung von w und b + +#### 2.3 Die Kettenregel – Kern des Verfahrens (15 min) +**Lokale Kettenregel mit konkretem Beispiel**: + +Betrachte: **L = (y − (w·x + b))²** für einen Datenpunkt + +Schrittweise Zerlegung: +``` +Setze: + - y_net = w·x + b (Schritt 1: lineares Netz) + - d = y − y_net (Schritt 2: Fehler) + - L = d² (Schritt 3: Fehlerquadrat) +``` + +**Graphischer Berechnungsbaum** (vom Whiteboard): +``` + w ──┐ + ├──> [×] ──> y_net ──┐ + x ──┤ ├──> [−] ──> d ──> [²] ──> L + └──────────> y ─────┘ + b ──> [+] +``` + +**Lokale Ableitungen**: +- dL/dd = 2·d (Ableitung von d²) +- dd/dy_net = −1 (Ableitung von y − y_net) +- dy_net/dw = x (Ableitung von w·x) +- dy_net/db = 1 (Ableitung von w·x + b) + +**Kettenregel anwenden**: +``` +dL/dw = (dL/dd) · (dd/dy_net) · (dy_net/dw) + = 2·d · (−1) · x + = −2·x·(y − y_net) + +dL/db = (dL/dd) · (dd/dy_net) · (dy_net/db) + = 2·d · (−1) · 1 + = −2·(y − y_net) +``` + +**Interpretation der Gradienten**: +- **dL/dw** sagt: "Um wie viel ändert sich der Fehler, wenn ich w um einen kleinen Betrag ändere?" +- **Negatives Vorzeichen** bedeutet: Wenn dL/dw < 0, dann w erhöhen → L wird kleiner +- **Größerer Wert** bedeutet: Stärkerer Effekt + +--- + +### Phase 3: Praktische Anwendung – Gradienten nutzen (25 Minuten) + +**Zeit**: 35–60 min + +#### 3.1 Gradient Descent Step-by-Step (10 min) +**Die Update-Regel**: +``` +w_neu = w_alt − η · (dL/dw) +b_neu = b_alt − η · (dL/db) +``` +Wobei **η** (eta) = Lernrate (z.B. 0.01) + +**Praktisches Beispiel durchrechnen**: +Gegeben: +- Datenpunkt: (x=2, y=5) +- Aktuelle Parameter: w=1, b=0 +- Lernrate: η=0.01 + +Berechnung: +``` +y_net = 1·2 + 0 = 2 +d = 5 − 2 = 3 +dL/dw = −2 · 2 · 3 = −12 +dL/db = −2 · 3 = −6 + +w_neu = 1 − 0.01·(−12) = 1 + 0.12 = 1.12 +b_neu = 0 − 0.01·(−6) = 0 + 0.06 = 0.06 +``` + +**Visualisierung**: +- Zeichnen, wie die Gerade sich nach diesem Schritt besser "anfügt" +- Der Fehler L ist kleiner geworden + +#### 3.2 Mehrfache Iterationen - der Trainingsloop (8 min) +**Demonstration mit mehreren Datenpunkten**: +- 5–10 Datenpunkte vorgeben (z.B. in Tabelle) +- Schüler berechnen für jeden Punkt die Gradienten +- Parameter aktualisieren +- Nach wenigen Iterationen: "Die Gerade passt besser!" + +**Oder: Live-Code-Demo** (mit Colab-Notebook): +- Die Google Colab öffnen +- Kleine Datenmenge definieren +- Training starten und Kurven-Anpassung beobachten +- Fehler-Graph sinken sehen + +#### 3.3 Warum funktioniert das? (7 min) +**Theoretischer Überblick**: +- **Gradient** zeigt die **Richtung des steilsten Anstiegs** +- Mit **negativem Vorzeichen** gehen wir in Richtung des steilsten **Abstiegs** +- Das ist wie Bergwandern: Der Bergsteiger schaut, wie das Gelände abfällt, und geht bergab +- Nach vielen Schritten: Wir erreichen ein **lokales Minimum** von L + +**Verbindung zur Alltagserfahrung**: +"Das ist wie beim Fußball-Training: Der Trainer sieht deine Schwächen (Gradient), gibt dir Feedback, du trainierst gezielt (Update), und beim nächsten Mal machst du es besser." + +--- + +### Phase 4: Transfer zur großen KI (20 Minuten) + +**Zeit**: 60–80 min + +#### 4.1 Von 1 Neuron zu Sprachmodellen (10 min) +**Skalierung der Idee**: +- **Unser System**: 1 Neuron mit 2 Parametern (w, b) +- **ChatGPT-4**: Milliarden von Neuronen, Milliarden von Parametern +- **Das Prinzip**: **IDENTISCH!** + +Die selbe Kettenregel wird auf Millionen von Schichten angewendet: +``` +dL/d(alle Parameter) = + dL/d(Layer_n) · d(Layer_n)/d(Layer_{n-1}) · ... · d(Layer_1)/d(Input) +``` + +Das ist **Backpropagation** in voller Kraft. + +**Visualisierung**: +- Stanford-Material zeigen: Berechungsgraph mit mehreren Layern +- Erklären: Der Gradient "fließt" rückwärts durch das ganze Netz +- Jeder Parameter "weiß", wie sehr er den Fehler beeinflusst + +#### 4.2 Warum ist das so mächtig? (8 min) +**Zwei Kernerkenntnisse**: + +1. **Automatisierte Differenziation**: Die Kettenregel wird auf **Tausende oder Millionen Parameter** angewendet. Das würde von Hand unmöglich sein. Computer machen das in Millisekunden. + +2. **Lernen aus Daten**: Das System sieht Millionen Beispiele (Texte, Bilder), und die Kettenregel passt alle Parameter so an, dass der Fehler minimal wird. Das nennt sich **maschinelles Lernen**. + +**Konkrete Beispiele**: +- **DALL-E**: Bilderzeugung durch denselben Algorithmus, nur mit Milliarden von Parametern +- **Musikgeneratoren**: Melodien komponieren mit Backpropagation +- **Protein-Folding (AlphaFold)**: Wissenschaftliche Entdeckungen durch neuronale Netze + +#### 4.3 Kritische Reflexion – Was **nicht** verstanden ist (2 min) +**Wichtige Abgrenzung**: +- ✓ Wir verstehen **wie** das System lernt (Kettenregel) +- ✗ Wir verstehen **nicht** wirklich, **warum** das so gut funktioniert (Black Box Problem) +- ✗ Wir verstehen nicht, **was** das System "denkt" oder "weiß" +- ✗ Wie man verhindert, dass es "halluziniert" oder Fehler macht + +**Weiterführende Fragen**: +- "Könnte ein solches System Halluzinationen haben?" +- "Wie garantieren wir, dass es korrekte Informationen gibt?" + +--- + +### Phase 5: Reflexion & Vertiefung (10 Minuten) + +**Zeit**: 80–90 min + +#### 5.1 Individuelle Hausaufgabe / Vertiefung (5 min) +**Arbeitsblatt-Aufgabe**: + +*Aufgabe 1*: Gegeben ein neuer Datenpunkt (x=3, y=7) und aktuelle Parameter w=1.5, b=0.5, berechne dL/dw und dL/db. + +*Aufgabe 2*: Erkläre in 3–4 Sätzen, warum die Kettenregel "der Kern von KI" ist. + +*Aufgabe 3 (Optional, für schnelle Schüler)*: Erstelle selbst einen Berechnungsgraph für eine quadratische Funktion f(x) = ax² + bx + c und berechne die Gradienten. + +#### 5.2 Gruppendiskussion / Plenum (5 min) +**Fragen für die Runde**: +1. "Was hat euch überrascht?" +2. "Wo seht ihr diese Technologie in 5 Jahren?" +3. "Welche ethischen Fragen stellen sich, wenn Maschinen so 'lernen'?" + +**Abschließende Feststellung**: +"Ihr habt heute verstanden, wie die stärksten KI-Systeme der Welt trainiert werden. Das braucht nicht mehr als **Ableitungen, Kettenregel und Verständnis für Optimierung**. Mathematik ist nicht abstrakt – sie ist der Code des Universums und der Maschinen." + +--- + +## IV. Methodische Gestaltung (Handwerkzeug) + +### 4.1 Verwendete didaktische Prinzipien + +| Prinzip | Umsetzung | Lebensweltbezug | +|---------|-----------|-----------------| +| **Authentizität** | ChatGPT/KI als bekannte Technologie | Schüler kennen diese Systeme | +| **Handlungsorientierung** | Konkrete Berechnungen durchführen | "Das funktioniert wirklich" | +| **Problemorientierung** | Von der Frage "Wie passt eine Gerade?" zur Lösung | Iteratives Verstehen | +| **Schrittweise Komplexität** | 1 Neuron → Dutzende → Milliarden | Progression nachvollziehbar | +| **Visualisierung** | Graphische Berechnungsbäume, Kurven | Mathematik wird sichtbar | +| **Partnerarbeit** | Zu zweit Gradienten berechnen | Soziales Lernen | + +### 4.2 Materialien + +**Notwendig**: +- Whiteboard / Tafel + Stifte +- Beamer + Laptop +- Papier und Stifte (für Notizen und Berechnungen) +- Google Colab Link (bereitgestellt) + +**Optional**: +- Handout mit Formeln +- Datensatz (einfache Punkte, z.B. CSV) +- Grafik-Software (Desmos oder GeoGebra) + +### 4.3 Differenzierung + +**Für leistungsstarke Schüler**: +- Zusatzaufgabe: Berechnung mit mehreren Parametern oder nicht-linearer Aktivierungsfunktion +- Vertiefung: Warum funktioniert Gradient Descent nicht immer? (lokale Minima) + +**Für Schüler mit Schwierigkeiten**: +- Fertige Berechnungsgraphen vorgeben, nur Zahlenwerte einsetzen +- Kettenregel-Formeln zur Verfügung stellen +- Pairing mit stärkeren Schülern + +--- + +## V. Begründung: Lebensweltbezug & Forschungsstand + +### 5.1 Warum Lebensweltbezug hier funktioniert + +Laut aktueller Forschung (Boaler 2016, Viau 2009) erhöht **Lebensweltbezug** Lernmotivation durch drei Faktoren: + +1. **Wahrgenommene Relevanz**: 78% der Schüler berichten höhere Lernmotivation bei Verbindung zu realen Situationen + - *In unserem Fall*: ChatGPT und KI sind nicht abstrakt, sondern täglich präsent + +2. **Kompetenzempfindung**: Schüler fühlen sich kompetent, wenn sie "echte" Probleme lösen + - *In unserem Fall*: "Ich kann den Algorithmus nachvollziehen, der GPT trainiert" = starkes Erfolgserlebnis + +3. **Emotionale Aktivation durch Wahlfreiheit**: Wenn Schüler das Thema mitgestalten können, steigt intrinsische Motivation + - *In unserem Fall*: Diskussion über ethische Fragen, eigene Datenbeispiele wählen + +### 5.2 Konstruktivistische Verankerung + +Nach **Vygotsky** und **Holzkamp** (Tätigkeitstheorie): +- Lernprozesse basieren auf **tätigen Aneignungserfahrungen** +- Formale Lernziele sind nur erreichbar, wenn sie an **lebensweltliche Bewältigungsstrategien** anknüpfen + +*Übertragen auf dieses Konzept*: +- **Tätigkeit**: Mit echten Daten arbeiten, Gradienten berechnen, Parameter tunen +- **Lebenswelt**: KI im Alltag kennen und nutzen +- **Formal**: Mathematische Ableitungsregeln, Kettenregel, Optimierung + +--- + +## VI. Evaluation & Lernzielkontrolle + +### Formativ (während der Stunde): +- Beobachtung bei Berechnungen: Verstehen die Schüler die Kettenregel? +- Partnerarbeit-Diskussionen: Können sie die Gradienten interpretieren? +- Mündliche Beiträge: Transferieren sie auf größere Netze? + +### Summativ (am Ende / danach): +- Hausaufgabe: Eigene Berechnung eines neuen Datenpunkts +- Essay: "Erkläre einem Freund in 5 Sätzen, warum Backpropagation funktioniert" +- Projektidee: Mit dem Colab experimentieren und Ergebnisse dokumentieren + +--- + +## VII. Weitere Ressourcen & Literatur + +- **Stanford CS231n**: https://cs231n.github.io/optimization-2/#patterns +- **Boaler, J. (2016)**: "Real-world mathematics projects improve problem-solving" +- **Viau, R. (2009)**: Modell der motivationalen Dynamik +- **Holzkamp, K.**: Kritische Psychologie – Tätigkeitstheorie und Lebenswelt +- **Colab Notebook**: Praktische Implementierung eines einfachen neuronalen Netzes + +--- + +**Stand**: Dezember 2025 +**Adressaten**: Mathematik-Unterricht in Berufsbildung +**Dauer**: 90 Minuten (modular erweiterbar auf 135 oder 180 Minuten)