Mathematik hinter künstlicher Intelligenz: Backpropagation als Unterrichtsgegenstand für die Berufsbildung

Kurzverfassung für Veröffentlichung (ca. 3–4 Seiten)

ChatGPT und Sprachmodelle sind längst Alltagstechnologien. Doch wie funktionieren sie wirklich? Diese Unterrichtskonzeption zeigt: Die mathematischen Grundprinzipien sind überraschend zugänglich – sie bauen auf der Kettenregel aus Klasse 11 auf, angewendet auf Milliarden von Parametern. Eine 90-Minuten-Einheit für Berufsbildung, die Lebensweltbezug, mathematisches Verständnis und kritische Reflexion verbindet.

Ausgangslage: Alltagstechnologie verstehen

Schülerinnen und Schüler nutzen täglich KI-Systeme. Doch die Funktionsweise bleibt rätselhaft. Genau hier setzt diese Konzeption an: Die Kettenregel ist der Kern-Algorithmus, der GPT-4 trainiert. Diese These öffnet einen direkten Zugang: Mit handwerklichem mathematischem Können – Ableitungsregeln, Gradient Descent, iterative Optimierung – wird das Undurchschaubare begreifbar.

Dies hat unmittelbare Motivationseffekte. Empirische Forschung zeigt: Wenn mathematische Konzepte als authentisch relevante Werkzeuge erlebbar werden (nicht als schulische Abstraktion), erhöhen sich Lernmotivation, Verständnistiefe und Interesse dramatisch. Viau (2009) dokumentiert, dass 78% der Schülerinnen und Schüler erhöhte Lernmotivation berichten, wenn mathematische Inhalte mit realen Situationen verbunden sind. Barbara Boaler belegt in Langzeitstudien: Projektbasiertes Lernen mit echten Daten führt nicht nur zu besseren Problemlösungsfähigkeiten, sondern auch zu einer grundlegend veränderten Wahrnehmung von Mathematik.

Mathematische Grundlagen: Vom Neuron zur Kettenregel

Das einfachste Neuron ist eine lineare Funktion: f(x) = w·x + b. Dies ist Schülerinnen und Schülern als lineare Regression vertraut. Das Trainings-Ziel ist, Parameter (w, b) so anzupassen, dass eine Gerade durch Datenpunkte (x_i, y_i) optimal passt, gemessen durch eine Verlustfunktion:

L = (1/N) Σ(y_i − (w·x_i + b))²

Die zentrale Einsicht: Neuronale Netze stellen – egal wie groß – immer eine verschachtelte Funktion dar. Das Universal Approximation Theorem zeigt mathematisch: Mit genug Neuronen und Schichten kann jede stetige Funktion beliebig genau approximiert werden. Aber die direkte Ableitung einer solchen Mega-Komposition (Millionen Schichten) ist praktisch unmöglich – es würde zu einer Explosions-Komplexität führen.

Hier wirkt die Kettenregel ihre Macht aus: Sie ermöglicht, das Problem in lokale Gradienten zu zerlegen. Statt einer gigantischen Ableitung berechnet man Millionen kleine, lokale Ableitungen und multipliziert sie systematisch zusammen. Dies ist Backpropagation – der Kern-Algorithmus aller modernen KI.

Praktisches Beispiel (konkrete Rechnung im Unterricht):

Datenpunkt: (x=2, y=5), aktuelle Parameter: (w=1, b=0)
Vorhersage: y_net = 1·2 + 0 = 2, Fehler: d = 5−2 = 3
Gradienten über Kettenregel: ∂L/∂w = −2·x·(y−y_net) = −12, ∂L/∂b = −6
Update (Lernrate η=0.01): w_neu = 1 − 0.01·(−12) = 1.12, b_neu = 0.06

Die Gerade passt besser. Nach vielen Iterationen: Konvergenz.

Das ist exakt der Algorithmus, der GPT-4 trainiert – nur mit Milliarden Parametern statt zweien.

Die komplexe Realität: Mehrphasiges Training

Moderne Sprachmodelle werden nicht in einer Phase trainiert:

Pretraining: Base-Modell (z.B. GPT-3: 175 Mrd. Parameter) auf gigantischen Textmengen trainiert. Ziel: nächstes Wort vorhersagen. Resultat: ein Basis-System, das Text generiert, aber nicht speziell „hilfreich" wurde.
Instruction Tuning: Nachtraining auf kuratierten Frage-Antwort-Paaren von menschlichen Annotatorinnen/Annotatoren. Jetzt lernt das Modell, auf Anfragen zielgerichtet zu antworten.
RLHF (Reinforcement Learning from Human Feedback): Ein „Reward-Modell" lernt, Antworten nach menschlichen Präferenzen zu bewerten. Das Sprachmodell wird dann optimiert, um höher bewertete Antworten zu generieren.

Pädagogische Pointe: Das System hat nicht „das Internet aufgesaugt" – mehrere Trainingsphasen mit expliziten menschlichen Entscheidungen sind eingeflossen.

Kritische Dimension: Verzerrung, Macht und Asymmetrien

Während des Trainings lernen Sprachmodelle mathematische Räume, in denen Konzepte geometrisch organisiert sind. Der berühmte Word2Vec-Effekt zeigt dies: „König − Tante + Onkel" zeigt in eine Richtung, die Männlichkeit kodiert. Das Problem: Wenn Trainingsdaten Stereotype enthalten, einkodiert die Kettenregel diese Verzerrungen mathematisch und verstärkt sie.

Geopolitisch ist die Asymmetrie eklatant: Die größten Sprachmodelle entstehen in den USA (OpenAI, Google) und China (Baidu, Alibaba). Europa hat keine eigenen großen Modelle – es nutzt diese amerikanischen/chinesischen Systeme. Länder ohne Ressourcen, um eigene Modelle zu trainieren, haben wenig Einfluss auf die konzeptuellen Strukturen, mit denen ihre Bevölkerung lernt und arbeitet.

Eine weitere praktische Asymmetrie betrifft den Speicher: Ein 70-Milliarden-Parameter-Modell benötigt zur Inferenz (~140 GB VRAM) läuft auf modernen Clustern. Aber zum Training/Fine-Tuning müssen alle Aktivierungen aller Schichten im Speicher gehalten werden (für Gradient-Berechnung). Dies erfordert 500–800 GB VRAM – praktisch nur große Institutionen machbar. Konsequenz: Kleine Modelle können lokal genutzt, aber nicht nachtrainiert werden. Schulen und Unternehmen sind auf Vorgaben von Modelliererinnen/Modellierern festgelegt.

Zentrale Einsicht für Schüler: Mathematik ist nicht neutral. Die Kettenregel ist universell. Aber was damit optimiert wird – welche Daten, welche Ziele, welche Verzerrungen – ist zutiefst politisch.

Das 90-Minuten-Unterrichtsdesign

Phase 1 (10 min): Einstieg – Schülerinnen und Schüler teilen ihre ChatGPT-Erfahrungen. Zentrale These: „Das Training funktioniert mit Mathematik, die ihr kennt: der Kettenregel."

Phase 2 (25 min): Mathematisches Fundament – Einfaches Neuron, Verlustfunktion, Berechnungsgraph werden eingeführt und visualisiert.

Phase 3 (15 min): Kettenregel konkret – Schritt-für-Schritt-Berechnung von Gradienten mit konkreten Zahlenbeispielen. Mehrfaches Üben bis Internalisierung.

Phase 4 (20 min): Training erleben – Gradient Descent live im Google-Colab-Notebook demonstrieren. Schülerinnen und Schüler sehen, wie die Gerade sich anpasst, der Fehler sinkt.

Phase 5 (15 min): Skalierung und Komplexität – Transfer vom Neuron zu echten Sprachmodellen. Speicherlandschaft: Inferenz vs. Training. Mehrphasiges Training (Pretraining, Tuning, RLHF) erklären.

Phase 6 (5 min): Kritische Reflexion – Fragen zu Verzerrung, geopolitischen Asymmetrien, Zugänglichkeit. Zentrale Einsicht: Mathematik + Daten + Macht = KI-Systeme.

Fazit: Mathematik als Werkzeug verstehen

Diese Konzeption verbindet drei Ziele: (1) Mathematisches Verständnis: Kettenregel, Backpropagation, iterative Optimierung sind transparent gemacht. (2) Lebensweltbezug: Authentische Relevanz durch alltägliche KI-Technologien. (3) Kritische Kompetenz: Verständnis dafür, dass KI-Systeme nicht neutral sind, sondern Daten, Ziele und Machtstrukturen widerspiegeln.

Für die Berufsbildung ist dies zentral: In einer von KI durchdrungenen Berufswelt werden Fachkräfte – Mechaniker, Elektroniker, Techniker – zunehmend mit KI-basierten Systemen arbeiten. Die Fähigkeit, diese Systeme nicht nur zu nutzen, sondern zu verstehen und kritisch einzuordnen, wird zum Bestandteil beruflicher Handlungskompetenz. Ziel ist nicht passive Konsumption, sondern reflektierte, kritische Gestaltung.

7.7 KiB Raw Blame History Unescape Escape