Reinforcement Learning Intensivprogramm

Unser Ansatz unterscheidet sich grundlegend von klassischen Schulungen. Wir arbeiten mit echten Problemen, die aktuell in der Industrie relevant sind – keine theoretischen Übungsaufgaben, sondern Szenarien, die Sie später tatsächlich antreffen werden.

Das Programm erstreckt sich über neun Monate und kombiniert intensive Praxisphasen mit individueller Betreuung. Sie entwickeln eigene Agenten, experimentieren mit verschiedenen Architekturen und lernen, Ihre Entscheidungen nachvollziehbar zu dokumentieren.

Grundlagen & Markov-Prozesse

Wir beginnen nicht mit Code, sondern mit dem Verständnis von sequenziellen Entscheidungsproblemen. Die ersten Wochen drehen sich darum, wie Agenten Informationen aus ihrer Umgebung verarbeiten und welche mathematischen Konzepte dahinterstehen.

Policy-Gradients & Value-Functions

Hier wird es konkreter. Sie implementieren verschiedene Lernalgorithmen von Grund auf – ohne fertige Bibliotheken. Das mag frustrierend klingen, aber genau so verstehen Sie, was unter der Haube passiert und können später Probleme eigenständig diagnostizieren.

Exploration vs. Exploitation

Eine der schwierigsten Fragen im RL: Wann probiert ein Agent neue Strategien aus, wann nutzt er bewährtes Wissen? Wir untersuchen verschiedene Ansätze anhand realer Anwendungsbeispiele aus Robotik und automatisierter Steuerung.

Deep Q-Networks & Actor-Critic

Ab diesem Punkt arbeiten Sie mit neuronalen Netzen als Approximatoren. Die Komplexität steigt, aber Sie haben bereits das Fundament gelegt, um zu verstehen, warum bestimmte Architekturen besser funktionieren als andere.

Multi-Agent Systeme

Mehrere Agenten, die gleichzeitig lernen und interagieren – das öffnet völlig neue Problemstellungen. Sie entwickeln Strategien für kooperative und kompetitive Szenarien und erleben, wie schnell simple Regeln zu unerwartetem Verhalten führen können.

Projekt & Dokumentation

Die letzten Monate gehören Ihrem eigenen Projekt. Sie definieren ein Problem, entwickeln eine Lösung und dokumentieren den gesamten Prozess. Diese Arbeit wird Teil Ihres Portfolios und zeigt potenziellen Arbeitgebern Ihre praktische Kompetenz.

Teilnehmer arbeiten gemeinsam an RL-Algorithmen in einer praxisorientierten Lernumgebung

Wie wir arbeiten

Es gibt keine vorgefertigten Lösungen, die Sie einfach kopieren. Jede Woche bekommen Sie eine neue Herausforderung, bei der Sie selbst herausfinden müssen, welcher Ansatz funktioniert. Manchmal werden Sie scheitern – und genau das ist der Punkt.

Iteratives Experimentieren

Sie entwickeln eine Hypothese, implementieren sie, analysieren die Ergebnisse und passen Ihren Ansatz an. Dieser Zyklus wiederholt sich ständig und entspricht genau dem, was Sie später im Berufsalltag machen werden. Kein Reinforcement Learning-Projekt läuft auf Anhieb perfekt.

Code Reviews & Peer Feedback

Alle zwei Wochen präsentieren Sie Ihre Arbeit der Gruppe. Andere Teilnehmer stellen Fragen, hinterfragen Ihre Designentscheidungen und schlagen Alternativen vor. Das ist anfangs unangenehm, aber Sie lernen schneller, wenn Sie Ihre Ideen verteidigen und fremden Code verstehen müssen.

Debugging Sessions

Wenn ein Agent nicht lernt, kann das hundert Gründe haben: falsche Lernrate, instabile Netzwerkarchitektur, fehlerhafte Belohnungsstruktur. Wir verbringen viel Zeit damit, gemeinsam Probleme zu diagnostizieren – eine Fähigkeit, die in keinem Lehrbuch steht, aber absolut entscheidend ist.

Forschungspapiere lesen

Ab der vierten Phase analysieren Sie aktuelle Paper aus der RL-Forschung. Nicht um sie auswendig zu lernen, sondern um zu verstehen, wie Experten neue Probleme angehen und ihre Methoden beschreiben. Diese Fähigkeit öffnet Ihnen später Türen zu anspruchsvolleren Positionen.

Typisches Praxisszenario

In Woche 18 entwickeln Sie einen Agenten für ein Logistik-Optimierungsproblem. Die Umgebung ist bewusst unvollständig dokumentiert – Sie müssen selbst herausfinden, welche Informationen der Agent wirklich braucht, wie Sie Belohnungen gestalten und welche Algorithmen hier sinnvoll sind. Am Ende der Woche analysieren wir gemeinsam, warum manche Lösungen funktioniert haben und andere nicht.

Gaxton