Winter School I

Generative KI im Fokus – Deep Dive Summaries und Präsentationen im Rahmen einer nxtAIM-Projektveranstaltung zu grundlegenden und innovativen Themen

E-Booklet Winter School I

Generative KI im Fokus – Deep Dive Summaries und Präsentationen im Rahmen einer nxtAIM-Projektveranstaltung zu grundlegenden und innovativen Themen

nxtAIM im Forschungszentrum Jülich

14 Monate nach Projektstart von nxtAIM – Generative Methoden für Perzeption, Prädiktion und Planung – trafen sich 95 Forschende zur ersten Winter School am Forschungszentrum in Jülich. Ziel war es, den Wissensaustausch und die Zusammenarbeit zu fördern und die beteiligten Partner in die Lage zu versetzen, die Rechenressourcen in Jülich effizient zu nutzen.

Am 13. und 14. März 2025 wurden von und mit den akademischen und industriellen Projektpartnern Vorträge, Workshops und Deep Dives zu grundlegenden, fortgeschrittenen und praktischen Themen der Generativen KI geboten.

Abgerundet wurde das Programm mit Sessions über Supercomputing und das notwendige Laden von Daten. Bei den Führungen zum Jülich Supercomputer gewannen die Teilnehmenden einen Eindruck von den Dimensionen der zur Verfügung stehenden Rechner-Hardware.

Am Ende der zweitägigen Veranstaltung zogen alle Beteiligten eine positive Bilanz: Gut organisiert, erkenntnisreiche technische Diskussionen, großartige Führung durch das Rechenzentrum, interessante Deep Dives waren die Kommentare, die es beim Abschied zu hören gab.

Auf dem Erfolg dieser ersten Winter School wollen die Projektverantwortlichen mit einer zweiten Winter School 2026 aufbauen.

Deep Dive Summaries

In diesen kompakten Deep Dive Summaries geben nxtAIM-Forschende Einblicke in aktuelle Ansätze, Herausforderungen und Lösungen – von präziser Bildverarbeitung bis hin zur sicheren KI im autonomen Fahren.

Da es sich um eine projektinterne Winter School Session handelte, finden Sie hier einen Überblick in Form kurzer Zusammenfassungen der Beiträge.

Wenn Sie tiefer in die Inhalte einsteigen möchten, merken Sie sich den März 2026 vor: Beim nxtAIM Open Project Day in Freiburg haben Sie die Gelegenheit, die Themen im Detail kennenzulernen und mit den Forschenden direkt ins Gespräch zu kommen.

Aktuelle diskriminative Verfahren zur Tiefenschätzung erzeugen häufig unscharfe Artefakte, während generative Ansätze unter langsamer Abtastung leiden, bedingt durch Krümmungen im Transfer von Rauschen zu Tiefe. Unser Verfahren begegnet diesen Herausforderungen, indem sie die Tiefenschätzung als direkten Transfer zwischen Bild- und Tiefenverteilungen formuliert. Wir sind die Ersten, die Flow Matching in diesem Bereich untersuchen, und zeigen, dass dessen Interpolationstrajektorien sowohl die Effizienz beim Training als auch beim Sampling verbessern, ohne dabei an Leistungsfähigkeit einzubüßen.

Während generative Modelle typischerweise große Mengen an Trainingsdaten benötigen, reduzieren wir diese Abhängigkeit durch die Integration externen Wissens aus einem vortrainierten Bild-Diffusionsmodell, was eine effektive Übertragung selbst bei unterschiedlichen Zielsetzungen ermöglicht. Um die Leistung unseres Modells weiter zu steigern, nutzen wir synthetische Daten sowie Bild-Tiefen-Paare, die von einem diskriminativen Modell auf einem „in-the-wild“-Bilddatensatz generiert wurden.

Als generatives Modell kann unser Ansatz die Tiefenunsicherheit zuverlässig abschätzen, was einen zusätzlichen Vorteil darstellt. Unser Ansatz erzielt eine wettbewerbsfähige Zero-Shot-Leistung auf gängigen Benchmarks komplexer natürlicher Szenen, verbessert dabei die Sampling-Effizienz und benötigt nur minimale synthetische Trainingsdaten.

Paper: Ming Gui, Johannes Schusterbauer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer: DepthFM: Fast Generative Monocular Depth Estimation with Flow Matching

Text-zu-Bild-generative Modelle haben sich zu einem bedeutenden und leistungsstarken Werkzeug entwickelt, das bei der Erzeugung hochauflösender, realistischer Bilder herausragt. Dennoch bleibt es eine ungelöste Aufgabe, die Generierung dieser Modelle so zu steuern, dass detaillierte Formen der Konditionierung in Bezug auf Stil- und/oder Strukturinformationen berücksichtigt werden.

Wir stellen LoRAdapter vor – einen Ansatz, der Stil- und Strukturkonditionierung unter einer einheitlichen Formulierung vereint, basierend auf einem neuartigen, conditional LoRA-Block, der Zero-Shot-Steuerung ermöglicht. LoRAdapter ist ein effizienter, leistungsstarker und architekturunabhängiger Ansatz zur Konditionierung von Text-zu-Bild-Diffusionsmodellen. Er erlaubt eine fein abgestufte Steuerung während der Generierung und übertrifft aktuelle Ansätze des Stands der Technik.

Paper: Nick Stracke, Stefan Andreas Baumann, Josh Susskind, Miguel Angel Bautista, Björn Ommer: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models

Die Erstellung von Welt-Modellen mit generativer KI ist ein neues und sich schnell entwickelndes Forschungsfeld mit großem Potenzial, unser Verständnis komplexer, dynamischer Umgebungen – wie etwa Fahrszenarien – zu verbessern. Anders als bei der herkömmlichen synthetischen Videogenerierung erlaubt es eine nuancierte Steuerung sowohl realer als auch synthetischer Umgebungen unter Nutzung verschiedener Eingabearten, darunter Textanweisungen, Odometrie-Daten, Karten und historischer Beobachtungen.

Durch den Einsatz von Welt-Modellen aus dem automotive Bereich können wir präzise Kontrolle und bessere Fähigkeiten bei der Planung erreichen, die durch reale Wahrnehmung gestützt werden. In diesem Vortrag stellen wir ein maskiertes, generatives Modell vor, das in der Lage ist, basierend auf einer begrenzten Abfolge vergangener Beobachtungen mehrere plausible Zukunftsszenarien zu erzeugen. Unser Modell erzeugt zeitlich konsistente Vorhersagen von bis zu 25 Sekunden in die Zukunft und modelliert dabei die Dynamik sowohl des Ego-Fahrzeugs als auch anderer dynamischer Objekte präzise. Der hier vorgestellte Ansatz benötigt deutlich weniger Daten und Rechenressourcen als bestehende Welt-Modellen aus dem automotive Bereich: Die aktuelle Implementierung nutzt ein Modell mit 400 Millionen Parametern, das auf lediglich 130 Stunden Fahrdaten trainiert wurde.

Agenten in realen Szenarien, wie beim automatisierten Fahren, müssen mit Unsicherheiten in ihrer Umgebung umgehen – insbesondere infolge von Unsicherheiten der Perzeption. Während Reinforcement Learning für autonome Entscheidungen mit Unsicherheiten konzipiert ist, haben diese Algorithmen üblicherweise keine Kenntnis über die derzeit bestehende Unsicherheit in ihrer Umgebung. Andererseits wird die Unsicherheitsabschätzung in der Perzeption meist direkt im Perzeptionsbereich bewertet, z. B. anhand von Falsch-Positiv-Raten oder Kalibrierfehlern basierend auf Kamerabildern. Ihr Einsatz zur Unterstützung zielgerichteter Entscheidungen bleibt jedoch weitgehend unerforscht.

In dieser Arbeit untersuchen wir, wie sich das Verhalten eines Agenten durch eine unsichere Perzeption beeinflussen lässt und wie sich dieses Verhalten verändert, wenn dem Agenten Informationen über diese Unsicherheit zur Verfügung stehen. Dazu betrachten wir eine Aufgabe, bei der der Agent dafür belohnt wird, eine Route so schnell wie möglich zu fahren, ohne mit anderen Verkehrsteilnehmern zu kollidieren. Für Kontroll-Experimente fügen wir dem Beobachtungsraum gezielt Unsicherheit hinzu, indem wir die Perzeption des Agenten stören – während wir ihn gleichzeitig über diese Unsicherheit informieren.

Unsere Experimente zeigen, dass ein unsicherer Beobachtungsraum – modelliert durch gestörte Perzeption – zu einem defensiven Fahrverhalten des Agenten führt. Wenn jedoch die Information über die aktuelle Unsicherheit direkt in den Beobachtungsraum integriert wird, passt sich der Agent besser an die jeweilige Situation an und erfüllt seine Aufgabe insgesamt schneller – unter gleichzeitiger Berücksichtigung von Risiken.

Die Validierung des automatisierten Fahrens ist ein umfassender Prozess, der den Nachweis erbringen soll, dass das System innerhalb des definierten Operational Design Domain (ODD) frei von unzumutbarem Risiko ist. Dieser Prozess erfordert die Identifikation eines hinreichenden Szenarienraums, die Einhaltung gesetzlicher Anforderungen und Verkehrsregeln, die Erstellung repräsentativer realer Szenarien sowie das Testen des Gesamtsystems.

In dieser Arbeit wird Generative KI eingesetzt, um diesen Prozess in Form eines vollständigen Frameworks zu verbessern – beginnend bei der Auswertung von Vorschriften bis hin zum realitätsnahen Testen der Szenarien. Ansätze mit Generative KI unterstützen die effiziente Durchführung dieses umfassenden Prozesses und ermöglichen die Handhabung einer großen Anzahl von Szenarien, Anforderungen und weiteren Artefakten.

Das Framework beginnt mit der Analyse von Vorschriften beliebiger Länder durch den Einsatz großer Sprachmodelle (LLMs), um aus Sicht von automatisierten Fahrsystemen (ADS) die relevanten Konformitätsanforderungen abzuleiten. Diese Anforderungen werden im selben LLM-Prompt verarbeitet, um daraus abstrakte Szenariodefinitionen zu generieren. Dadurch wird eine umfassende Abdeckung von Verkehrsregeln und gesetzlichen Vorgaben sichergestellt, sodass alle erforderlichen Szenarien generiert werden.

Anschließend werden die abstrakten Szenariodefinitionen mithilfe eines LLM in OpenScenario-Dateien überführt. Diese Szenariodateien werden mit realistischen Trajektorien angereichert, die aus einem Conditional Variational Auto-Encoder-Modell stammen, das auf realen Trajektoriendaten trainiert wurde und menschliches Fahr- sowie Fußgängerverhalten abbildet.

Abschließend werden die generierten OpenScenario-Dateien automatisch in passende Szenario-Locations der jeweiligen Länder eingeordnet und in Simulationsumgebungen getestet. Dieser Ansatz ermöglicht ein durchgängiges Framework zur Generierung und zum Testen realistischer Szenarien für automatisiertes Fahren auf Basis vorgegebener gesetzlicher Quellen.

Transformer-basierte Modelle erzeugen Hidden States, die schwer zu interpretieren sind. In dieser Arbeit zielen wir darauf ab, diese Hidden States zu interpretieren und gezielt während der Inferenz zu steuern, mit einem Fokus auf Bewegungsprognosen (Motion Forecasting).

Wir verwenden lineare Untersuchungen, um den Neural Collapse zugunsten interpretierbarer Bewegungsmerkmale in den Hidden States zu messen. Eine hohe Erkennungsgenauigkeit deutet auf sinnvolle Richtungen und Distanzen zwischen den Zuständen gegensätzlicher Merkmale hin, die wir nutzen, um interpretierbare Steuerungsvektoren für Activation Steering zur Inferenzzeit zu berechnen.

Zur Optimierung unserer Steuerungsvektoren verwenden wir Sparse Autoencoder mit vollständig verbundenen, convolutional MLPMixer-Layers und verschiedenen Aktivierungsfunktionen. Besonders hervorzuheben ist, dass erzwungene Sparsamkeit in den Hidden States zu einer lineareren Beziehung zwischen der Control Vector Temperatures und den Vorhersagen führt.

Unser Ansatz ermöglicht mechanistische Interpretierbarkeit sowie Zero-Shot-Generalisierung auf bisher einmaliger Datensatzcharakteristika – bei gleichzeitig vernachlässigbarem Rechenaufwand.

In diesem Vortrag wird die Notwendigkeit der Modelloptimierung hervorgehoben, die Vorteile der Kompression werden betont und es wird ein Überblick über bestehende Optimierungstechniken gegeben.
Das Hauptthema sind Low-Rank-Kompressionsmethoden. Nach einer kurzen Einführung in das Thema Low-Rank-Kompression wird die Implementierung solcher Kompressionsverfahren in neuronalen Netzwerken behandelt.

Im Mittelpunkt der Präsentation stehen drei Hauptmethoden der Low-Rank-Kompression: die Canonical-Parafac-Methode, die Tucker-Zerlegung und die Tensor-Train-Methoden.

Abschließend werden bestehende Low-Rank-Ansätze vertieft und einige erste Ergebnisse der Arbeit werden vorgestellt.

 

Impressionen

Nach oben scrollen