News, Events und Videos aus dem Projekt. Die nxtAIM Forschung ermöglicht einen unbegrenzten Lernhorizont durch generativ erzeugte Daten und wird durch die Echtzeitverifikation der Perzeption ergänzt.
News
Projektvideos
Was zeigt das Video?
Man sieht eine Sequenz, welche mithilfe des Simulationstools CARLA erstellt wurde. In CARLA lassen sich Straßenszenen aus der EGO-Perspektive eines Fahrzeugs simulieren. Das hat den Vorteil, dass die Umgebung sowie der Ablauf der Szene bestimmt werden kann. Zusätzlich zur Simulation erhält man für jeden Frame der Sequenz auch die Annotationen, wie zum Beispiel semantische Segmentierungsmasken. In nxtAIM sollen simulierte Straßenszenen mithilfe von konditionierten Generativen Adversarialen Netzwerken (GAN), deren Diskriminator und Generator tiefe Faltungsnetze sind (cDCGAN), fotorealistisch veredelt werden. Das Team wird dabei auf die synthetische Segmentierungsmaske konditionieren und das spezielle cDCGAN pix2pixHD nutzen, weil es durch die besondere Architektur des Diskriminators und Generators in der Lage ist, hochauflösende Bilder zu generieren. Das Video zeigt links die semantische Segmentierungsmaske, in welcher jeder Pixel des Bildes klassifiziert ist. Diese Segmentierungsmaske wird dann in den pix2pixHD-Generator eingespeist, woraufhin das fotorealistisch veredelte Bild auf der rechten Seite entsteht. Um solche Resultate zu erhalten, wurde das pix2pixHD auf dem öffentlich verfügbaren realen Datensatz A2D2 trainiert.
Was wird hier erforscht?
Mit der Forschung sollen simulierte Bilder aus der synthetischen Domäne in die Domäne der realen Welt adaptiert werden. Dies erreicht man mittels konditionierten GAN. Das Problem ist, dass das Annotieren von Bildern durch Menschen zeitaufwendig und teuer ist. Auf der anderen Seite erhält man die gewünschten Annotationen bei der Nutzung von Simulatoren wie CARLA automatisch für das jeweilige Bild. Für das Training von semantischen Segmentierungsnetzen möchte man möglichst viele geeignete annotierte Daten haben. Nun wäre es naheliegend zu sagen, dass die Daten aus der Simulation genutzt werden könnten. Das große Problem hierbei ist allerdings die Lücke zwischen den beiden Domänen der synthetischen und realen Welt. Trainiert man ein semantisches Segmentierungsnetz auf synthetischen Daten und möchte dieses dann in einem autonom fahrenden Auto in der realen Welt nutzen, wird dies nicht erfolgreich verlaufen. Daher ist das Ziel der Forschung, die simulierten Bilder fotorealistisch zu veredeln, sodass man zum einen eine größere Datenmenge zum Trainieren der Netze hat. Zum anderen kann man in der Simulation auch kontrollieren, wie die Szenarien verlaufen, d.h. man kann z.B. auch sicherheitskritische Szenen, wie das plötzliche Auftreten eines Fußgängers auf der Straße, simulieren. Solche Szenarien kann man in der realen Welt nicht nachstellen, weil das Risiko für alle Beteiligten viel zu hoch ist. Die Folge ist, dass sicherheitskritische Szenarien nicht in den Trainingsdaten von realen Datensätzen enthalten sind. Durch die fotorealistische Veredelung solcher Szenen können diese schließlich auch für die Validierung von semantischen Segmentierungsnetzen, welche auf realen Daten trainiert worden sind, genutzt werden. Damit testet man, ob diese Segmentierungsnetze auch in sicherheitskritischen Situationen generalisieren können.
Einordnung in nxtAIM
nxtAIM wird generative Lernverfahren nutzen, insbesondere GAN, um simulierte Straßenszenen fotorealistisch zu veredeln. Diese generierten Bilder können für verschiedene Zwecke verwendet werden: Für das Training und das Validieren von semantischen Segmentierungsnetzen, aber auch um neue geeignete Metriken zu erforschen, welche den Unterschied zwischen simulierten und echten Bildern messen.
Was zeigt das Video?
Das Video zeigt eine semantische Segmentierung von Bildsequenzen, das heißt, jeder Pixel im Bild wird einer bestimmten Klasse zugeordnet. Im oberen Teil des Videos werden diese Segmente über die Zeit verfolgt, wobei benachbarte Pixel derselben Klasse zusammengefasst werden. Jede Farbe repräsentiert eine eindeutige Segment-ID.
Was wird hier erforscht?
Hier wird das Verhalten von Verkehrsteilnehmern im Laufe der Zeit untersucht, sowie die zugehörige Vorhersage der neuronalen Netze erforscht. Damit kann ermittelt werden, wie gut die künstlichen Netzwerke zukünftige Ereignisse oder Trends basierend auf vorliegenden Daten prognostizieren.
Einordnung in nxtAIM
Das Video zeigt Straßenszenen. In nxtAIM werden Zeitreihen von Trajektorien, zeitliche Verläufe von Bewegungspfaden, in solchen Szenen untersucht und analysiert.
Was zeigt das Video?
Im Video wird der neue Simulator SLEDGE gezeigt, der mit Hilfe von generativen Modellen eine Fahrumgebung erstellt.
Im ersten Abschnitt werden 3 Simulations-Modi verglichen:
1. Log replay: Die Fahrumgebung wird hier von einem Datensatz übernommen.
2. Lane > Agent: Das Straßen-Layout ist aus einem Datensatz und die aktiven Verkehrsteilnehmer, z.B. Autos oder Fußgänger, stammen von einem generativen Modell.
3. Lane & Agent: Die gesamte Fahrumgebung inklusive Straßen-Layout und Verkehrsteilnehmer, wird von einem generativen Modell erstellt.
Im zweiten Abschnitt sieht man, wie mithilfe des generativen Modells lange Simulationen durchgeführt werden können, was zuvor nicht möglich war. Und der dritte Abschnitt zeigt, dass mit langen Simulationen die Fehlermodi von autonomen Bewegungsplanern gefunden werden können.
Was wird hier erforscht?
Es werden Architekturen von generativen Modellen und Simulatoren für geometrische Umgebungsmodelle beim autonomen Fahren untersucht.
Einordnung in nxtAIM
Im Rahmen des nxtAIM-Projekts wird der Simulator genutzt, um unter Verwendung generativer Modelle, Bewegungsplaner im autonomen Fahren besser testen zu können.