Konzept

Just Better Data wird während der dreijährigen Projektlaufzeit einen Prozess entwickeln und prototypisch implementieren, mit dem in Zukunft „bessere Daten“ für das Training von KI-Modellen für das autonome Fahren zur Verfügung stehen. Im Rahmen von vier Teilprojekten (TP) wird das spezifizierte Datenset von den neun Projektpartnern umgesetzt.

Konzept

Just Better Data wird während der dreijährigen Projektlaufzeit einen Prozess entwickeln und prototypisch implementieren, mit dem in Zukunft „bessere Daten“ für das Training von KI-Modellen für das autonome Fahren zur Verfügung stehen. Im Rahmen von vier Teilprojekten (TP) wird das spezifizierte Datenset von den neun Projektpartnern umgesetzt.

Aufgaben der vier Teilprojekte

TP 1
In TP1 werden die Anforderungen für das neuartige System zusammengestellt. Es geht den Fragestellungen nach, welche Datentypen und Metadaten im Projekt adressiert werden, welche charakteristischen und dennoch vielfältigen Szenarien im Fahrzeug erfasst, selektiert und gespeichert werden und welche Anforderungen an das Sensorset im weiteren Projektverlauf gestellt werden.
TP 2
TP2 entwickelt das Herzstück des im Projekt prototypisch dargestellten Systems für Smart Data Logging und Processing: die sogenannte Edge-Plattform, welche die Aufzeichnung, Vorverarbeitung und Selektion der Daten im Fahrzeug in Echtzeit ermöglicht.
TP 3
In TP3 wird die klassische Datenschleife durch Anwendung smarter Algorithmen so optimiert, dass die Datensätze mehr Vielfalt abdecken und gleichzeitig das Datenvolumen kontrollierbar bleibt.
TP 4
TP4 verantwortet die Vorbereitung einer Fahrzeugausrüstung für die Datenerfassung sowie die Aufzeichnung von realen Daten, die in spezifischen Szenarien ausgewählt wurden, um einen Datensatz zu erzeugen, der eine industrielle Nutzung für alle Partner ermöglicht und den Anforderungen dieses Vorhabens entspricht.

Das “Smart Data Logging”- Konzept

Herausforderung und Lösungsansatz:
Experten gehen davon aus, dass gut 99 Prozent der Daten, die auf einer üblichen Erprobungsfahrt erfasst werden, für die Entwicklung autonomer Fahrfunktionen irrelevant sind und deshalb am besten gar nicht erst aufgezeichnet werden sollten. Es müssen also die Daten identifiziert werden, die wirklich benötigt werden.

1 of 6

Online-Vorsortierung und Filterung (Smart Data Logging):
Hier helfen KI-basierte Methoden. Basierend auf Vorgaben identifizieren sie während der Datenaufzeichnung relevante Szenarien und stellen sicher, dass nur diese gespeichert werden. Durch eine Filterfunktion können Elemente eines Datensatzes markiert werden, bei denen Unklarheiten oder Inkonsistenzen vorliegen.

2 of 6

Vorverarbeitung und Qualitätsanalyse im Fahrzeug sowie automatisierte Identifikation von Datenlücken und Corner Cases:
Voraussetzung ist, dass derartige Methoden fahrzeugseitig an der Edge arbeiten, das heißt am Übergang vom Fahrzeug zur Cloud. Denn nur so ist es möglich, dass tatsächlich nur die Daten gespeichert werden, die wirklich benötigt werden und nicht Terrabytes von nutzlosen Informationen. Alle Sensordaten wie (Thermo-)Kamera, Radar, Lidar müssen gleichzeitig aufgezeichnet und analysiert werden, was hohe Anforderungen an die Methoden und an die Logging-Hardware stellt. Durch intelligente Online-Verfahren können Corner Cases, also ungewöhnliche Ereignisse, ebenso wie Datenlücken bei der Aufzeichnung erkannt werden.

3 of 6

Anreicherung mit synthetischen Daten wo notwendig und sinnvoll:
Für das Training von KI-basierten Systemen ist insbesondere ein ausgewogener Datensatz wichtig, in dem auch seltene Ereignisse vorkommen. Diese Ereignisse umfassen kritische Verkehrssituationen aber auch Variationen bei Verkehrsteilnehmern wie beispielsweise Geschlecht, Hautfarbe, Alter, Körperbau etc. Dieser Bias ist in heutigen Datensätzen vorhanden und führt bei KI-Systemen zu einer Performance-Reduktion. Um diesem Bias entgegenzuwirken, werden Realdaten mit synthetischen Daten ergänzt und zu hybriden Datensätzen erweitert. So kann effizient ein ausgewogener, charakteristischer und fairer Datensatz erstellt werden.

4 of 6

Charakteristischer Datensatz, der auch den industriellen Einsatz erlaubt:
Die selektive Datenerfassung und Anreicherung zur Erstellung eines charakteristischen Datensatzes stellt eine Herausforderung dar. Auch einen entsprechenden Datensatz für die weitere Nutzung zur Verfügung zu stellen, ist heute nicht ohne weiteres möglich. Obwohl es mit intelligenten Methoden möglich ist, die Menge der aufgezeichneten Daten stark zu reduzieren, wird dieser Einsparungseffekt zumindest teilweise wieder zunichtegemacht, wenn Fahrzeughersteller und Zulieferer weiterhin für die Entwicklung ihrer Systeme nur auf eigene Daten zurückgreifen müssen, weil es keine frei verfügbaren Datensätze gibt, die industriell genutzt werden dürfen.

5 of 6

Leistungsfähiges Backend für eine industrielle Nutzung:
Freie Verfügbarkeit des Datensets und die Möglichkeit zur industriellen Nutzung erfordern ein leistungsfähiges Backend, das potenziellen Nutzern nicht nur den schnellen Zugriff auf die gespeicherten Daten erlaubt, sondern die dort abgelegten Daten für diese Nutzung vorbereitet (z.B. Anonymisierung und Anreicherung mit Metadaten). Zudem gelten für eine industrielle Nutzung der Daten besonders hohe Anforderungen an Qualität und Vollständigkeit. Ähnliches gilt auch für das Betriebskonzept des Backends. Neben einer fairen Datenerhebung ist ein nachhaltiges Datenmanagement sicherzustellen.

6 of 6

Vorverarbeitung und Qualitätsanalyse im Fahrzeug sowie automatisierte Identifikation von Datenlücken und Corner Cases:
Voraussetzung ist, dass derartige Methoden fahrzeugseitig an der Edge arbeiten, das heißt am Übergang vom Fahrzeug zur Cloud. Denn nur so ist es möglich, dass tatsächlich nur die Daten gespeichert werden, die wirklich benötigt werden und nicht Terrabytes von nutzlosen Informationen. Alle Sensordaten wie (Thermo-)Kamera, Radar, Lidar müssen gleichzeitig aufgezeichnet und analysiert werden, was hohe Anforderungen an die Methoden und an die Logging-Hardware stellt. Durch intelligente Online-Verfahren können Corner Cases, also ungewöhnliche Ereignisse, ebenso wie Datenlücken bei der Aufzeichnung erkannt werden.

Scroll to Top