Navigation

Vortrag: 09. März 2021, Moritz Venator

Bild Besprechungsraum 04.137
Bild der Präsentationsfläche

Bildbasierte Lokalisierung und Domänenadaption zur Rekonstruktion von Straßenszenen mittels Flottenbilddaten

 

Eine genaue und zuverlässige Umgebungswahrnehmung ist für die Entwicklung von automatisierten Fahrfunktionen unerlässlich. Kamerasysteme zählen zu den vielseitigsten Sensorsystemen, werden aber auch stark von den Umgebungsbedingungen, insbesondere von den Sichtverhältnissen, beeinflusst. Diese Domänenunterschiede stellen eine Herausforderung für die Algorithmenentwicklung, aber auch die Trainingsdatenerfassung und Testabdeckung dar. Um den daraus resultierenden Bedarf nach umfangreichen, ausgewogenen Datensätzen zu decken, könnten klassische Datenakquisekampagnen zukünftig um eine Datenerfassung aus Serienfahrzeugen ergänzt werden.

In dieser Arbeit wird ein neuartiges Konzept zur Nutzung einer Fahrzeugflotte für die flexible und skalierbare Datenerfassung von relevanten Straßenabschnitten vorgestellt. Die Synthese homogener Sequenzen aus Flottenbilddaten stellt mehrere Herausforderungen für die nachgelagerte Verarbeitungskette dar, angefangen bei der Lokalisierung der Kamerapositionen. Durch die Erweiterung einer Structure from Motion-Pipeline um eine semantische Selektion von lokalen Bildmerkmalen sowie eine GPS-Ausreißererkennung wird der Rekonstruktionsprozess stabilisiert und die Lokalisierungsgenauigkeit verbessert.

Die Ergebnisse zeigen jedoch, dass die Bildregistrierungsrate stark durch die limitierte Wiederauffindbarkeit von klassischen lokalen Bildmerkmalen unter wechselnden Bedingungen begrenzt wird. Deshalb werden neuartige Ansätze für ein robustes, domänenübergreifendes Matching von lokalen Bildmerkmalen unter Verwendung von Bild-zu-Bild-Übersetzungsmodellen auf der Basis von Generative Adversarial Networks (GANs) untersucht. Zwei Methoden zur Domänenadaption – entweder auf Pixelebene im Bildraum oder auf höherer Abstraktionsebene in tiefen neuronalen Netzen – werden vorgestellt und in verschiedenen Experimenten zur Korrespondenzsuche zwischen Bildpaaren, visueller Langzeit-Lokalisierung und Structure from Motion verglichen.

Schließlich erfordert die Synthese von homogenen Sequenzen neben der Lokalisierung auch die optische Angleichung der Bilder in einem einheitlichen Erscheinungsbild. Dafür wird ein neuartiges Trainingskonzept mit zwei Modi vorgestellt, das ein multimodales, unüberwachtes Bild-zu-Bild-Übersetzungsmodell explizit darauf trainiert, einen Referenzstil auf die Übersetzungsausgabe anzuwenden.

 

 

 

Zoom-Meeting beitreten

https://fau.zoom.us/j/95512187984?pwd=c282Wm5uQXYrMmRRSTZGdDF3VHRYdz09

Meeting-ID: 955 1218 7984
Kenncode: 934771