Learning Data-Driven Representations for Robust Monocular Computer Vision Applications

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-72121
http://hdl.handle.net/10900/50017
Dokumentart: Dissertation
Erscheinungsdatum: 2013
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Bülthoff, Heinrich (Prof. Dr.)
Tag der mündl. Prüfung: 2013-08-26
DDC-Klassifikation: 004 - Informatik
Schlagworte: Maschinelles Sehen , Bildverstehen , Wegmessung , Psychophysik , Objektverfolgung , Visuelle Orientierung , Maschinelles Lernen , Objekterkennung
Freie Schlagwörter: Visuelle Odometrie , Eigenbewegungsschätzung , Orientierungsschätzung , Fluchtpunktschätzung
Computer Vision , Machine Learning , Self-Motion Estimation , Horizon Estimation , Object Orientation Estimation
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Die vorliegende Arbeit stellt drei neue datengetriebene Darstellungen von Bildern und Bildsequenzen für Anwendungen im Bereich des maschinellen Bildverstehens vor. Die ersten beiden Darstellungen finden ihre Anwendungen in der Interpretation von Bildsequenzen, die von einem bewegten Fahrzeug mit einer einzelnen Kamera aufgenommen werden. Durch Projektion des optischen Flusses zwischen aufeinanderfolgenden Bildern in einen erlernten Subraum von Flussvektoren wird die Behandlung von fehlenden Beobachtungen, Fehlern in der Flussberechnung, Fluss von bewegten Objekten und anderen Verletzungen des Interpretationsmodells auf natürliche Weise ermöglicht. Der Anteil des optischen Flusses, der durch die Eigenbewegung der Kamera erzeugt wurde, kann durch eine erlernte lineare Abbildung auf Rotation und Vorwärtsbewegung des Fahrzeugs abgebildet werden. Die zweite Repräsentation nutzt Ergebnisse der Objekterkennung und Statistik auf zirkulären Variablen um den Ansichtswinkel auf Objekte zu schätzen und in Form einer multimodalen Verteilung darzustellen. Dies erlaubt, die Mehrdeutigkeiten im Zusammenhang zwischen Aussehen und Orientierung eines Objekts korrekt der weitern Verarbeitung zuzuführen. Eine zeitliche Integration solcher Verteilungen durch einen Partikelfilter wird vorgestellt, die eine konsistente Zustandsverfolgung von Ansichtswinkeln ermöglicht. Es wird weiter gezeigt, dass die Verfolgung von Position, Orientierung, Geschwindigkeit und Radeinschlag eines Fahzeugs von einer bewegten Kamera aus verbessert werden kann, indem man mehrdeutige Ansichtswinkelschätzungen hinzufügt. Um die Erzeugung einer ganzheitlichen ’Quintessenz’ (engl.: ’gist’) eines Bildes geht es im letzten Teil der Arbeit. Laut Forschungsergebnissen zur menschlichen Wahrnehmung entsteht diese Darstellung im menschlichen Gehirn innerhalb weniger hundert Millisekunden und bildet die Basis für die weitere Verarbeitung des Gesehenen. Dies wird durch einen Algorithmus nachgebildet, der Ergebnisse von Oberflächenorientierungsschätzung, Objekterkennern, Szenentypklassifikatoren, und Schätzungen von Kamerahöhe und -Neigung mit erlerntem Vorwissen kombiniert, indem er iterativ eine Auswahl von Teilergebnissen zusammenstellt, die konsistent zueinander sind. In mehreren Experimenten wird gezeigt, dass der Horizont im Bild Teil dieser Darstellung ist und untersucht welche Informationsquellen zu seiner Schätzung in Mensch und Computer benutzt werden.

Abstract:

For computer vision applications, one crucial step is the choice of a suitable representation of image data. Learning such representations from observed data using machine learning methods has allowed computer vision applications to be applied in a wider range of every-day scenarios. Three new representations for applications using data from a single camera are presented in this work together with algorithms for learning these from training data. The first two representations are applied to image sequences taken by a single camera located in a moving vehicle. By calculating optical flow and representing the resulting vector field as point in a learned linear subspace greatly simplifies the interpretation of the flow. It allows not only to estimate the vehicle's self-motion by means of a learned linear mapping, but also to identify independently moving objects, wrong flow vectors, and cope with missing vectors in homogeneous image regions. The second representation uses work in object detection and circular statistics to estimate the orientation of observed objects. Orientation knowledge is represented as a multi-modal probability distribution in a circular space, which allows to capture ambiguities in the mapping from appearance to orientation. This ambiguity can be resolved in further processing steps, the use of a particle filter for temporal integration and consistent orientation tracking is presented. Extending the filtering framework to include object position, orientation, speed and front wheel angle, results show improved tracking of other vehicles observed by a moving camera. The third new representation aims at capturing the gist of an image, mimicking the first stages of human visual processing. Having formed after only a few hundred milliseconds, this gist forms the basis for further visual processing. By combining algorithms for surface orientation estimation, object detection, scene type classification and viewpoint estimation with general knowledge in an iterative fashion, the proposed algorithm tries to form a consistent, general-purpose representation of a single image. In several psychophysical experiments, it is shown that the horizon is part of this visual gist in humans and that several queues are important for its estimation by human and machine.

Das Dokument erscheint in: