Inhaltszusammenfassung:
In dieser Dissertation stellen wir neuartige Methoden zur Erfassung von menschlichen Bewegungen und Mensch-Objekt-Interaktionen mithilfe von tragbaren Geräten vor, wobei wir ein Aufnahmesystem verwenden, das aus einer am Kopf montierten Kamera und am Körper montierten IMUs besteht. Während sich die überwiegende Mehrheit der Arbeiten
zur 3D-Rekonstruktion menschlicher Bewegungen auf Aufnahmemethoden von externen Kameras konzentriert, liegt unser Schwerpunkt auf tragbaren Körpersensoren, die oft skalierbarer und einfacher zu verwenden sind. Im Laufe unserer Arbeit lösen wir die Herausforderungen der Erfassung von Bewegungen aus eingeschränkten und verrauschten Daten, der Modellierung von Mensch-Objekt-Interaktionen ohne visuelle Beobachtung und der Reduzierung des Aufnahmesystems auf ein einzelnes am Kopf montiertes Gerät.
Zuvor konnten tragbare Systeme nur die menschliche Bewegung erfassen, sie jedoch nicht innerhalb großer 3D-Szenen lokalisieren. Als ersten Beitrag stellen wir das Human POSEitioning System (HPS) vor, das erste System, das mithilfe des neuen tragbaren Setups mit einer Kamera und IMUs eine langfristige, hochpräzise 3D-Abschätzung der menschlichen Pose und Selbstlokalisierung innerhalb großer Szenen ermöglicht. Es kombiniert Deep-Learning-basierte Kameralokalisierung mit IMU basierter Positionsschätzung und geometrischen Anhaltspunkten aus Szenenpunktwolken in einem einzelnem Optimierungsalgorithmus. Dadurch kann HPS die menschliche Bewegung rekonstruieren und innerhalb der Szene lokalisieren, während physikalische Einschränkungen wie Fuß-Boden-Kontakte berücksichtigt werden. HPS demonstriert die Machbarkeit der Erfassung umfangreicher menschlicher Bewegungsdaten über längere Zeiträume, was zur Sammlung des HPS-Datensatzes führte -- eines Datensatzes langer menschlicher Aktivitäten in großen Szenen, der sich als Benchmark in diesem Bereich etablierte. Zusammen wurden das HPS-System und der HPS-Datensatz zu einem Sprungbrett für zukünftige Forschungen zur tragbaren Bewegungserfassung.
Unser nächster Beitrag erweitert die Fähigkeiten tragbarer Systeme weiter. Wir lockern die Hauptannahme von HPS -- statische Szenen -- und präsentieren iReplica, eine wegweisende Methode zur Erfassung von Mensch-Objekt-Interaktionen und zur Modellierung dynamischer Szenenänderungen mit einer Kopfkamera und am Körper montierten IMUs. Um die Herausforderungen der eingeschränkten Objektsichtbarkeit und der menschlichen Lokalisierungsartefakte zu lösen, entwickeln wir innovative Algorithmen zur Kontakterkennung aus Bewegungsmustern und zur Korrektur der Position des Subjekts anhand der Interaktionen. Zusammen ermöglichten diese Ideen zum ersten Mal die Modellierung von Mensch-Objekt-Interaktionen ohne externe Sensoren. Um unser Modell zu trainieren, sammelten wir einen neuen Datensatz, der mehrere Stunden Interaktionsdaten, Kontaktzeiten und Videos aus der Egoperspektive umfasste, die wir öffentlich zugänglich gemacht haben, um weitere Fortschritte in diesem Bereich zu fördern.
Das oben erwähnte tragbare System zeigt großartige Ergebnisse, erfordert jedoch mehrere am Körper getragene Geräte, um menschliche Bewegungen zu erfassen. Unser nächster Beitrag reduziert die Anzahl der Sensoren auf einen einzigen am Kopf getragenen Sensor. Während es zunächst unmöglich erscheint, die gesamte Körperbewegung mit so einem minimalistischen Aufbau wiederherzustellen, besteht unsere Kernidee darin, die Informationen über die Umgebung des Subjekts optimal zu nutzen. Wir präsentieren HMD2 -- eine erste Methode zur Bewegungsgenerierung, die, zusätzlich zu den dünnbesetzten Bewegungseingaben, Umgebungsinformationen verwendet, die aus der egozentrischen Perspektive gewonnen wurden. Es basiert auf einem diffusionsbasierten Bewegungsmodell, das menschliche Bewegungen abhängig von Videostreams, Gerätetrajektorien und lokalen Szenenpunktwolkenrekonstruktionen generiert, die alle vom selben am Kopf getragenen Gerät stammen. Unsere Experimente zeigen, dass der Kontext der Szene und die Sensorbahn ausreichen, um plausible menschliche Bewegungen zu erzeugen, die in den meisten Situationen eng mit der Grundwahrheit übereinstimmen. HMD2 reduziert die Hardwareanforderungen erheblich und eröffnet neue Möglichkeiten für Anwendungen in Smart Glasses und anderen minimalistischen tragbaren Technologien.
Insgesamt bringt diese Dissertation das Feld der tragbaren Bewegungserfassung voran, indem sie sich mit den wichtigsten Herausforderungen im Zusammenhang mit egozentrischen Erfassungssystemen befasst und innovative Lösungen präsentiert, die mehrere Eingabemodalitäten mit neuartigen Fusionsalgorithmen kombinieren. Die vorgeschlagenen Methoden und gesammelten Datensätze ebnen den Weg für zukünftige Forschung und praktische Anwendungen in Bereichen, die das Verständnis und die Nachbildung menschlichen Verhaltens erfordern, wie Augmented Reality, virtuelle Präsenzsoftware und Robotik.
Abstract:
In this thesis, we introduce novel methods for human motion and human-object interaction capturing from wearable devices using a capturing setup consisting of a head-mounted camera and body-mounted IMUs. While the vast majority of works
in 3D human motion reconstruction have focused on capture methods from external cameras, we concentrate on wearable body sensors, which are often more scalable and easier to use. Through the course of our work, we solve the challenges of capturing motion from restricted and noisy data, modeling human-object interactions without visually observing them and reducing the capturing system to a single head-mounted device.
Before this thesis, wearable systems could recover human motion itself but could not localize it within large 3D scenes. As the first contribution, we introduce the Human POSEitioning System (HPS), the first system to enable long-term, high-accuracy 3D human pose estimation and self-localization within large scenes using the new wearable setup with a camera and IMUs. It combines deep learning-based camera localization with inertial pose estimation data and geometric clues from scene point clouds in the joint optimization algorithm. This enables HPS to recover the human motion and localize it within the scene while satisfying physical constraints such as foot-ground contacts. HPS demonstrates the feasibility of capturing extensive human motion data over extended periods, resulting in the collection of the HPS dataset -- a dataset of long human activities in large scenes that established itself as a benchmark in the field. Together, the HPS system and dataset became a stepping stone for future research in wearable motion capture.
Our next contribution extends the capabilities of wearable systems further. We relax the primary assumption of HPS -- static scenes -- and present iReplica, a pioneering method to capture human-object interactions and model dynamic scene changes with a head camera and body-mounted IMUs. To solve the challenges of limited object visibility and human localization artifacts, we develop innovative algorithms for contact detection from motion and subject position correction from interactions. Together, these ideas allowed, for the first time, to model human-object interactions without external sensors. To train our model, we collected a new dataset comprising several hours of interaction data, contact timings, and first-person view camera videos, which we have made publicly available to encourage further progress on the topic.
The aforementioned wearable system demonstrates great results but requires multiple body-mounted devices to capture human motion. Our next contribution reduces the number of sensors down to a single head-mounted device. While, at first, it seems impossible to recover the full body motion with such a minimalistic setup, our key idea is to use the information about the subject's surroundings to its fullest potential. We present HMD2 -- a first motion generation method that uses environment information obtained from the egocentric perspective in addition to the sparse motion input. It is powered by a diffusion-based motion model that generates human motion conditioned on video streams, device trajectories, and local scene point cloud reconstructions, all obtained from the same head-mounted device. Through our experiments, we demonstrate that the context of the scene and the device trajectory are sufficient to generate plausible human motion, closely matching the ground truth in most situations. HMD2 greatly simplifies the hardware requirements and opens up new possibilities for applications in smart glasses and other minimalistic wearable technologies.
Overall, this thesis advances the field of wearable motion capture by addressing key challenges associated with egocentric capture systems and presents innovative solutions that blend multiple input modalities with novel fusion algorithms. The proposed methods and collected datasets pave the way for future research and practical applications in fields that require understanding and replication of human behavior, such as augmented reality, virtual presence software, and robotics.