Representations in Object Detection and Instance Segmentation

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Zell, Andreas (Prof. Dr.)
dc.contributor.author Riaz, Hamd Ul Moqeet
dc.date.accessioned 2025-01-14T08:51:14Z
dc.date.available 2025-01-14T08:51:14Z
dc.date.issued 2025-01-14
dc.identifier.uri http://hdl.handle.net/10900/160089
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1600892 de_DE
dc.description.abstract Objekterkennung und Instanzsegmentierung sind neue Technologien, die in verschiedenen Bereichen wie autonomes Fahren, Gesundheit, Mode, Sport usw. eingesetzt werden. Die aktuelle Forschung zielt darauf ab, die Komplexität und Geschwindigkeit dieser Modelle zu verringern und gleichzeitig die Erkennungsleistung zu verbessern. Eine Möglichkeit, dies zu erreichen, ist die effizientere Darstellung von Objekten in den Bildern im Vergleich zu den aktuellen Methoden. In dieser Dissertation wollen wir verschiedene Repräsentationen in der Objekterkennung und Instanzsegmentierung untersuchen, die die Informationen komprimieren, den Trainingsaufwand reduzieren und gleichzeitig aussagekräftige Einblicke in die Repräsentation liefern. Wir zeigen zunächst, wie Class Activation Maps (CAMs) in neuronalen Netzen, die nur auf Klasseninformationen trainiert werden (schwach überwacht), eine vernünftige Schätzung der Position von Personen in Wärmekamerabildern liefern. Darüber hinaus zeigen wir, dass die CAMs-Darstellung verwendet werden kann, um Bounding Boxes mit angemesse Genauigkeit zu erzeugen. Danach verlagern wir den Schwerpunkt dieser Arbeit auf die Aufgabe der Segmentierung von Instanzen. Wir zeigen, dass die Maskeninformation in Koeffizienten der Fourier-Reihe komprimiert werden kann. Wir experimentieren damit unter Verwendung eines einstufigen Objekterkennungssystems, vergleichen die Leistung und nennen unser Modell FourierNet. Wir zeigen, dass die niederfrequenten Komponenten der Fourier-Reihe die allgemeine Forminformation der Objekte enthalten, während die höheren Frequenzen die Ecken und Kanteninformationen enthalten. Unser Modell sagt die Maske in Polarkoordinaten voraus, wodurch nur sternförmige Objekte erzeugt werden können, und nicht-konvexe Masken nicht möglich sind. Um dies zu überwinden verlagern wir unseren Schwerpunkt auf die implizite Darstellung. Zunächst stellen wir eine Verbindung zwischen der Fourier-Reihe und impliziten neuronalen Netzen her. Wir führen das Integer-Fourier-Mapping ein und zeigen, dass es eine Periodizität in impliziten neuronalen Netzen erzwingt. Wir untersuchen und analysieren die Auswirkungen der Anzahl der Elemente und der Standardabweichung auf unsere Leistung. Schließlich zeigen wir, dass die implizite neuronale Repräsentation für die Segmentierung von Instanzen verwendet werden kann. Wir zeigen, dass die Unterabtastung der Pixelkoordinaten in einem impliziten neuronalen Netz eine höher aufgelöste Ausgabe erzeugt, die die qualitative und quantitative Leistung verbessert. de_DE
dc.description.abstract Object detection and instance segmentation are emerging technologies, which are applied in various fields, including autonomous driving, health, fashion, sports, etc. The current research effort aims at reducing the complexity and speed of these models and at the same time improving the detection performance. One of the ways to achieve that is to represent objects in images more efficiently than the state-of-the-art methods. In this dissertation, we aim to investigate various representations in object detection and instance segmentation, which compresses the information, reduces the training effort, and at the same time provides meaningful insights into the representation. We first show how class activation maps (CAMs) provide a reasonable estimate of the location of persons in thermal camera images, in neural networks trained on only class labels (weakly supervised). Furthermore, we show that CAMs representation could be employed to generate bounding boxes with decent accuracy. Thereafter, we shift the focus of this thesis towards the task of instance segmentation. We show that the mask information could be compressed in coefficients of the Fourier series. We experiment with this using a single-stage object detection framework and compare the performance of our model FourierNet. We illustrate that low-frequency components of the Fourier series hold the overall shape information of the objects and higher frequencies contain the corner and edge information. Our model predicts the mask in polar coordinates, which can only generate star-shaped objects. To overcome this, we shift our focus to implicit representations. First, we show a connection of Fourier series with implicit neural networks. We introduce an integer Fourier mapping and show that it forces periodicity in implicit neural networks. We explore and analyze the effect of the number of elements and standard deviation on our performance. Finally, we show that implicit neural representations can be employed for instance segmentation. We show that sub-sampling the pixel coordinates in an implicit neural network generates higher resolution output, which improves the qualitative and quantitative performance. en
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podno de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en en
dc.subject.ddc 004 de_DE
dc.title Representations in Object Detection and Instance Segmentation en
dc.type PhDThesis de_DE
dcterms.dateAccepted 2024-01-31
utue.publikation.fachbereich Informatik de_DE
utue.publikation.fakultaet 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE
utue.publikation.noppn yes de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige