A Cross-Modal Distillation Network for Person Re-identification in RGB-Depth

Un réseau de distillation multimodal pour la ré-identification des personnes en profondeur RVB

Hafner, Frank et Bhuiyan, Amran et Kooij, Julian FP et Granger, Eric

arXiv 2018

Résumé: La ré-identification d'une personne implique la reconnaissance dans le temps d'individus capturés à l'aide de plusieurs capteurs distribués. Avec l'avènement de puissantes méthodes d'apprentissage en profondeur capables d'apprendre des représentations discriminantes pour la reconnaissance visuelle, la ré-identification intermodale des personnes basée sur différentes modalités de capteurs est devenue viable dans de nombreuses applications difficiles, par exemple, la conduite autonome, la robotique et la vidéosurveillance. Bien que certaines méthodes aient été proposées pour la ré-identification entre les images infrarouges et RVB, peu de profondeur d'adresse et d'images RVB. En plus des défis pour chaque modalité associés à l'occlusion, l'encombrement, le désalignement et les variations de pose et d'éclairage, il y a un changement considérable entre les modalités puisque les données des images RVB et de profondeur sont hétérogènes. Dans cet article, un nouveau réseau de distillation intermodale est proposé pour une ré-identification robuste des personnes entre les capteurs RVB et de profondeur. En utilisant un processus d'optimisation en deux étapes, la méthode proposée transfère la supervision entre les modalités de sorte que des caractéristiques structurelles similaires sont extraites à la fois des modalités RVB et de profondeur, ce qui donne une cartographie discriminante à un espace de caractéristiques commun. Nos expériences étudient l'influence de la dimensionnalité de l'espace d'enrobage, compare l'apprentissage par transfert de la profondeur à RVB et vice versa, et se compare à d'autres méthodes de ré-identification multimodales de pointe. Les résultats obtenus avec les ensembles de données BIWI et RobotPKU indiquent que la méthode proposée peut transférer avec succès des caractéristiques structurelles descriptives de la modalité de profondeur à la modalité RVB. Il peut largement surpasser les méthodes conventionnelles de pointe et les réseaux de neurones profonds pour la détection intermodale entre RVB et profondeur, sans impact sur la complexité des calculs.