La géolocalisation des images à vision croisée vise à retrouver les images les plus similaires dans une galerie de référence en utilisant la correspondance entre les images de différents points de vue, puis à utiliser leurs coordonnées géographiques GPS pour réaliser la fonction de géolocalisation. La géolocalisation traditionnelle des images à un seul point de vue est limitée par la qualité, l'échelle et la précision de la géolocalisation, c'est pourquoi de nombreux chercheurs et organisations ont publié ces dernières années une série d'ensembles de données pour la géolocalisation des images à vision croisée, pour poser les bases de données pour améliorer la précision de la géolocalisation. Cependant, il manque actuellement une analyse systématique des ensembles de données pour la géolocalisation des images à vision croisée. Dans cet article, nous avons d'abord passé en revue 32 ensembles de données classiques pour la géolocalisation des images à vision croisée, depuis leur développement, et avons construit un système de classification sur quatre dimensions - information sur le point de vue, type de construction, degré de réalité, information temporelle, et avons résumé les informations de base sur les ensembles de données; puis nous avons mené une analyse approfondie des ensembles de données pour la géolocalisation des images à vision croisée par la description, l'influence, les mots-clés, la source de récupération et le domaine d'application, et avons rassemblé et résumé les principaux algorithmes actuels de géolocalisation des images à vision croisée; enfin, à travers l'analyse des tendances multi-modales des ensembles de données, des grandes méthodes de modélisation, du traitement des images en mouvement et de l'optimisation des modèles, nous avons discuté des orientations futures du développement des ensembles de données pour la géolocalisation des images à vision croisée, qui peuvent être utiles pour les chercheurs dans les domaines concernés.
关键词
vision croisée; géolocalisation d'images; ensemble de données; apprentissage en profondeur; drones; recherche d'images; correspondance d'images; vision par ordinateur