La geolocalización de imágenes con visión cruzada tiene como objetivo recuperar las imágenes más similares en una galería de referencia utilizando la correspondencia entre imágenes de diferentes puntos de vista, y luego utilizar sus coordenadas geográficas GPS para realizar la función de geolocalización. La geolocalización tradicional de imágenes con un solo punto de vista está limitada por la calidad, la escala y la precisión de la geolocalización, por lo que en los últimos años muchos investigadores y organizaciones han publicado una serie de conjuntos de datos para la geolocalización de imágenes con visión cruzada, para sentar las bases de datos para mejorar la precisión de la geolocalización. Sin embargo, actualmente falta un análisis sistemático de los conjuntos de datos para la geolocalización de imágenes con visión cruzada. En este artículo, primero revisamos 32 conjuntos de datos clásicos para la geolocalización de imágenes con visión cruzada, desde su desarrollo, y construimos un sistema de clasificación en cuatro dimensiones: información de punto de vista, tipo de construcción, grado de realidad, información temporal, y resumimos la información básica sobre los conjuntos de datos; luego realizamos un análisis profundo de los conjuntos de datos para la geolocalización de imágenes con visión cruzada a través de la descripción, la influencia, las palabras clave, la fuente de obtención y el ámbito de aplicación, y reunimos y resumimos los principales algoritmos actuales de geolocalización de imágenes con visión cruzada; finalmente, a través del análisis de las tendencias multi-modales de los conjuntos de datos, los grandes métodos de modelado, el procesamiento de imágenes en movimiento y la optimización de modelos, discutimos las futuras direcciones del desarrollo de los conjuntos de datos para la geolocalización de imágenes con visión cruzada, que pueden ser útiles para los investigadores en los campos relevantes.
关键词
visión cruzada; geolocalización de imágenes; conjunto de datos; aprendizaje profundo; drones; búsqueda de imágenes; coincidencia de imágenes; visión por computadora