Recuperação multimodal de imagens e texto em sensoriamento remoto: tecnologias chave e desafios

WANG Yijing ,  

TANG Xu ,  

HAN Shuo ,  

DU Ruiqi ,  

摘要

A recuperação multimodal de imagens e texto em sensoriamento remoto atua como uma ponte que conecta a linguagem natural às imagens de sensoriamento remoto, visando construir associações semânticas bidirecionais eficientes, sendo uma tecnologia chave para a análise inteligente de dados de sensoriamento remoto. Este artigo oferece uma visão abrangente da evolução tecnológica e do estado da arte da pesquisa no campo da recuperação multimodal de imagens e texto em sensoriamento remoto. Primeiro, analisa detalhadamente as características dos conjuntos de dados de referência principais em termos de escala, categorias de cena e qualidade das anotações textuais, e apresenta um sistema comum de métricas de avaliação para fundamentar pesquisas futuras. Em seguida, revisa a representação das características textuais desde métodos estatísticos tradicionais até aprendizagem profunda, bem como os avanços tecnológicos na representação das características das imagens de sensoriamento remoto desde características manuais até redes neurais profundas. Além disso, ao dividir conforme a adoção ou não de modelos de pré-treinamento multimodal, analisa profundamente os princípios e características dos métodos baseados em pré-treinamento não multimodal e multimodal, revelando, por meio de comparações experimentais em três conjuntos de dados principais, as vantagens de desempenho dos métodos de pré-treinamento multimodal e as regras de adaptação de dados das diferentes estratégias de fine-tuning. Por fim, este artigo resume os desafios centrais das pesquisas atuais, como alinhamento semântico fino, fusão de dados multisource e generalização cross-domain, além da ausência de um mecanismo de correspondência dinâmica temporal, e vislumbra direções futuras em aprimoramento de características finas, modelagem colaborativa de dados multisource heterogêneos e desenvolvimento de mecanismos de alinhamento sensíveis ao tempo, com o objetivo de promover o desenvolvimento aprofundado da tecnologia de recuperação multimodal de imagens e texto em sensoriamento remoto para aplicações práticas.

关键词

imagens de sensoriamento remoto; recuperação multimodal; modelagem das relações texto-imagem; aprendizagem profunda; modelos pré-treinados; alinhamento semântico; representação de características; modelos pré-treinados multimodais

阅读全文