Progresso da pesquisa em compreensão intermodal texto-imagem de cenas de sensoriamento remoto

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

Com a profunda integração da tecnologia de sensoriamento remoto e inteligência artificial, a demanda humana por aplicações de dados de sensoriamento remoto torna-se cada vez mais refinada. No entanto, dados unimodais apresentam limitações na interpretação de cenas complexas, dificultando a extração total de informações profundas contidas nas imagens de sensoriamento remoto. Por isso, a análise colaborativa de dados multimodais tornou-se um caminho chave para melhorar as capacidades de interpretação do sensoriamento remoto e impulsionar o desenvolvimento contínuo do campo. A compreensão intermodal texto-imagem em sensoriamento remoto estabelece uma ligação entre as imagens de sensoriamento remoto e a cognição humana através de descrições textuais, utilizando informações semânticas do texto para fortalecer a representação das características visuais, realizando a complementaridade entre modalidades, o que melhora significativamente o desempenho da interpretação do sensoriamento remoto. Este artigo toma a compreensão intermodal texto-imagem em sensoriamento remoto como linha principal, dividindo-a em quatro tarefas: descrição de imagens de sensoriamento remoto, geração de imagens a partir de texto, alinhamento texto-imagem em sensoriamento remoto e perguntas e respostas sobre imagens de sensoriamento remoto. Primeiro, resume o estado do desenvolvimento das pesquisas nacionais e internacionais sobre compreensão intermodal texto-imagem; depois apresenta os conjuntos de dados públicos e as métricas de avaliação comuns; por fim, resume os desafios técnicos enfrentados na compreensão intermodal texto-imagem em sensoriamento remoto e discute as direções futuras de pesquisa.

关键词

Sensoriamento remoto multimodal texto-imagem; descrição de imagens; geração de imagens a partir de texto; alinhamento texto-imagem; perguntas e respostas sobre imagens; conjuntos de dados multimodais de sensoriamento remoto

阅读全文