Após o treinamento com grandes volumes de dados gerais, os modelos visuais-linguísticos possuem certa capacidade de compreensão imagem-texto, apresentando desempenho excelente em tarefas como classificação zero-shot, classificação com poucos exemplos, recuperação imagem-texto, legendas de imagem, perguntas visuais e localização visual. Contudo, ao lidar com imagens de áreas especializadas, como sensoriamento remoto, seu desempenho frequentemente diminui significativamente devido à diferença de distribuição de domínio. Nos últimos dois anos, vários pesquisadores têm estudado a especialização dos modelos visuais-linguísticos para o domínio do sensoriamento remoto. Foram construídos múltiplos grandes conjuntos de dados com pares de imagens e textos de sensoriamento remoto para realizar o fine-tuning dos modelos visuais-linguísticos nesse domínio, conferindo-lhes capacidade de percepção geográfica. Este artigo, centrado na tarefa de classificação zero-shot, seleciona e analisa pesquisas relacionadas a modelos visuais-linguísticos para sensoriamento remoto que suportam essa tarefa. Utilizando método de análise comparativa, resumiu o desenvolvimento dos modelos visuais-linguísticos para sensoriamento remoto em três dimensões: construção de conjuntos de dados imagem-texto de sensoriamento remoto, estratégias de fine-tuning do modelo e melhorias arquiteturais. Os resultados indicam que o desempenho dos modelos visuais-linguísticos no domínio de sensoriamento remoto para classificação zero-shot depende altamente de pares de dados imagem-texto anotados de alta qualidade e em grande escala, além de estar limitado por alto desempenho computacional. Além disso, o desenvolvimento atual dos modelos é bastante disperso e diversificado, dificultando o estabelecimento de uma avaliação padrão unificada. Pesquisas futuras devem focar no desenvolvimento de arquiteturas leves que integrem conhecimentos a priori geoespaciais e no estabelecimento de um sistema unificado de avaliação padrão para modelos visuais-linguísticos em sensoriamento remoto.
关键词
Interpretação inteligente de sensoriamento remoto; modelos visuais-linguísticos; modelos visuais-linguísticos para sensoriamento remoto; técnicas de fine-tuning de modelos; aprendizado multimodal; alinhamento imagem-texto; classificação zero-shot; construção de conjuntos de dados de sensoriamento remoto