Advances in remote sensing image-text cross-modal understanding

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

Mit der tiefen Verschmelzung von Fernerkundungstechnologien und künstlicher Intelligenz wird der menschliche Bedarf an Anwendungen von Fernerkundungsdaten immer präziser. Daten eines einzigen Modus weisen jedoch Grenzen bei der Interpretation komplexer Szenen auf und es ist schwierig, tiefe Informationen aus Fernerkundungsbildern vollständig zu erschließen. Daher wird die koordinierte Analyse multi-modaler Daten zu einem Schlüsselweg, um die Fähigkeiten der Fernerkundungsinterpretation zu verbessern, und treibt die kontinuierliche Entwicklung im Bereich der Fernerkundung voran. Die multimodale Verständnis von Bildern und Texten schafft eine Verbindung zwischen Fernerkundungsbildern und menschlicher Wahrnehmung durch textuelle Beschreibungen, nutzt semantische Informationen zur Stärkung der visuellen Charakterisierung und verbessert deutlich die Leistung der Fernerkundungsinterpretation. Dieser Artikel unterteilt das multimodale Verständnis von Fernerkundungsbildern und Texten in vier Aufgaben: die Beschreibung von Fernerkundungsbildern, die Erzeugung von Text aus Bildern, die Ausrichtung von Fernerkundungsbildern und Texten und Fragen zu Fernerkundungsbildern. Zunächst fasst er die Entwicklungen in der internationalen und nationalen Forschung zum multimodalen Verständnis von Bildern und Texten zusammen, präsentiert dann kurz die häufig verwendeten öffentlichen Datensätze für das multimodale Verständnis von Bildern und Texten sowie die Bewertungskriterien und schließt mit einer Zusammenfassung der technischen Herausforderungen des multimodalen Verständnisses von Fernerkundungsbildern und Texten sowie einem Ausblick auf zukünftige Forschungsrichtungen ab.

关键词

remote sensing image-text cross-modal;image captioning;text-to-image generation;image-text alignment;visual question answering;remote sensing cross-modal datasets

阅读全文