Forschungsfortschritte im multimodalen Verständnis von Bild und Text in Fernerkundungsszenen

ZHENG Xiangtao; ZHAO Zhengying; SONG Baogui; LI Hao; LU Xiaoqiang

doi:10.11834/jrs.20255125

Forschungsfortschritte im multimodalen Verständnis von Bild und Text in Fernerkundungsszenen

DOI：10.11834/jrs.20255125

摘要

Mit der tiefgreifenden Integration von Fernerkundungstechnologie und Künstlicher Intelligenz werden die Anforderungen der Menschen an die Anwendung von Fernerkundungsdaten immer differenzierter. Einzelmodalitätsdaten weisen jedoch Einschränkungen bei der Interpretation komplexer Szenen auf, wodurch es schwierig ist, tiefgreifende Informationen in Fernerkundungsbildern vollständig zu erschließen. Daher ist die kooperative Analyse multimodaler Daten ein entscheidender Weg zur Verbesserung der Fernerkundungsinterpretationsfähigkeiten und treibt die weitere Entwicklung des Fernerkundungsbereichs voran. Das multimodale Verständnis von Bild und Text in der Fernerkundung stellt durch Textbeschreibungen eine Verbindung zwischen Fernerkundungsbildern und menschlicher Kognition her, nutzt semantische Textinformationen zur Verbesserung der visuellen Merkmalsrepräsentation, realisiert eine komplementäre Informationsübertragung zwischen Modalitäten und verbessert die Fernerkundungsinterpretationsleistung erheblich. Diese Arbeit nimmt das multimodale Verständnis von Bild und Text in der Fernerkundung als Hauptlinie und unterteilt es in vier Aufgaben: Fernerkundungsbildbeschreibung, Textgenerierung von Bildern, multimodale Bild-Text-Ausrichtung und Fernerkundungs-Bild-Fragen. Zunächst wird der Entwicklungsstand der multimodalen Forschung im In- und Ausland zusammengefasst; anschließend werden häufig verwendete öffentliche Datensätze und Bewertungsmetriken vorgestellt; abschließend werden die technischen Herausforderungen des multimodalen Verständnisses von Bild und Text in der Fernerkundung zusammengefasst und zukünftige Forschungsrichtungen skizziert.

关键词

Multimodale Fernerkundung Text-Bild; Bildbeschreibung; Textgenerierung von Bildern; Bild-Text-Ausrichtung; Bild-Fragen-Antworten; multimodale Fernerkundungsdatensätze

阅读全文

Forschungsfortschritte im multimodalen Verständnis von Bild und Text in Fernerkundungsszenen

ZHENG Xiangtao ,

ZHAO Zhengying ,

SONG Baogui ,

LI Hao ,

LU Xiaoqiang ,

DOI：10.11834/jrs.20255125

摘要

关键词