Mit der tiefen Verschmelzung von Fernerkundungstechnologien und künstlicher Intelligenz wird der menschliche Bedarf an Anwendungen von Fernerkundungsdaten immer präziser. Daten eines einzigen Modus weisen jedoch Grenzen bei der Interpretation komplexer Szenen auf und es ist schwierig, tiefe Informationen aus Fernerkundungsbildern vollständig zu erschließen. Daher wird die koordinierte Analyse multi-modaler Daten zu einem Schlüsselweg, um die Fähigkeiten der Fernerkundungsinterpretation zu verbessern, und treibt die kontinuierliche Entwicklung im Bereich der Fernerkundung voran. Die multimodale Verständnis von Bildern und Texten schafft eine Verbindung zwischen Fernerkundungsbildern und menschlicher Wahrnehmung durch textuelle Beschreibungen, nutzt semantische Informationen zur Stärkung der visuellen Charakterisierung und verbessert deutlich die Leistung der Fernerkundungsinterpretation. Dieser Artikel unterteilt das multimodale Verständnis von Fernerkundungsbildern und Texten in vier Aufgaben: die Beschreibung von Fernerkundungsbildern, die Erzeugung von Text aus Bildern, die Ausrichtung von Fernerkundungsbildern und Texten und Fragen zu Fernerkundungsbildern. Zunächst fasst er die Entwicklungen in der internationalen und nationalen Forschung zum multimodalen Verständnis von Bildern und Texten zusammen, präsentiert dann kurz die häufig verwendeten öffentlichen Datensätze für das multimodale Verständnis von Bildern und Texten sowie die Bewertungskriterien und schließt mit einer Zusammenfassung der technischen Herausforderungen des multimodalen Verständnisses von Fernerkundungsbildern und Texten sowie einem Ausblick auf zukünftige Forschungsrichtungen ab.