Mit der tiefgreifenden Integration von Fernerkundungstechnologie und Künstlicher Intelligenz werden die Anforderungen der Menschen an die Anwendung von Fernerkundungsdaten immer differenzierter. Einzelmodalitätsdaten weisen jedoch Einschränkungen bei der Interpretation komplexer Szenen auf, wodurch es schwierig ist, tiefgreifende Informationen in Fernerkundungsbildern vollständig zu erschließen. Daher ist die kooperative Analyse multimodaler Daten ein entscheidender Weg zur Verbesserung der Fernerkundungsinterpretationsfähigkeiten und treibt die weitere Entwicklung des Fernerkundungsbereichs voran. Das multimodale Verständnis von Bild und Text in der Fernerkundung stellt durch Textbeschreibungen eine Verbindung zwischen Fernerkundungsbildern und menschlicher Kognition her, nutzt semantische Textinformationen zur Verbesserung der visuellen Merkmalsrepräsentation, realisiert eine komplementäre Informationsübertragung zwischen Modalitäten und verbessert die Fernerkundungsinterpretationsleistung erheblich. Diese Arbeit nimmt das multimodale Verständnis von Bild und Text in der Fernerkundung als Hauptlinie und unterteilt es in vier Aufgaben: Fernerkundungsbildbeschreibung, Textgenerierung von Bildern, multimodale Bild-Text-Ausrichtung und Fernerkundungs-Bild-Fragen. Zunächst wird der Entwicklungsstand der multimodalen Forschung im In- und Ausland zusammengefasst; anschließend werden häufig verwendete öffentliche Datensätze und Bewertungsmetriken vorgestellt; abschließend werden die technischen Herausforderungen des multimodalen Verständnisses von Bild und Text in der Fernerkundung zusammengefasst und zukünftige Forschungsrichtungen skizziert.