Mit der tiefen Integration von Fernerkundungstechnologie und künstlicher Intelligenz wird die menschliche Nachfrage nach der Anwendung von Fernerkundungsdaten zunehmend präziser. Jedoch stoßen einmodale Daten an Grenzen bei der Interpretation komplexer Szenarien und es ist schwierig, die tieferen Informationen in Fernerkundungsbildern vollständig zu erschließen. Daher wird die gemeinsame Analyse multimodaler Daten zu einem Schlüssel zur Verbesserung der Interpretationsfähigkeit von Fernerkundungsdaten, was die Entwicklung des Bereichs der Fernerkundung weiter vorantreibt. Das verstehen von textbildübergreifender Modalität etabliert eine Verbindung zwischen Fernerkundungsbildern und menschlicher kognition, indem es semantische Textinformationen zur Stärkung der visuellen Merkmalsrepräsentation nutzt und so eine multimodale Informationskomplementarität erreicht, die die Leistung bei der Interpretation von Fernerkundungsdaten signifikant verbessert. Dieser Artikel, der sich auf das textbildübergreifende Verständnis konzentriert, unterteilt das textbildübergreifende Verständnis der Fernerkundung in vier Aufgaben: Beschreibung von Fernerkundungsbildern, Generierung von Text aus Bildern, Text-Bild-Ausrichtung und Fragen-Antworten zu Fernerkundungsbildern. Zuerst wird der aktuelle Entwicklungszustand der multilateralen Text-Bild-Forschung in China und im Ausland zusammengefasst, anschließend werden die üblicherweise verwendeten öffentlichen Datensätze und Bewertungsmetriken für das textbildübergreifende Verständnis vorgestellt. Schließlich werden die technischen Herausforderungen für das textbildübergreifende Verständnis in der Fernerkundung zusammengefasst und ein Ausblick auf zukünftige Forschungsrichtungen gegeben.