Mit der immer tieferen Integration von Fernerkundungstechnologien und künstlicher Intelligenz wächst der Bedarf des Menschen an feineren Anwendungen von Fernerkundungsdaten. Einzeldatensätze haben jedoch Grenzen bei der Interpretation komplexer Szenen, und es ist schwierig, tiefere Informationen aus Fernerkundungsbildern vollständig zu erschließen. Daher wird die gemeinsame Analyse multimodaler Daten zu einem wesentlichen Mittel zur Verbesserung der Interpretationsfähigkeit der Fernerkundung und treibt die weitere Entwicklung in diesem Bereich voran. Das Verstehen von Bildern über Modalitäten hinweg stellt eine Verbindung zwischen Fernerkundungsbildern und der menschlichen Wahrnehmung durch textliche Beschreibungen her, wobei semantische Informationen des Textes zur Verbesserung der visuellen Charakterisierung genutzt werden und die Leistungsfähigkeit der Fernerkundungsinterpretation erheblich verbessert wird. Dieser Artikel konzentriert sich auf das Verstehen von Bildern über Modalitäten hinweg und unterteilt es in vier Aufgaben: Beschreibung von Fernerkundungsbildern, Generierung von Text für Bilder, Ausrichtung von Fernerkundungsbildern und Antworten auf Fragen zu Fernerkundungsbildern. Zunächst wird der aktuelle Stand der weltweiten Modalitätsforschung zusammengefasst, dann werden häufig verwendete öffentliche Datensätze und aktuelle Bewertungsindikatoren für das Verstehen von Bildern über Modalitäten hinweg vorgestellt. Schließlich werden die technischen Herausforderungen des Verstehens von Bildern über Modalitäten hinweg zusammengefasst und Prognosen über zukünftige Forschungsrichtungen erstellt.
关键词
Verstehen von Bildern über Modalitäten hinweg; Beschreibung von Bildern; Generierung von Text für Bilder; Ausrichtung von Fernerkundungsbildern; Antworten auf Fragen zu Bildern; Multimodale Fernerkundungsdatensätze