Multimodale Bild-Text-Suche in der Fernerkundung: Schlüsseltechnologien und Herausforderungen

WANG Yijing ,  

TANG Xu ,  

HAN Shuo ,  

DU Ruiqi ,  

摘要

Die multimodale Bild-Text-Suche in der Fernerkundung fungiert als Brücke zwischen der natürlichen Sprache und Fernerkundungsbildern, mit dem Ziel, effiziente bidirektionale semantische Verknüpfungen zu schaffen, und ist eine Schlüsseltechnologie für die intelligente Analyse von Fernerkundungsdaten. Dieser Artikel gibt einen umfassenden Überblick über die technologische Entwicklung und den aktuellen Forschungsstand im Bereich der multimodalen Bild-Text-Suche in der Fernerkundung. Zunächst werden die Merkmale gängiger Benchmark-Datensätze hinsichtlich Umfang, Szenarienkategorien und Qualität der Textannotation detailliert analysiert und ein allgemeines Bewertungssystem vorgestellt, das die Grundlage für weitere Forschungen bildet. Zweitens wird die Darstellung von Textmerkmalen von traditionellen statistischen Methoden bis hin zum Deep Learning sowie technologische Durchbrüche in der Darstellung von Fernerkundungsbildmerkmalen von handgefertigten Merkmalen bis zu tiefen neuronalen Netzen dargestellt. Drittens werden, unterteilt nach der Verwendung multimodaler Vortrainingsmodelle, die Prinzipien und Modellcharakteristika von nicht multimodalen und multimodalen Vortrainingsmethoden tiefgehend analysiert, und durch experimentelle Vergleiche auf drei gängigen Datensätzen werden die Leistungs-vorteile multimodaler Vortrainingsmethoden sowie die Datenanpassungsregeln unterschiedlicher Feinabstimmungsstrategien aufgezeigt. Schließlich fasst dieser Artikel die aktuellen Kernherausforderungen zusammen, darunter feinkörnige semantische Ausrichtung, Fusion von Multisourcedaten und domänenübergreifende Generalisierung sowie das Fehlen eines zeitlichen dynamischen Matching-Mechanismus, und gibt einen Ausblick auf zukünftige Forschungsrichtungen wie die Verstärkung feinkörniger Merkmale, die kollaborative Modellierung heterogener multisourciger Daten und die Entwicklung zeitbewusster Ausrichtungsmechanismen, um die vertiefte Entwicklung multimodaler Bild-Text-Suchtechnologien in der Fernerkundung für praktische Anwendungen zu fördern.

关键词

Fernerkundungsbilder; multimodale Suche; Modellierung von Text-Bild-Beziehungen; Deep Learning; vortrainierte Modelle; semantische Ausrichtung; Merkmalsdarstellung; multimodale vortrainierte Modelle

阅读全文