Zeigegerichtete Fernerkundungsbildsegmentierung mit Entitätsführung und multimodaler Interaktion

JIA Yuyu ,  

CHI Kaichen ,  

ZHOU Qing ,  

LI Qiang ,  

WANG Qi ,  

摘要

Die zeigegerichtete Segmentierung von Fernerkundungsbildern zielt darauf ab, basierend auf Textbeschreibungen spezifische Bereiche präzise zu lokalisieren und zu analysieren, um eine semantische Interpretation auf Pixelebene zu erreichen. Diese Aufgabe baut effektiv eine Brücke zwischen den Nutzeranforderungen und der intelligenten Analyse von Fernerkundungsbildern. Dennoch führen die inhärenten Merkmale von Fernerkundungsbildern wie komplexe und vielfältige Hintergründe sowie ein geringer Kontrast zwischen Ziel und Hintergrund häufig zu Verwechslungen bei den Segmentierungsergebnissen. Darüber hinaus weisen traditionelle zeigegerichtete Segmentierungsmethoden auf Basis von multimodalen Aufmerksamkeitsmechanismen Defizite bei der Überbrückung der Modalitätsunterschiede auf, was eine präzise Abstimmung zwischen Textbeschreibungen und geografischen Merkmalen erschwert. Vor diesem Hintergrund wird in diesem Artikel eine multimodale Interaktionsmethode mit Entitätsführung — Enti-CroM — vorgeschlagen. Zunächst wird ein von SAM inspiriertes, entitätsgeführtes selbstinferierendes Modul eingeführt, um Entitätshinweise mit räumlich-strukturellen Einschränkungen zu extrahieren und diese mit visuellen und textuellen Merkmalen zu verschmelzen, wodurch ein Entität-Visuell-Text-Dreimodalitäts-Informationswürfel aufgebaut wird. Anschließend wird in der multimodalen Interaktionsphase ein hierarchischer Modalitätsinteraktionsmechanismus entwickelt: (1) durch parameterlose modale gegenseitige Aktivierung wird eine effiziente Übertragung semantischer Informationen über Modalitäten hinweg erreicht, wodurch die semantische Kluft zwischen unterschiedlichen Modalitäten verringert wird; (2) darauf aufbauend wird eine entitätsgeführte Text-Visuell-Cross-Attention-Operation eingeführt, um die Fähigkeit des Modells zur Darstellung unregelmäßiger geografischer Grenzen weiter zu verbessern. Umfangreiche experimentelle Ergebnisse auf zwei weit verbreiteten Benchmark-Datensätzen RefSegRS und RRSIS-D zeigen, dass Enti-CroM die mIoU-Metrik um jeweils 1,84 % bzw. 4,27 % verbessert und damit aktuelle fortschrittliche Methoden übertrifft, was die Effektivität und Überlegenheit dieses Verfahrens bestätigt.

关键词

Fernerkundungsbilder; zeigegerichtete Segmentierung; multimodale Interaktion; SAM; Entitätsbewusstsein; Aufmerksamkeitsmechanismus; räumliche Strukturrestriktion

阅读全文