La segmentation dirigée des images de télédétection vise à localiser et analyser précisément des régions spécifiques à partir de descriptions textuelles, réalisant ainsi une interprétation sémantique au niveau des pixels. Cette tâche établit efficacement un pont entre les besoins des utilisateurs et l’analyse intelligente des images de télédétection. Cependant, les caractéristiques inhérentes aux images de télédétection, telles que le fond complexe et varié et le faible contraste entre l’objet et l’arrière-plan, peuvent entraîner une confusion des entités dans les résultats de segmentation. De plus, les méthodes traditionnelles de segmentation dirigée basées sur les mécanismes d’attention multimodale présentent des insuffisances dans la réduction des écarts entre les modalités, rendant difficile un alignement précis entre la description textuelle et les caractéristiques géographiques. En réponse, cet article propose une méthode d’interaction multimodale guidée par les entités, appelée Enti-CroM. Tout d’abord, un module d’inférence auto-dirigée par entité inspiré par SAM est introduit pour extraire des indices d’entités avec des contraintes de structure spatiale, qui sont fusionnés avec les caractéristiques visuelles et textuelles pour construire un cube d’information tri-modal entité-visuel-texte. Ensuite, lors de la phase d’interaction multimodale, un mécanisme d’interaction hiérarchique est conçu : (1) grâce à une activation mutuelle intermodale sans paramètres, une propagation efficace de l’information sémantique intermodale est réalisée, réduisant ainsi le fossé sémantique entre les différentes modalités ; (2) sur cette base, une opération d’attention croisée texte-visuel guidée par entité est introduite pour améliorer la capacité du modèle à représenter les frontières géographiques irrégulières. De nombreux résultats expérimentaux sur deux ensembles de données de référence largement utilisés, RefSegRS et RRSIS-D, montrent qu’Enti-CroM améliore la métrique mIoU respectivement de 1,84 % et 4,27 %, surpassant plusieurs méthodes avancées actuelles, validant ainsi l’efficacité et la supériorité de cette approche.
关键词
images de télédétection; segmentation dirigée; interaction multimodale; SAM; conscience des entités; mécanisme d’attention; contrainte de structure spatiale