上一篇
|
下一篇
エンティティ誘導とクロスモーダル相互作用によるリモートセンシング画像指向的セグメンテーション
JIA Yuyu
,
CHI Kaichen
,
ZHOU Qing
,
LI Qiang
,
WANG Qi
,
DOI:
10.11834/jrs.20255370
摘要
リモートセンシング画像の指向的セグメンテーションは、テキストによる記述に基づいて特定領域を正確に位置特定し、ピクセルレベルでの意味解釈を実現することを目的としています。このタスクはユーザーの要望とリモートセンシング画像のインテリジェント解析との間に効果的な橋渡しを構築します。しかし、リモートセンシング画像特有の複雑多様な背景や対象と背景のコントラストが低いという特性は、セグメンテーション結果における地物の混同を引き起こしやすいです。さらに、従来のクロスモーダル注意機構に基づく指向的セグメンテーション手法は、モーダル間のギャップを埋めることが十分でなく、テキスト記述と地理的特徴との精緻な整合を実現しにくいです。これを受け、本論文ではエンティティ誘導型のクロスモーダル相互作用手法であるEnti-CroMを提案します。まず、SAMから着想を得たエンティティ誘導自己推論モジュールを導入し、空間構造制約を有するエンティティヒントを抽出し、これを視覚特徴とテキスト特徴と融合させてエンティティ-視覚-テキストの三モーダル情報キューブを構築します。次に、クロスモーダル相互作用段階において、階層的なモーダル相互作用メカニズムを設計しました:(1)パラメータを持たないモーダル間の相互活性化により、クロスモーダルの意味情報の効率的な伝播を実現し、異なるモーダル間の意味的ギャップを縮小します;(2)これを基に、エンティティ誘導下のテキスト-視覚クロスアテンション演算を導入し、不規則な地理的境界の表現能力をさらに向上させます。2つの広く使用されているベンチマークデータセットRefSegRSとRRSIS-Dでの大量の実験結果により、Enti-CroMはmIoU指標でそれぞれ1.84%および4.27%の性能向上を達成し、最新の多数の先進的手法を上回る性能で、本手法の有効性と優越性を検証しました。
关键词
リモートセンシング画像; 指向的セグメンテーション; クロスモーダル相互作用; SAM; エンティティ認識; アテンション機構; 空間構造制約
阅读全文