엔티티 안내 및 교차 모달 상호작용 기반 원격 감지 영상 지향 분할

JIA Yuyu ,  

CHI Kaichen ,  

ZHOU Qing ,  

LI Qiang ,  

WANG Qi ,  

摘要

원격 감지 영상 지향 분할은 텍스트 설명에 기반하여 특정 영역을 정확하게 위치시키고 픽셀 수준의 의미 해석을 실현하는 것을 목표로 합니다. 이 작업은 사용자 요구와 원격 감지 영상의 지능형 분석 간의 효과적인 다리를 놓습니다. 그러나 원격 감지 영상 고유의 복잡하고 다양한 배경, 낮은 목표와 배경 대비와 같은 특성은 분할 결과의 물체 혼동을 초래하기 쉽습니다. 또한, 기존의 교차 모달 주의 메커니즘 기반 지향 분할 방법은 모달 간 차이를 해소하는 데 한계가 있어 텍스트 설명과 지리적 특성 간의 정밀한 정렬을 구현하기 어렵습니다. 이에 본 논문은 엔티티 안내 기반의 교차 모달 상호작용 방법인 Enti-CroM을 제안합니다. 먼저, SAM에서 영감을 받은 엔티티 안내 자기 추론 모듈을 도입하여 공간 구조 제약이 있는 엔티티 힌트를 추출하고, 이를 시각적 특징 및 텍스트 특징과 융합하여 엔티티-시각-텍스트 3중 모달 정보 큐브를 구축합니다. 이후 교차 모달 상호작용 단계에서는 계층적 모달 상호작용 메커니즘을 설계하였습니다: (1) 파라미터 없는 모달 상호 활성화를 통해 교차 모달 의미 정보의 효율적 전파를 실현하여 서로 다른 모달 간 의미 격차를 줄입니다; (2) 이를 기반으로 엔티티 안내 하 텍스트-시각 교차 주의 연산을 도입하여 모델의 불규칙한 지리 경계 표현 능력을 더욱 향상시켰습니다. 두 개의 널리 사용되는 벤치마크 데이터셋 RefSegRS와 RRSIS-D에서 수행된 다수의 실험 결과, Enti-CroM은 mIoU 지표에서 각각 1.84%와 4.27%의 성능 향상을 달성하였으며, 여러 최신 방법보다 우수한 성능을 보이며 해당 방법의 유효성과 우수성을 검증하였습니다.

关键词

원격 감지 영상; 지향 분할; 교차 모달 상호작용; SAM; 엔티티 인식; 주의 메커니즘; 공간 구조 제약

阅读全文