합성개구레이다 SAR(Synthetic Aperture Radar) 영상에는 고유한 일관 잡음 간섭이 존재하여 복잡한 지물 간의 관계를 정확하게 포착하기 어렵기 때문에 SAR 영상의 목표 추출 작업은 매우 도전적이다. 기존의 심층 학습 목표 추출 방법은 일관 잡음 및 복잡한 지물의 영향으로 정확도가 부족한 문제가 있다. 이에 본 연구에서는 주파수 영역-공간 협동 기반의 Transformer 네트워크인 S3T-Net(Spectral-spatial synergetic transformer network)을 제안하여 SAR 영상의 전형적인 목표를 정밀하게 추출한다. 이 네트워크는 주파수 영역 인코딩 유닛과 비주얼 Transformer(ViT) 인코딩 유닛의 이중 인코딩 유닛을 결합하여 SAR 영상의 특징을 추출하고 융합하며, 주파수 영역 인코딩 유닛은 이산 웨이블릿 변환(DWT) 다운샘플링과 주파수-계층 이중 영역 집중(SHDA; Spectral-hierarchical dual-domain attention)을 이용해 주파수 영역에서 SAR 영상의 국부 텍스처 세부를 포착하고 잡음 감도를 낮춘다. ViT 인코딩 유닛은 전역 자기 주의 메커니즘으로 영상의 전체 구조와 장거리 의존성을 이해한다. 또한 본 연구는 협동 가중 특징 융합(SWFC; Synergistic weighted feature confluence)을 활용해 이중 인코딩 유닛 정보를 통합하고, 재귀 주파수-공간 정제(RFSR; Recursive frequency-space refinement) 모듈을 설계하여 업샘플링 과정에서 잡음 간섭을 줄이고 목표 경계를 최적화한다. SARBuD(건물), HRSID(선박), FRBS(유출유) 등 3가지 과제의 공개 SAR 데이터셋 실험 결과, 본 연구에서 제안한 방법은 Dice 지수 등 지표에서 여러 최신 최고 성능(SoTA) 모델을 능가하며 해당 3종 데이터셋에서 Dice 지수를 각각 0.52%, 0.62%, 1.04% 앞선다. 종합하면, 주파수-공간 협동 방법은 높은 간섭 환경에서 지물 정보 포착 능력을 효과적으로 강화하여 SAR 영상 목표 추출 작업에 새로운 기술 경로와 이론적 지원을 제공한다.
关键词
SAR 영상; 목표 추출; 심층 학습, 잡음 억제; 주파수-공간 협동; Transformer