원격 탐사 멀티모달 이미지-텍스트 검색은 자연어와 원격 탐사 영상 사이를 연결하는 다리로서, 효율적인 양방향 의미 연관을 구축하는 것을 목표로 하며 원격 탐사 데이터의 지능형 분석을 위한 핵심 기술입니다. 본문에서는 원격 탐사 멀티모달 이미지-텍스트 검색 분야의 기술 진화와 연구 현황을 전면적으로 개관합니다. 먼저, 주요 벤치마크 데이터셋의 규모, 장면 종류 및 텍스트 주석 품질 측면의 특성을 상세히 분석하고, 후속 연구를 위한 일반적인 평가 지표 체계를 소개합니다. 둘째로, 전통적 통계 기법부터 딥러닝에 이르는 텍스트 특징 표현과 수작업 특징에서 심층 신경망에 이르는 원격 탐사 영상 특징 표현의 기술적 돌파를 검토합니다. 셋째로, 멀티모달 사전학습 모델의 적용 여부에 따라 비멀티모달 및 멀티모달 사전학습 기반 방법의 원리 및 모델 특성을 심층 분석하며, 3개의 주요 데이터셋에서의 실험 비교를 통해 멀티모달 사전학습 방법의 성능 우위와 다양한 미세조정 전략의 데이터 적응 규칙을 밝힙니다. 마지막으로, 본문은 현재 연구가 직면한 세밀한 의미 정렬, 다원 데이터 융합 및 도메인 간 일반화, 그리고 시계열 동적 매칭 메커니즘 부재 등의 핵심 도전과제를 정리하고, 세밀한 특징 강화, 다원 이기종 데이터 협업 모델링, 시계열 인지 정렬 메커니즘 개발 등의 향후 연구 방향을 전망하여 원격 탐사 멀티모달 이미지-텍스트 검색 기술의 실제 응용 심화 발전을 촉진하고자 합니다.
关键词
원격 탐사 영상; 멀티모달 검색; 이미지-텍스트 관계 모델링; 딥러닝; 사전학습 모델; 의미 정렬; 특징 표현; 멀티모달 사전학습 모델