원격탐사 기술과 인공지능의 깊은 융합으로 인해 인간의 원격탐사 데이터 활용 요구가 점점 세분화되고 있다. 그러나 단일 모달리티 데이터는 복잡한 장면 해석에 한계가 있어 원격탐사 이미지 내 깊은 정보를 충분히 발굴하기 어렵다. 이에 다중 모달리티 데이터 협동 분석이 원격탐사 해석 능력 향상의 핵심 경로가 되었으며 원격탐사 분야의 지속적인 발전을 견인하고 있다. 원격탐사 이미지-텍스트 간 교차 모달 이해는 텍스트 설명을 통해 원격탐사 이미지와 인간 인지 간의 연결고리를 구축하며, 텍스트의 의미 정보를 활용하여 시각적 특징 표현을 강화하고 교차 모달 정보 상호 보완을 실현, 원격탐사 해석 성능을 크게 향상시킨다. 본 논문은 원격탐사 이미지-텍스트 교차 모달 이해를 주제로 하여, 원격탐사 이미지 설명, 텍스트 기반 이미지 생성, 원격탐사 이미지-텍스트 정렬, 원격탐사 이미지 질의응답의 네 가지 과제로 나누었다. 우선 국내외 이미지-텍스트 교차 모달 연구 동향을 개괄하고; 이어서 원격탐사 이미지-텍스트 교차 모달 이해에 자주 사용되는 공개 데이터셋과 평가 지표를 소개하며; 마지막으로 원격탐사 이미지-텍스트 교차 모달 이해가 직면한 기술적 도전과 미래 연구 방향을 전망한다.
关键词
원격탐사 이미지-텍스트 교차 모달; 이미지 설명; 텍스트 기반 이미지 생성; 이미지-텍스트 정렬; 이미지 질의응답; 원격탐사 교차 모달 데이터셋