대규모 일반 데이터로 학습된 시각 언어 모델은 일정 수준의 이미지-텍스트 이해 능력을 갖추고 있으며, 제로샷 분류, 소수 샘플 분류, 이미지-텍스트 검색, 이미지 캡션 생성, 시각적 질문응답 및 시각적 위치 지정 등 다양한 작업에서 우수한 성능을 보입니다. 하지만 원격 탐사와 같은 특수 분야의 이미지를 처리할 때는 도메인 분포 차이로 인해 성능이 크게 저하되는 경우가 많습니다. 최근 2년간 많은 연구자들이 시각 언어 모델의 원격 탐사 분야 특화에 대해 연구해왔습니다. 여러 대규모 원격 탐사 이미지-텍스트 쌍 데이터셋이 구축되어 시각 언어 모델의 원격 탐사 분야 미세조정을 가능하게 하여 지리 인식 능력을 갖추도록 하였습니다. 본 논문은 제로샷 분류 과제를 중심으로, 해당 과제를 지원하는 원격 탐사 시각 언어 모델 관련 연구를 선별하고 분석하였으며, 비교 분석법을 통해 원격 탐사 이미지-텍스트 데이터셋 구축, 모델 미세조정 전략, 아키텍처 개선의 세 가지 차원에서 원격 탐사 시각 언어 모델의 발전을 정리하였습니다. 결과는 제로샷 분류에 사용되는 원격 탐사 도메인 시각 언어 모델의 성능이 대규모 고품질 주석된 원격 탐사 이미지-텍스트 데이터에 크게 의존하며, 고성능 연산 자원에 제한을 받는다는 것을 보여줍니다. 또한 현재 모델 개발이 분산되고 다양하여 원격 탐사 시각 언어 모델의 통일된 벤치마크 평가 체계를 구축하기 어렵습니다. 향후 연구는 지리 공간 선험 지식을 융합한 경량화 아키텍처 개발과 통일된 원격 탐사 시각 언어 모델 벤치마크 평가 체계 수립에 집중해야 합니다.
关键词
원격 탐사 지능적 해석; 시각 언어 모델; 원격 탐사 시각 언어 모델; 모델 미세조정 기술; 멀티모달 학습; 이미지-텍스트 정렬; 제로샷 분류; 원격 탐사 데이터셋 구축