リモートセンシングのマルチモーダル画像・テキスト検索:主要技術と課題

WANG Yijing ,  

TANG Xu ,  

HAN Shuo ,  

DU Ruiqi ,  

摘要

リモートセンシングにおけるマルチモーダルな画像・テキスト検索は、自然言語とリモートセンシング画像をつなぐ架け橋として、効率的な双方向の意味的関連を構築することを目的としており、リモートセンシングデータの知的解析のための重要な技術です。本稿では、リモートセンシングにおけるマルチモーダル画像・テキスト検索分野の技術進化と研究現状を包括的に概説します。まず、主流のベンチマークデータセットの規模、シーンカテゴリ、テキスト注釈の品質に関する特徴を詳細に分析し、後続の手法研究の基盤となる汎用的な評価指標体系を紹介します。次に、テキスト特徴表現については従来の統計的手法から深層学習まで、リモートセンシング画像特徴表現については手工特徴から深層ニューラルネットワークまでの技術的突破を振り返ります。さらに、マルチモーダル事前学習モデルの採用の有無により、非マルチモーダル事前学習およびマルチモーダル事前学習に基づく方法の原理とモデル特性を詳細に分析し、3つの主流データセットでの実験比較を通じて、マルチモーダル事前学習手法の性能優位性と異なる微調整戦略のデータ適応規則を明らかにします。最後に、本稿は、細粒度の意味的整合性、多種多源データ融合およびクロスドメインの一般化、時系列動的マッチングメカニズムの欠如など、現在の研究が直面する主要課題を総括し、細粒度特徴強化、多種多源異種データ協調モデリング、時系列認識整合メカニズム開発などの今後の研究方向を展望し、リモートセンシングにおけるマルチモーダル画像・テキスト検索技術の実用的応用の深化発展を促進することを目指しています。

关键词

リモートセンシング画像; マルチモーダル検索; 画像とテキストの関係モデリング; 深層学習; 事前学習モデル; 意味的整合; 特徴表現; マルチモーダル事前学習モデル

阅读全文