上一篇
|
下一篇
ゼロショット分類に向けたリモートセンシング視覚言語モデルのレビュー
TAN Xiaomeng
,
XI Bobo
,
XUE Changbin
,
LI Yunsong
,
XU Haitao
,
DOI:
10.11834/jrs.20254427
摘要
大規模な一般データでトレーニングされた視覚言語モデルは、ある程度の画像と言語の理解能力を備えており、ゼロショット分類、少数ショット分類、画像と言語の検索、画像キャプション生成、視覚的質問応答、視覚的位置特定などの多様なタスクで優れた性能を示しています。しかし、リモートセンシングなどの特殊な分野の画像を扱う際には、ドメイン分布の違いにより性能が大幅に低下することが多いです。過去2年間、多くの研究者がリモートセンシング領域に特化した視覚言語モデルの研究を行ってきました。大規模なリモートセンシング画像と言語のペアデータセットが構築され、視覚言語モデルのリモートセンシング領域への微調整が可能となり、地理的認知能力を付与しています。本論文はゼロショット分類タスクを主軸に据え、該当タスクをサポートするリモートセンシング視覚言語モデル関連研究を選定・分析し、比較分析法を用いてリモートセンシング画像と言語データセット構築、モデルの微調整戦略およびアーキテクチャ改善の3つの観点からリモートセンシング視覚言語モデルの発展をまとめました。結果として、ゼロショット分類に用いるリモートセンシング領域の視覚言語モデルは、大規模で高品質に注釈づけされたリモートセンシング画像と言語データに強く依存し、高性能な計算リソースに制約されることが示されました。さらに、現在のモデルの発展は分散的かつ多様であり、リモートセンシング視覚言語モデルの統一されたベンチマーク評価の確立が困難です。今後の研究は、地理空間の先験知識を融合した軽量アーキテクチャの開発と、統一されたリモートセンシング視覚言語モデルベンチマーク評価体系の構築に焦点を当てるべきです。
关键词
リモートセンシング知能解釈;視覚言語モデル;リモートセンシング視覚言語モデル;モデル微調整技術;マルチモーダル学習;画像と言語の整合;ゼロショット分類;リモートセンシングデータセット構築
阅读全文