リモートセンシングシーンにおける画像と言語のクロスモーダル理解研究の進展

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

リモートセンシング技術と人工知能との深い融合により、人類のリモートセンシングデータの応用ニーズがますます細分化されている。しかし、単一モーダルデータは複雑なシーンの解釈に限界があり、リモートセンシング画像内の深層情報を十分に掘り起こすことが困難である。これに対処するために、マルチモーダルデータの協調分析がリモートセンシングの解釈能力向上の鍵となり、リモートセンシング分野のさらなる発展を促進している。リモートセンシングの画像と言語のクロスモーダル理解は、テキスト記述を通じてリモートセンシング画像と人間の認知を結びつけ、テキストの意味情報を利用して視覚特徴表現を強化し、クロスモーダル情報の相互補完を実現し、リモートセンシングの解釈性能を著しく向上させている。本稿ではリモートセンシングの画像と言語のクロスモーダル理解を主軸に据え、リモートセンシング画像記述、テキスト生成画像、画像と言語のアライメント、およびリモートセンシング画像質問応答の4つのタスクに分類した。まず、国内外の画像と言語のクロスモーダル研究の発展状況を概説し、次にリモートセンシング画像と言語のクロスモーダル理解でよく使われる公開データセットと評価指標を紹介し、最後に技術的課題をまとめ、将来の研究方向を展望する。

关键词

リモートセンシング画像と言語クロスモーダル;画像記述;テキスト生成画像;画像と言語アライメント;画像質問応答;リモートセンシングクロスモーダルデータセット

阅读全文