Études sur la compréhension multimodale des scènes de télédétection

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

Avec le développement de la technologie de télédétection et de l'intelligence artificielle, la demande d'application des données de télédétection devient de plus en plus fine. Cependant, les données monomodales sont limitées dans l'interprétation de scénarios complexes, il est difficile d'exploiter pleinement les informations profondes des images de télédétection. Par conséquent, l'analyse coordonnée de données multimodales est devenue un moyen clé d'améliorer la capacité d'interprétation des données de télédétection, et a stimulé le développement ultérieur du domaine de la télédétection. La compréhension multimodale des images par le texte établit un lien entre les images de télédétection et la perception humaine, renforce la représentation des caractéristiques visuelles à l'aide d'informations sémantiques du texte, réalise une complémentarité d'informations multimodales, et améliore considérablement les performances de l'interprétation des images de télédétection. Cet article se concentre sur la compréhension multimodale des images de télédétection axée sur le texte, en divisant la compréhension multimodale des images de télédétection en quatre tâches : description des images de télédétection, génération de texte pour les images de télédétection, alignement des images de télédétection et du texte, et questions sur les images de télédétection. Il présente d'abord l'état actuel de la recherche multimodale dans le monde entier ; puis passe en revue les ensembles de données et les indices d'évaluation couramment utilisés pour la compréhension multimodale des images de télédétection ; enfin, il résume les défis techniques auxquels est confrontée la compréhension multimodale des images de télédétection et identifie les orientations futures de la recherche.

关键词

Compréhension multimodale des images; Description des images; Génération de texte pour les images; Alignement des images et du texte; Questions sur les images; Ensembles de données multimodaux de télédétection

阅读全文