La recherche multimodale texte-image en télédétection agit comme un pont reliant le langage naturel aux images de télédétection, visant à construire des associations sémantiques bidirectionnelles efficaces, et constitue une technologie clé pour l'analyse intelligente des données de télédétection. Cet article offre une vue d'ensemble complète de l'évolution technologique et de l'état de la recherche dans le domaine de la recherche multimodale texte-image en télédétection. Tout d'abord, il analyse en détail les caractéristiques des principaux ensembles de données de référence en termes d'échelle, de catégories de scènes et de qualité des annotations textuelles, et présente un système d'évaluation commun posant les bases pour les recherches futures. Ensuite, il passe en revue la représentation des caractéristiques textuelles, de la statistique traditionnelle à l'apprentissage profond, ainsi que les avancées technologiques dans la représentation des caractéristiques des images de télédétection, des caractéristiques manuelles aux réseaux neuronaux profonds. Puis, en distinguant selon l'utilisation ou non de modèles pré-entraînés multimodaux, il analyse en profondeur les principes et caractéristiques des méthodes basées sur un pré-entraînement non multimodal et celles basées sur un pré-entraînement multimodal, et révèle, à travers des comparaisons expérimentales sur trois ensembles de données majeurs, les avantages en performance des méthodes de pré-entraînement multimodal et les règles d’adaptation des données selon différentes stratégies de fine-tuning. Enfin, cet article résume les principaux défis actuels de recherche, tels que l’alignement sémantique de fine granularité, la fusion de données multisources et la généralisation inter-domaines, et l’absence d’un mécanisme de correspondance dynamique temporelle, tout en prospectant les directions futures, notamment le renforcement des caractéristiques fines, la modélisation collaborative des données hétérogènes multisources et le développement de mécanismes d’alignement sensibles au temps, afin de promouvoir le développement approfondi des technologies de recherche multimodale texte-image en télédétection dans des applications pratiques.
关键词
images de télédétection; recherche multimodale; modélisation des relations texte-image; apprentissage profond; modèles pré-entraînés; alignement sémantique; représentation des caractéristiques; modèles pré-entraînés multimodaux