Pour la détection des cibles dans la lumière visible dans des conditions complexes telles que l'occultation et la faible lumière, l'abondance de fonctionnalités est facilement affectée, ce qui entraîne une baisse de la précision de la détection des cibles. Dans cette étude, les images modales infrarouges ont été introduites pour compenser les lacunes des images en lumière visible, et une méthode de détection des cibles multimodale adaptative aux caractéristiques de la lumière visible et infrarouge a été proposée. Cette méthode utilise le cadre de détection des cibles YOLOv8 comme réseau de base pour extraire des informations de fonctionnalités multi-échelles ; sur cette base, étant donné que les images en lumière visible possèdent des caractéristiques de texture plus riches et que les images infrarouges ont des contours plus évidents que les caractéristiques de texture, un module d'attention mixte multimodal est construit, permettant un échange et une recomposition adaptative des poids d'informations entre les modalités pour mettre en œuvre les avantages des caractéristiques dans des conditions d'éclairage différentes ; puis, en fonction de l'abondance des caractéristiques en lumière visible et de l'intensité de l'éclairage ambiant, des modules d'allocation dynamique de poids visible-infrarouge sont conçus, et les poids sont utilisés comme référence pour incorporer les poids dans le module de fusion de caractéristiques multimodal pour une fusion adaptative des caractéristiques, réalisant ainsi la détection des cibles basée sur la fusion de caractéristiques multimodales. Enfin, les expériences sur le jeu de données de scène de rue M3FD et le jeu de données de véhicules de drones DroneVehicle montrent que la méthode proposée dans cette étude peut obtenir une précision de détection plus élevée par rapport aux algorithmes de détection de cibles unimodales et multimodales existants.
关键词
Détection de cibles; Multimodalité; Réseau de neurones convolutif; Fusion de caractéristiques; Mécanisme d'attention; Images de lumière visible; Images infrarouges; Apprentissage en profondeur