Método de detección de objetivos multimodal adaptativo con fusión de características de luz visible e infrarroja

YU Zhirui ,  

YIN Zhanpeng ,  

WANG Junyu ,  

ZHOU Liang ,  

YE Yuanxin ,  

摘要

Para la detección de objetivos en luz visible en condiciones complejas como el ocultamiento y la luz tenue, la abundancia de características se ve fácilmente afectada, lo que conlleva a una disminución de la precisión en la detección de objetivos. En este estudio, se introdujeron imágenes modales infrarrojas para compensar las deficiencias de las imágenes en luz visible, y se propone un método de detección de objetivos multimodal adaptativo a las características de la luz visible e infrarroja. Este método utiliza el marco de detección de objetivos YOLOv8 como red base para extraer información de características a múltiples escalas; sobre esta base, dado que las imágenes en luz visible poseen características de textura más ricas y que las imágenes infrarrojas tienen contornos más evidentes que las características de textura, se construye un módulo de atención mixta multimodal, permitiendo un intercambio y recomposición adaptativa de los pesos de la información entre las modalidades para implementar las ventajas de las características en diferentes condiciones de iluminación; luego, en función de la abundancia de características en luz visible y la intensidad de la iluminación ambiental, se diseñan módulos de asignación de peso dinámico visible-infrarrojo, y los pesos se utilizan como referencia para incorporar los pesos en el módulo de fusión de características multimodal para una fusión adaptativa de las características, logrando así la detección de objetivos basada en la fusión de características multimodal. Por último, los experimentos en el conjunto de datos de escena de calle M3FD y el conjunto de datos de vehículos aéreos no tripulados DroneVehicle muestran que el método propuesto en este estudio puede lograr una mayor precisión de detección en comparación con los algoritmos de detección de objetivos unimodales y multimodales existentes.

关键词

Detección de objetivos; Multimodalidad; Red neuronal convolucional; Fusión de características; Mecanismo de atención; Imágenes de luz visible; Imágenes infrarrojas; Aprendizaje profundo

阅读全文