Método de detección de objetivos multimodal con fusión adaptativa de características visibles e infrarrojas

YU Zhirui ,  

YIN Zhanpeng ,  

WANG Junyu ,  

ZHOU Liang ,  

YE Yuanxin ,  

摘要

Frente al problema de que la riqueza de características en la detección de objetivos en luz visible se ve afectada bajo ambientes complejos como oclusión y poca luz, lo que reduce la precisión de detección de objetivos, este artículo introduce imágenes del modo infrarrojo para compensar las deficiencias de las imágenes visibles y propone un método de detección de objetivos multimodal con fusión adaptativa de características visibles e infrarrojas. Este método utiliza el marco de detección de objetivos YOLOv8 como red base para extraer información de características multiescala; sobre esta base, considerando que las imágenes visibles poseen características de textura más ricas mientras que las imágenes infrarrojas tienen contornos más evidentes que la textura, se construye un módulo de atención híbrido multimodal para realizar el intercambio y la reorganización de pesos de información entre modos para lograr características ventajosas bajo diferentes condiciones de iluminación; luego, utilizando la relación entre la riqueza de características del modo visible y la intensidad de la luz ambiental, se diseña un módulo de asignación dinámica de pesos visible-infrarrojo basado en la intensidad de la luz ambiental, y se utiliza el peso como referencia para integrarlo en el módulo de fusión de características multimodales para la fusión adaptativa, logrando así la detección de objetivos basada en la fusión de características multimodales. Finalmente, se experimentó con los conjuntos de datos públicos de escenas callejeras M3FD y el conjunto de datos de vehículos aéreos DroneVehicle. Los resultados muestran que, en comparación con los algoritmos de detección de objetivos unimodales y multimodales existentes, el método propuesto puede obtener una mayor precisión de detección.

关键词

detección de objetivos; multimodal; redes neuronales convolucionales; fusión de características; mecanismo de atención; imagen visible; imagen infrarroja; aprendizaje profundo

阅读全文