Diante do problema de que a riqueza das características na detecção de objetos em luz visível é facilmente afetada em ambientes complexos como ocultação e baixa luminosidade, levando à redução da precisão da detecção, este artigo introduz imagens em modo infravermelho para compensar as limitações das imagens visíveis e propõe um método de detecção de objetos multimodal com fusão adaptativa das características visíveis e infravermelhas. O método utiliza o framework de detecção de objetos YOLOv8 como rede base para extrair informações de características em múltiplas escalas; com base nisso, considerando que as imagens visíveis possuem características de textura mais ricas enquanto as imagens infravermelhas têm contornos mais claros que as texturas, constrói-se um módulo de atenção híbrido multimodal para realizar a troca e reorganização dos pesos de informação entre as modalidades para obter características vantajosas sob diferentes condições de iluminação; em seguida, utilizando a relação entre a riqueza das características da modalidade visível e a intensidade da iluminação ambiental, foi projetado um módulo de distribuição dinâmica de pesos visível-infravermelho com base na intensidade da iluminação ambiental, e esses pesos são usados como referência, incorporados ao módulo de fusão de características multimodal para realizar a fusão adaptativa, alcançando a detecção de objetos baseada na fusão de características multimodais. Finalmente, foram realizados experimentos com os conjuntos de dados públicos de cenas urbanas M3FD e do conjunto de dados aéreo de veículos DroneVehicle. Os resultados mostram que, em comparação com os algoritmos existentes de detecção de objetos unimodais e multimodais, o método proposto obtém maior precisão de detecção.
关键词
detecção de objetos; multimodal; redes neurais convolucionais; fusão de características; mecanismo de atenção; imagem visível; imagem infravermelha; aprendizado profundo