Angesichts des Problems, dass die Merkmalvielfalt bei der Zielerkennung im sichtbaren Licht unter komplexen Bedingungen wie Verdeckung und schwachem Licht beeinträchtigt wird, was zu einer Verringerung der Erkennungsgenauigkeit führt, führt dieser Artikel die Infrarotmodalität ein, um die Defizite der sichtbaren Bildgebung auszugleichen, und schlägt eine multimodale Zielerkennungsmethode mit adaptiver Fusion sichtbarer und infraroter Merkmale vor. Diese Methode verwendet das YOLOv8-Zielerkennungsframework als Basisnetzwerk zur Extraktion von Merkmalsinformationen auf mehreren Skalen; darauf basierend wird unter Berücksichtigung, dass sichtbare Bilder reichhaltigere Texturmerkmale besitzen, während Infrarotbilder schärfere Kantenkonturen als Texturen aufweisen, ein multimodales hybrides Aufmerksamkeitsmodul aufgebaut, um den Informationsgewichtsaustausch und die Umstrukturierung zwischen Modalitäten durchzuführen, um vorteilhafte Merkmale unter verschiedenen Beleuchtungsbedingungen zu realisieren; anschließend wird mithilfe der Beziehung zwischen der Merkmalvielfalt der sichtbaren Modalität und der Umgebungslichtintensität ein dynamisches Gewichtszuteilungsmodul für sichtbare und Infrarotmodi entworfen, das die Gewichte als Referenz einbezieht und in das multimodale Merkmalsfusionmodul zur adaptiven Fusion integriert, um die Zielerkennung basierend auf multimodaler Merkmalsfusion zu realisieren. Schließlich wurden Experimente auf den öffentlichen Straßenbilddatensätzen M3FD und dem Drohnenfahrzeugdatensatz DroneVehicle durchgeführt. Die Ergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden unimodalen und multimodalen Zielerkennungsalgorithmen eine höhere Erkennungsgenauigkeit erzielt.