Zur Detektion von Zielen im sichtbaren Licht in komplexen Bedingungen wie Verdeckung und schwachem Licht wird die Fülle von Merkmalen leicht beeinflusst, was zu einer Verringerung der Genauigkeit bei der Detektion von Zielen führt. In dieser Studie wurden Infrarot-Modalbilder eingeführt, um die Mängel von sichtbaren Lichtbildern auszugleichen, und es wird eine adaptive multimodale Zielerkennungsmethode für sichtbares und Infrarotlicht vorgeschlagen. Diese Methode verwendet den YOLOv8-Zielentdeckungsrahmen als Basismodell zur Extraktion von Merkmalen auf mehreren Ebenen; auf dieser Grundlage, da sichtbare Lichtbilder reichere Textureigenschaften aufweisen und Infrarotbilder deutlichere Konturen aufweisen als Texturmerkmale, wird ein multimodales gemischtes Aufmerksamkeitsmodul aufgebaut, das einen Austausch und eine adaptive Neuzusammensetzung von Informationsgewichten zwischen Modalitäten ermöglicht, um die Vorteile der Merkmale unter verschiedenen Beleuchtungsbedingungen zu realisieren; dann, basierend auf der Fülle von sichtbaren Lichtmerkmalen und der Intensität der Umgebungsbeleuchtung, werden dynamische sichtbar-infrarote Gewichtungsmoduleentwickelt, und die Gewichte dienen als Referenz, um die Gewichte in das multimodale Merkmalsverschmelzungsmodul für eine adaptive Merkmalsverschmelzung zu integrieren, und so die Zielerkennung durch Merkmalsverschmelzung zu realisieren. Schließlich zeigen Experimente mit dem Straßenszenendatensatz M3FD und dem Drohnenfahrzeugdatensatz DroneVehicle, dass die in dieser Studie vorgeschlagene Methode im Vergleich zu bestehenden einmodalen und multimodalen Zielerkennungsalgorithmen eine höhere Detektionsgenauigkeit erreichen kann.