Die Fernerkundungstechnologie hat sich aufgrund ihrer breiten Abdeckung, hohen Aktualität und der Fähigkeit zur mehrdimensionalen Informationsgewinnung zu einem wichtigen Werkzeug für die Forstinventur entwickelt. Mehrspektrale Fernerkundungsbilder weisen hohe räumliche und spektrale Auflösungen auf und können die spektralen Unterschiede zwischen verschiedenen Objekten effektiv erfassen. Die Daten des synthetischen Aperturradars liefern stabile Bodenstrukturinformationen und Texturmerkmale und stellen somit eine wichtige Ergänzung zu den spektralen Merkmalen dar. Die Unterschiede in der Modalitätsstruktur und Informationsdarstellung zwischen passiven und aktiven Fernerkundungsdaten führen jedoch häufig zu einer begrenzten Fusionseffekt und beeinträchtigen die Klassifikationsgenauigkeit. Um dieses Problem anzugehen, haben wir in dieser Studie ein tiefes Lernalgorithmenmodell für die Waldklassifizierung unter Verwendung einer Fusion passiver und aktiver Fernerkundungsdaten in einem kleinen Stichprobenkontext entwickelt und dieses für eine Teilregion der Stadt Pu'er in der Provinz Yunnan in China angewendet. Dabei wurden drei Waldbaumarten (Gruppen) (Pinus kesiya, Eukalyptus, Quercus) sowie eine landwirtschaftliche Flächennutzung (Teeplantage) und drei weitere Landnutzungskategorien als Klassifikationsobjekte ausgewählt. Diese Methode kombiniert Sentinel-2-Mehrkanalfernsehbilder mit Sentinel-1-SAR-Bildern, entwickelt ein auf mehrkanaligen Bildern basierendes Attention-fusioniertes Netzwerk und führt einen regulierten gate mechanismus mit lernbarem dropout-verhältnis ein, um eine dynamische Fusion und Anpassung von Selbst- und Kreuz-Aufmerksamkeitsmerkmalen zu ermöglichen. Während des Fusionsprozesses extrahiert das Modell signifikante Merkmale aus den mehrkanaligen Bildern durch Selbst-Aufmerksamkeit, kombiniert diese mit der Kreuz-Aufmerksamkeit zur Leitung der Reaktion auf wichtige Bereiche des SAR und steuert dynamisch die Beiträge der Informationen verschiedener Modalitäten während der Merkmalsfusion. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode in mehreren Vergleichen von Fusionsstrategien und Fusionsebenen die beste Leistung erzielt und eine Gesamtklassifikationsgenauigkeit von 95,24% erreicht. Die Klassifikationsgenauigkeiten für Eukalyptus, Teeplantage, Quercus und Pinus kesiya betragen jeweils 96,78%, 94,07%, 91,73% und 92,90%. Die vorliegende Studie bestätigt die Wirksamkeit des Kreuz-Aufmerksamkeitsmechanismus bei der kooperativen Modellierung passiver und aktiver Fernerkundungsinformationen und bietet eine machbare Idee und technische Unterstützung für die Waldklassifizierung aus multiquellen-Fernerkundungsdaten in komplexen Umgebungen.