La technologie de télédétection, en raison de sa large couverture, de sa haute actualité et de sa capacité à acquérir des informations multidimensionnelles, est devenue un outil important pour l'étude des forêts. Les images multi-spectrales de télédétection possèdent une haute résolution spatiale et spectrale, ce qui leur permet de capturer efficacement les différences spectrales entre les différents éléments du terrain, tandis que les données de la télédétection radar à ouverture synthétique fournissent des informations stables sur la structure de la surface et les caractéristiques texturales, qui constituent un complément important aux caractéristiques spectrales. Cependant, les différences dans la structure modale et la représentation des informations entre les données de télédétection active et passive conduisent souvent à un effet limité de fusion et impactent la précision de la classification. Pour résoudre ce problème, cette étude choisit une région partielle de la ville de Pu'er, province du Yunnan, et sélectionne trois catégories d'essences forestières (le pin de Simao, l'eucalyptus, les chênes) et un type de terrain à vocation de foresterie économique (plantations de thé) et trois autres types de terrains pour être les objets de classification, construisant un réseau de neurones profonds pour la classification des forêts basé sur des données de télédétection actives et passives dans des conditions de petits échantillons d'apprentissage. Cette méthode intègre les images multi-spectrales de télédétection avec des données radar à ouverture synthétique pour modéliser une structure de convolution dominante et introduit un mécanisme de régularisation du contrôle de l'abandon avec un taux d'abandon apprenable pour ajuster dynamiquement la fusion des caractéristiques de forte résolution et réguler dynamiquement la contribution des caractéristiques de forte résolution dans chaque information modale. Les résultats expérimentaux montrent que la méthode proposée atteint des performances optimales par rapport à plusieurs stratégies de fusion et niveaux de fusion, avec une précision globale de 95,24%, la précision de la classification de l'eucalyptus, de la plantation de thé, des chênes et du pin de Simao étant respectivement de 96,78%, 94,07%, 91,73%, 92,90%. Cette étude vérifie l'efficacité du mécanisme d'attention croisée dans la modélisation conjointe de l'information de télédétection active et passive, fournissant une voie et un support technique viables pour la classification forestière multi-source dans des environnements complexes.