La segmentation d'instances sur des images de télédétection permet à la fois la localisation au niveau de l'objet d’intérêt et la classification au niveau pixel, constituant une tâche importante et très difficile. La plupart des méthodes actuelles de segmentation d’instances pour les images de télédétection dépendent d’annotations pixel précises, dont le coût de production est élevé. De plus, l’arrière-plan mélangé et les contours complexes des objets dans les images de télédétection augmentent également la difficulté de segmentation. Pour relever ces défis, cet article construit un système d’informations a priori adapté à la tâche de segmentation d’instances faiblement supervisée sur images de télédétection, et propose un réseau de segmentation d’instances faiblement supervisée basé sur des a priori multiples. Plus précisément, les informations a priori dans la tâche de segmentation d’instances faiblement supervisée sont réparties selon leur origine en a priori de tâche et a priori d’image, où l’a priori de tâche provient de la tâche de détection de boîtes englobantes étroitement liée à la segmentation d’instances, tandis que l’a priori d’image découle de la synthèse et de l’exploration des informations de l’image elle-même. De plus, trois composants spécifiques sont conçus pour incarner l’information a priori de tâche : la contrainte de cohérence projection cadre-masque, la fonction de représentation de la difficulté de distinction des pixels et la contrainte d’a priori de position centrale, qui poussent le réseau à déterminer la taille du masque et à se concentrer pleinement sur les pixels et zones clés dans l’image ; deux composants pour construire l’information a priori d’image sont aussi conçus : la contrainte de cohérence visuelle de voisinage et la contrainte de cohérence de gradient, permettant au réseau de distinguer efficacement l’avant-plan et l’arrière-plan et de s’adapter aux contours complexes des objets dans les images de télédétection. Les résultats expérimentaux sur les jeux de données d’images de télédétection optiques et SAR montrent que la méthode proposée atteint des valeurs AP de 52,5 et 54,1 respectivement sans aucune annotation au niveau pixel, surpassant les méthodes actuelles de segmentation faiblement supervisée et atteignant 89,3 % et 84,3 % des performances du Mask R-CNN supervisé totalement. Cette méthode fournit une solution performante et à faible coût pour l’interprétation fine des images de télédétection.
关键词
images de télédétection; segmentation d’instances; interprétation fine; apprentissage faiblement supervisé; information a priori; système piloté; contours d’objets; coût d’annotation