تشير تجزئة الإشارة للصور الاستشعارية إلى هدف تحديد وتحليل مناطق محددة بدقة بناءً على الوصف النصي، لتحقيق تفسير دلالي على مستوى البكسل. تتيح هذه المهمة بناء جسر فعال بين احتياجات المستخدم والتحليل الذكي للصور الاستشعارية. ومع ذلك، فإن خصائص الصور الاستشعارية مثل الخلفية المعقدة والمتنوعة والتباين المنخفض بين الهدف والخلفية قد تسبب خلطًا في نتائج التجزئة. بالإضافة إلى ذلك، تعاني الطرق التقليدية المعتمدة على آلية الانتباه متعددة الأوضاع في تجزئة الإشارة من نقص في سد الفجوة بين الأوضاع، مما يصعب تحقيق توافق دقيق بين الوصف النصي والخصائص الجغرافية. بناءً على ذلك، اقترح هذا البحث طريقة تفاعل متعدد الأوضاع موجهة بالكيانات - Enti-CroM. أولاً، تم تقديم وحدة استدلال موجهة بالكيان مستوحاة من SAM لاستخراج تلميحات الكيانات المقيدة بالبنية المكانية ودمجها مع الميزات البصرية والنصية لبناء مكعب معلومات ثلاثي الأوضاع: كيان-بصري-نصي. بعد ذلك، في مرحلة التفاعل متعدد الأوضاع، تم تصميم آلية تفاعل هرمي: (1) من خلال تنشيط متبادل للأنماط بدون معاملات لنقل المعلومات الدلالية بين الأوضاع بشكل فعال وتقليص الفجوة الدلالية بين الأوضاع المختلفة؛ (2) بناءً عليه، تم إدخال عملية انتباه متقاطع نصي-بصري موجهة بالكيان لتعزيز قدرة النموذج على تمثيل الحدود الجغرافية غير المنتظمة. أظهرت النتائج التجريبية على مجموعتي البيانات المرجعيتين RefSegRS وRRSIS-D تحسنًا في مؤشر mIoU بنسبة 1.84% و4.27% على التوالي، متفوقة على عدة طرق متقدمة حالية، مما يثبت فعالية وتفوق هذه الطريقة.
关键词
صور استشعارية;تجزئة إشارية;تفاعل متعدد الأوضاع;SAM;الوعي بالكيان;آلية الانتباه;تقييد البنية المكانية