تقدم بحوث الفهم عبر الأنماط النص والصورة لمشاهد الاستشعار عن بعد

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

مع التداخل العميق بين تقنيات الاستشعار عن بعد والذكاء الاصطناعي، أصبحت متطلبات البشر لتطبيقات بيانات الاستشعار عن بعد أكثر دقة. ومع ذلك، هناك قيود على بيانات نمط واحد في تفسير المشاهد المعقدة، حيث يصعب استخراج المعلومات العميقة من صور الاستشعار عن بعد بشكل كافٍ. لذلك، أصبح التحليل التعاوني للبيانات متعددة النمط وسيلة رئيسية لتعزيز قدرات تفسير الاستشعار عن بعد، ودفع تطوير مجال الاستشعار عن بعد بشكل أكبر. يربط الفهم عبر الأنماط النص والصورة الخاص بالاستشعار عن بعد بين صور الاستشعار عن بعد والإدراك البشري من خلال الأوصاف النصية، مستفيدًا من معلومات دلالات النص لتعزيز تمثيلات الميزات البصرية، ويحقق تكاملًا معلوماتيًا عبر الأنماط، مما يحسن أداء تفسير الاستشعار عن بعد بشكل ملحوظ. تأخذ هذه الورقة الفهم عبر الأنماط النص والصورة للاستشعار عن بعد كخط رئيسي، وتقسمه إلى 4 مهام: وصف صور الاستشعار عن بعد، توليد صور من النصوص، محاذاة النص والصورة للاستشعار عن بعد، وأسئلة وأجوبة صور الاستشعار عن بعد. أولاً، تستعرض حالة تطور الأبحاث المحلية والدولية في مجال الفهم عبر الأنماط النص والصورة؛ ثم تقدم مقدمة عن مجموعات البيانات العامة والمؤشرات التقييمية الشائعة في نوع الفهم هذا؛ وأخيرًا، تلخص التحديات التقنية التي تواجه الفهم عبر الأنماط النص والصورة للاستشعار عن بعد، وتتناول اتجاهات البحث المستقبلية.

关键词

الاستشعار عن بعد النص والصورة متعدد الأنماط; وصف الصور; توليد صور من النص; محاذاة النص والصورة; أسئلة وأجوبة الصور; مجموعات بيانات الاستشعار عن بعد متعددة الأنماط

阅读全文