Advances in remote sensing image-text cross-modal understanding

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

مع تبني تقنيات الاستشعار عن بعد والذكاء الاصطناعي، زادت حاجة البشر لتطبيقات البيانات اللاحقة للأشعة تحت الحمراء. ومع ذلك، فإن البيانات واحدة الشكل تواجه قيودًا في تفسير السيناريوهات المعقدة، وتصعب استخلاص المعلومات الأعمق في صور الاستشعار عن بعد. لذا، تحليل البيانات متعددة الأوضاع يصبح وسيلة رئيسية لتعزيز قدرة تفسير البيانات اللاحقة للأشعة تحت الحمراء، ويدفع قطاع الاستشعار عن بعد نحو التطور المستدام. يقوم فهم النص والصورة عبر الأشكال بإقامة اتصال بين صور الاستشعار عن بعد والمعرفة البشرية، مستفيدًا من معلومات الدلالة النصية لتعزيز السمات البصرية، وتحقيق الموازنة بين المعلومات متعددة الأوضاع، والتي تحقق تحسينًا كبيرًا في أداء تفسير البيانات اللاحقة للأشعة تحت الحمراء. يحدد هذا المقال فهم النص والصورة عبر الأشكال كمحور رئيسي، حيث ينقسم إلى أساسيات واستجابات البحث حول فهم النص والصورة عبر الأشكال في الأشعة تحت الحمراء في العالم وفي الصين. بالإضافة إلى تقديم البيانات العامة لفهم النص والصورة عبر الأشكال ومعايير التقييم. وختاماً، نلخص فيه التحديات التقنية التي تواجه فهم النص والصورة عبر الأشكال في الأشعة تحت الحمراء، ونتوقع اتجاهات البحث المستقبلية.

关键词

remote sensing image-text cross-modal;image captioning;text-to-image generation;image-text alignment;visual question answering;remote sensing cross-modal datasets

阅读全文