Advances in remote sensing image-text cross-modal understanding

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

بمزيج عميق بين تقنيات الاستشعار عن بعد والذكاء الاصطناعي، تزداد حاجة البشر إلى تطبيقات البيانات الناتجة عن الاستشعار عن بعد بدقة متزايدة. ومع ذلك، فإن البيانات من نوع واحد تظهر قيودًا في تفسير المشاهد المعقدة، وصعوبة استخراج المعلومات العميقة من صور الاستشعار عن بُعد. ولذلك، يعد التحليل المتعدد الأوضاع للبيانات وسيلة رئيسية لتعزيز قدرات تفسير الاستشعار عن بُعد، ويعزز التطور المستمر لمجال الاستشعار عن بُعد. الفهم المتعدد الأوضاع للصور والنصوص يقوم بإنشاء صلة بين صور الاستشعار عن بُعد والإدراك البشري من خلال وصف النص، ويستفيد من المعلومات الدلالية للنصوص لتعزيز تمثيل السمات البصرية، وهو ما يؤدي إلى تعزيز بارز في أداء تفسير الاستشعار عن بُعد. يقسم هذا البحث فهم الصور والنصوص المتعدد الأوضاع إلى أربعة مهام: وصف الصور الاستشعار عن بُعد، وتكوين النصوص من الصور، وتواليف الصور والنصوص الاستشعار عن بُعد، والإجابة على أسئلة الصور الاستشعار عن بُعد. يلخص البحث بداية أبرز التطورات في البحث الدولي والمحلي لفهم الصور والنصوص المتعدد الأوضاع؛ ثم يُقدم البحث مقدمة سريعة حول مجموعات البيانات العامة المستخدمة بشكل شائع لفهم الصور والنصوص المتعدد الأوضاع ومؤشرات التقييم؛ وأخيرًا، يلخص البحث التحديات التقنية التي تواجه فهم الصور والنصوص المتعدد الأوضاع ويتوقعات البحوث المستقبلية.

关键词

remote sensing image-text cross-modal;image captioning;text-to-image generation;image-text alignment;visual question answering;remote sensing cross-modal datasets

阅读全文