يُعد استرجاع النصوص متعددة الوسائط في الاستشعار عن بُعد بمثابة جسر يربط بين اللغة الطبيعية والصور الاستشعارية، ويهدف إلى بناء ارتباطات معنوية ثنائية الاتجاه فعالة، وهو تقنية رئيسية لتحليل البيانات الاستشعارية بطريقة ذكية. تستعرض هذه المقالة بشكل شامل تطور التقنيات وحالة البحث في مجال استرجاع النصوص متعددة الوسائط في الاستشعار عن بُعد. أولاً، تم تحليل خصائص مجموعات البيانات المرجعية السائدة من حيث الحجم وأنواع المشاهد وجودة تعليم النصوص، كما تم تقديم نظام تقييم عام كأساس للأبحاث اللاحقة. ثانياً، تم استعراض تمثيلات ميزات النص من الإحصاءات التقليدية وصولاً إلى التعلم العميق، وتم تقديم التطورات التكنولوجية في تمثيلات ميزات الصور الاستشعارية من الخصائص اليدوية إلى الشبكات العصبية العميقة. ثالثاً، بقسمة الطرق على اعتمادها لنماذج التدريب المسبق متعددة الوسائط، تم تحليل المبادئ وخصائص النماذج التي تعتمد على التدريب المسبق غير متعدد الوسائط والتدريب المسبق متعدد الوسائط، وكُشف من خلال المقارنات التجريبية على ثلاث مجموعات بيانات رئيسية عن مزايا الأداء لطرق التدريب المسبق متعدد الوسائط وأنماط تكييف البيانات المختلفة لاستراتيجيات التعديل الدقيق. أخيراً، تلخص المقالة التحديات الأساسية التي تواجه الأبحاث الحالية، مثل محاذاة المعاني الدقيقة، دمج البيانات متعددة المصادر والتعميم عبر النطاقات، بالإضافة إلى غياب آلية المطابقة الديناميكية الزمنية، كما تستشرف الاتجاهات المستقبلية في تعزيز الميزات الدقيقة، النمذجة التعاونية للبيانات المتعددة المصادر، وتطوير آليات المحاذاة الحساسة للزمن، وذلك بهدف دفع تطوير تقنيات استرجاع النصوص متعددة الوسائط في الاستشعار عن بُعد نحو تطبيقات عملية أعمق.
关键词
صور الاستشعار عن بُعد;استرجاع متعدد الوسائط;نمذجة العلاقات النصية والصورية;التعلم العميق;نماذج التدريب المسبق;محاذاة المعاني;تمثيل الميزات;نماذج التدريب المسبق متعددة الوسائط