استعراض لنماذج اللغة البصرية للاستشعار عن بعد موجهة للتصنيف بدون عينات

TAN Xiaomeng ,  

XI Bobo ,  

XUE Changbin ,  

LI Yunsong ,  

XU Haitao ,  

摘要

بعد التدريب على بيانات عامة واسعة النطاق، تمتلك نماذج اللغة البصرية قدرة معينة على فهم النصوص والصور، وتحقق أداءً ممتازًا في مهام مثل التصنيف بدون عينات، والتصنيف بعدد عينات قليلة، واسترجاع النص والصورة، والتعليق على الصور، والإجابة البصرية، وتحديد المواقع البصرية، لكن عند التعامل مع صور متخصصة مثل الصور الاستشعار عن بعد، غالبًا ما ينخفض الأداء بشكل كبير بسبب اختلاف توزيع المجال. في العامين الأخيرين، قام عدد من الباحثين بدراسة تخصيص نماذج اللغة البصرية لمجال الاستشعار عن بعد. تم بناء مجموعات بيانات كبيرة من أزواج نصوص وصور الاستشعار عن بعد لتحقيق التخصيص الدقيق لنماذج اللغة البصرية في مجال الاستشعار عن بعد، مما يمنحها القدرة على الإدراك الجغرافي. تركز هذه الورقة على مهمة التصنيف بدون عينات، حيث تم اختيار وتحليل الأبحاث المتعلقة بنماذج اللغة البصرية للاستشعار عن بعد الداعمة لهذه المهمة. باستخدام منهج التحليل المقارن، تم تلخيص تطور نماذج اللغة البصرية للاستشعار عن بعد في ثلاثة أبعاد: بناء مجموعات البيانات النصية والصورية للاستشعار عن بعد، استراتيجيات التدريب الدقيق للنماذج، وتحسينات الهيكلية. أظهرت النتائج أن أداء نماذج اللغة البصرية للاستشعار عن بعد المخصصة للتصنيف بدون عينات يعتمد بشكل كبير على وجود أزواج بيانات نصوص وصور استشعار عن بعد مكتوبة يدويًا عالية الجودة وبحجم كبير، بالإضافة إلى الاعتماد على قوة حوسبة عالية الأداء. علاوة على ذلك، فإن التطورات الحالية للنماذج متفرقة ومتنوعة، مما يصعب إنشاء معيار تقييم موحد لنماذج اللغة البصرية للاستشعار عن بعد. يجب أن تركز الأبحاث المستقبلية على تطوير هياكل خفيفة الوزن تدمج المعرفة المسبقة المكانية الجغرافية، بالإضافة إلى إنشاء نظام تقييم معياري موحد لنماذج اللغة البصرية للاستشعار عن بعد.

关键词

الاستشعار عن بعد التفسير الذكي; نماذج اللغة البصرية; نماذج اللغة البصرية للاستشعار عن بعد; تقنيات التدريب الدقيق للنماذج; التعلم متعدد الوسائط; محاذاة النص والصورة; التصنيف بدون عينات; بناء مجموعات بيانات الاستشعار عن بعد

阅读全文