نماذج لغة الرؤية البصرية البعيدة الاستشعار لتصنيف العينة الصفرية: مراجعة

TAN Xiaomeng ,  

XI Bobo ,  

XUE Changbin ,  

LI Yunsong ,  

XU Haitao ,  

摘要

حققت نماذج لغة الرؤية تقدما ملحوظا في العديد من المهام متعددة الوسائط مثل التصنيف الصفري - الصغير، والبحث عن الصور، والشرائط النصية للصور، والأسئلة المرئية والتحديد المرئي. ومع ذلك، يعتمد معظم الأساليب على التدريب المسبق لمجموعات البيانات العامة، مما يؤدي إلى أداء عام سيء في مجالات خاصة مثل الاستشعار عن بعد والطب الباطني وغيرها. تمت مؤخرا مقترحات العديد من نماذج لغة الرؤية في المجال البصري عن بعد، وتعمل هذه النماذج الجديدة عن طريق ضبط نماذج اللغة البصرية العامة باستخدام الصور الكبيرة والنصوص الخاصة بالبيانات بعيدة الاستشعار، بهدف تحقيق نماذج لغة الرؤية الخاصة بمجال البصريات. تحتوي هذه المقالة على ملخص وتحليل لآخر التطورات في نماذج لغة الرؤية البصرية بعيدة الاستشعار، والتي تعتمد أساسا على استخدام بيانات البصريات العامة في صقل نماذج اللغة البصرية وبناء نماذج خاصة بمجال البصريات، بيد أن تنمية النماذج الحالية متنوعة للغاية، وهذا يجعل من الصعب إنشاء تقييم موحد لنماذج لغة الرؤية البصرية بعيدة الاستشعار. لحل هذه المشكلة، ربما يمكن الجمع بين تصميم الهيكل النموذجي، وتقنيات الصقل لتحسين الأداء الحاسوبي، وفي الوقت نفسه تحسين النظام التقييمي تدريجيا وفقا لميزات المهمات المختلفة.

关键词

تفسير الذكاء البصري عن بعد؛ نموذج لغة الرؤية؛ نموذج لغة الرؤية البصرية البعيدة الاستشعار؛ تقنيات صقل النموذج؛ تعلم متعدد الوسائط؛ توافق النصوص والصور؛ التصنيف الصفري؛ بناء مجموعة بيانات البعيدة الاستشعار

阅读全文