بمزيج عميق بين تقنيات الاستشعار عن بعد والذكاء الاصطناعي، تزداد حاجة البشر إلى تطبيقات البيانات الناتجة عن الاستشعار عن بعد بدقة متزايدة. ومع ذلك، فإن البيانات من نوع واحد تظهر قيودًا في تفسير المشاهد المعقدة، وصعوبة استخراج المعلومات العميقة من صور الاستشعار عن بُعد. ولذلك، يعد التحليل المتعدد الأوضاع للبيانات وسيلة رئيسية لتعزيز قدرات تفسير الاستشعار عن بُعد، ويعزز التطور المستمر لمجال الاستشعار عن بُعد. الفهم المتعدد الأوضاع للصور والنصوص يقوم بإنشاء صلة بين صور الاستشعار عن بُعد والإدراك البشري من خلال وصف النص، ويستفيد من المعلومات الدلالية للنصوص لتعزيز تمثيل السمات البصرية، وهو ما يؤدي إلى تعزيز بارز في أداء تفسير الاستشعار عن بُعد. يقسم هذا البحث فهم الصور والنصوص المتعدد الأوضاع إلى أربعة مهام: وصف الصور الاستشعار عن بُعد، وتكوين النصوص من الصور، وتواليف الصور والنصوص الاستشعار عن بُعد، والإجابة على أسئلة الصور الاستشعار عن بُعد. يلخص البحث بداية أبرز التطورات في البحث الدولي والمحلي لفهم الصور والنصوص المتعدد الأوضاع؛ ثم يُقدم البحث مقدمة سريعة حول مجموعات البيانات العامة المستخدمة بشكل شائع لفهم الصور والنصوص المتعدد الأوضاع ومؤشرات التقييم؛ وأخيرًا، يلخص البحث التحديات التقنية التي تواجه فهم الصور والنصوص المتعدد الأوضاع ويتوقعات البحوث المستقبلية.