Multi-object tracking by detecting small objects in satellite video

CUI Haowen; XU Chujie; ZHENG Xiangtao; LU Xiaoqiang

doi:10.11834/jrs.20232098

Satellite Information Intelligent Application | Views : 0 下载量: 1149 CSCD: 0

R-PDF
PDF
Export
Share
Collection
Album

Multi-object tracking by detecting small objects in satellite video
“[{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"1　引言","content":"多目标跟踪旨在检测和估计视频中多个目标的时空轨迹，在视觉领域有着广泛应用，如安防监控、自动驾驶、智能交通等。随着遥感技术的发展，通过卫星平台获得地球表面运动目标的视频数据，实时观测地球表面目标的运动轨迹和状态，在城市规划、交通监控、军事侦察等发挥着重要作用。主流的多目标跟踪算法主要解决监控视频或移动设备拍摄视频下的目标跟踪问题，由于卫星视频与监控视频存在巨大差异，导致现有多目标跟踪算法应用在卫星视频上的性能较差。卫星视频和监控视频存在如下差异：（1）成像距离和视角不同。在相同图像分辨率下，卫星视频下的目标尺寸更小，目标的细节特征不明显，而监控视频下的目标细节特征更加显著，但是存在严重的目标间的遮挡问题；（2）卫星视频的背景更加复杂多样。遥感场景变化多样，目标的检测容易受背景干扰，如云雾、舰船运动产生的尾流等，导致误跟和漏跟的可能。目前，主流多目标跟踪算法遵循基于检测的跟踪TBD（Tracking-By-Detection）范式，包含目标检测和帧间关联两个步骤。首先检测出每帧中目标可能出现的位置，然后根据检测出的候选目标位置建立时间上的关联匹配，实现目标运动轨迹关联。随着目标检测技术的发展，许多方法利用更强的目标检测器来提高多目标跟踪的性能，如RetinaTrack（Lu等，2020）、CenterTrack（Zhou等，2020）、TransTrack（Sun等，2021）、ByteTrack（Zhang等，2022）等。这些检测器通常用于检测自然场景下的目标，因此在监控视频下仍然可以很好地检测目标，然而由于遥感影像与自然场景下的影像存在巨大差异，这些检测器直接应用在遥感场景下无法取得很好的性能。遥感图像中的小目标是导致检测性能下降的因素之一，而针对遥感图像中的小目标，目前有很多改进方案用于提高小目标的检测能力，如使用浅层特征（Van Etten，2018）、生成对抗网络（Rabbi等，2020）、目标之间的度量（Xu等，2021；Wang等，2022）等。基于浅层特征检测小目标的方法最为简单直观，浅层特征能够保留小目标的特征，从而提高小目标的检测能力，但是会引入更大的计算量；基于生成对抗网络GAN（Generative Adversarial Network）的方法通过GAN生成高质量的目标图像，增强了小目标的特征，这种方法同样会引入额外的计算；基于度量的方法，虽然不会引入额外的计算，但仍没有解决小目标可用特征少的问题。数据关联阶段根据检测目标的特征计算目标和轨迹的相似度（特征相似度、IoU距离等），进而采取适当的匹配策略将检测目标和轨迹进行匹配。常用于计算相似度利用空间位置、运动信息以及外观特征等。Bewley等（2016）提出SORT （Simple Online and Realtime Tracking），结合目标的位置和运动信息，基于卡尔曼滤波预测轨迹在下一帧的位置，计算预测结果和检测结果的IoU距离作为相似度；Wojke等（2017）提出DeepSORT，在SORT的基础上加入重识别（ReID）模型，用于提取目标的外观特征，通过IoU相似度和外观特征相似度关联轨迹和检测目标；Zhou等（2020）使用目标和轨迹的中心位置来计算两者的相似度；Zhang等（2022）提出ByteTrack，在匹配过程中考虑低置信度的检测结果，只使用目标的运动信息和空间位置有效地缓解了遮挡以及小目标的问题；Du等（2023）提出StrongSORT，基于DeepSORT的架构，采用更强特征提取器和更加鲁棒的运动模型，此外还提出Appearance-Free Link model和Gaussian-Smoothed Interpolation模块，分别用于建模轨迹的全局联系和轨迹插值，提高关联的准确度。基于目标位置和运动信息的模型通常比较简单，但无法处理复杂的情况，如遮挡问题，适用于短时跟踪；而基于外观特征的匹配对遮挡问题更鲁棒，更适用于长时间的跟踪。轨迹和目标的匹配问题可以视为二分图匹配问题，通常采用匈牙利算法（Hungarian Algorithm）（Kuhn，1955）解决，随着深度学习的发展，基于深度神经网络计算匹配关系成为一种趋势。Pang等（2021）提出一个拟密集对比学习（Quasi-Dense Similarity Learning）学习目标的嵌入特征，通过双向的Softmax操作计算轨迹和检测目标的嵌入特征相似度，然后通过搜索最近邻完成匹配过程；Jiang等（2019）提出利用图神经网络来学习出轨迹和目标的匹配关系；Chu等（2021）提出一个图Transformer模型TransMOT，TransMOT将轨迹和检测结构建模成无向图，利用图Transformer编码器编码轨迹的时空信息，然后通过图Transformer解码器建立轨迹和检测的匹配关系。基于匈牙利算法的匹配方法简单高效，是多目标跟踪算法中主流的匹配算法，而通过深度神经网络计算出的匹配关系虽然准确性更高，但是其计算量更大，难以满足实时性的需求。由于缺少高质量的公开卫星视频多目标跟踪数据集，现有的卫星视频多目标跟踪研究较少。Feng等（2021）提出Spaital Motion Information-Guided Network（SMTNet），用双分支的Long Short-Term Memory（LSTM）分别计算轨迹的运动特征以及空间特征，SMTNet基于已有的轨迹预测一个虚拟位置，最后通过匈牙利算法将检测结果以及虚拟位置与轨迹匹配；Wu等（2021a）使用Yolov3作为检测器，利用多粒度网络MGN（Multiple Granularity Network）提取更加丰富的目标外观信息，以提高关联的准确性；Wu等（2022）提出SFMFMOT，首先利用低速特征辅助检测网络检测运动目标，然后在关联阶段基于外观特征和空间信息匹配，最后利用运动特征消除静态误跟；He等（2022）提出一个联合检测与关联的模型TGraM，通过图卷积网络构建目标的时空关系，在训练过程基于多任务对抗梯度学习解决检测和ReID任务不一致的问题。综上所述，为解决目前卫星视频中小目标的跟踪问题，本文提出面向小目标检测的卫星视频多目标跟踪算法。首先，针对卫星视频中的小目标检测问题，在检测网络中增加一个预测分支，提高预测特征图的分辨率，保留小目标的细节特征，还利用注意力机制进一步增强小目标的细节特征；其次，利用Transformer的自注意力机制，编码全局的上下文信息，增强目标之间的联系，提高网络对于目标的响应，抑制复杂的背景；最后，为确保检测出的目标能够与轨迹匹配，在关联阶段考虑低置信度的检测结果，以期提高跟踪性能。","result":"介绍了多目标跟踪技术在视觉领域的广泛应用，特别是在卫星视频跟踪中的重要性。由于卫星视频与监控视频在成像距离、视角和背景复杂性上的差异，现有多目标跟踪算法在卫星视频上的应用面临挑战。文章概述了基于检测的跟踪（TBD）范式，包括目标检测和帧间关联两个关键步骤，并讨论了目标检测技术的发展，如RetinaTrack、CenterTrack等，以及它们在遥感场景下的应用限制。针对遥感图像中小目标检测的挑战，提出了多种改进方案，包括使用浅层特征、生成对抗网络和目标间度量等方法。此外，还探讨了数据关联阶段的相似度计算和匹配策略，如SORT、DeepSORT、ByteTrack等算法，以及基于深度学习的方法，如Quasi-Dense Similarity Learning、图神经网络和图Transformer模型。最后，指出了现有卫星视频多目标跟踪研究的局限性，并提出了本文面向小目标检测的卫星视频多目标跟踪算法，包括检测网络的改进、Transformer自注意力机制的应用，以及关联阶段的优化，以提高跟踪性能。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"2　研究方法与原理","content":"现有多目标跟踪算法无法有效解决卫星视频的目标跟踪问题，图1展示了卫星视频与监控视频存在的显著差异：（1）卫星视频中的目标尺寸更小，可用特征少，给检测带来难度；（2）由于小目标和遮挡等问题导致目标置信度更低，使得关联难度更大。因此，本文提出一种卫星视频的多目标跟踪算法，具体流程如图2所示：（1）针对卫星视频中目标的特点设计小目标检测器YOLOS（YOLOX for small object），检测卫星视频中第T帧图像的目标；（2）采用一种两步关联策略，根据置信度不同设计两种不同的匹配策略。图1监控视频和遥感卫星视频的差异Fig. 1Differences between surveillance video and remote sensing satellite video图2多目标跟踪算法流程Fig. 2Overview of proposed MOT method2.1　小目标检测器YOLOX（Ge等，2021）是无锚框的一阶段目标检测算法，其主干网络为DarkNet53，颈部网络为PANet， YOLOX的检测头为解耦头，能进一步提高网络的检测性能。此外在YOLOX采用了一种更高效的SimOTA算法，在训练过程中自动为每个真值（ground-truth）分配正负样本，从而解决正负样本不均衡问题。尽管YOLOX取得良好的性能，但是其在小目标上的检测结果仍然比较低，在COCO test-dev数据集（Lin等，2014）上的AP指标仅为31.2%。因此，本文提出来解决卫星视频中的小目标检测问题，YOLOS结构图如图3所示：（1）在YOLOX中增加一个预测分支，得到更高分辨率的特征图，从而更好地保留小目标的特征，此外，还利用CBAM增强小目标的细节特征，提高小目标的检测能力；（2）为了更好地检测位于复杂背景中的目标，利用Transformer在目标之间建立更加鲁棒的关联，进一步提高检测卫星视频中目标的能力。图3YOLOS结构Fig. 3Architecture of YOLOS2.1.1　主干网络当目标位于某些复杂背景中，如云雾、波浪、舰船运动产生尾流等，目标所在的局部区域很难为识别目标提供有效的信息，而图像中的目标存在相似性，如大小、形状、颜色等特征，因此利用全局的目标信息能够更好地识别位于复杂背景中的目标。受Transformer（Vaswani等，2017）的启发，本文利用Transformer中的编码器来为特征图提供全局的上下文信息。Transformer编码器模块如图4所示，该模块包含两个子层，一是多头注意力层（Multi-Head Attention），该层通过自注意力机制建模图像中不同位置的关系；二是多层感知机（MLP），用于变换维度，提高模型表达能力。两个子层都引入了层标准化（layerNorm）和Dropout层，并通过残差结构连接。为了在特征图中融入全局的上下文信息，在主干网络的最后一个模块使用Transformer编码器，其位置和结构如图3中的Transformer Dark5模块所示。这样做一是可以减小使用Transformer带来的计算量和内存的增加，二是高层的特征图包含丰富的语义信息，借助Transformer的自注意力机制，加强全局目标间的联系，提高网络对位于复杂环境下目标的响应，增大目标与背景之间的差异，进而提高网络的检测能力。图4Transformer编码器模块Fig. 4Diagram of Transformer encoder2.1.2　卷积注意力颈部网络尽管使用Transformer能够间接提高网络的检测能力，但是卫星视频中存在大量小目标，而且由于成像距离较大，卫星视频中的目标视觉特征都不明显，这就会导致大量的误检和漏检。因此，本文利用注意力机制来增强目标的特征，提高检测器整体的检测能力。YOLOX的每个颈部网络模块包含一个卷积层和CSP模块（Cross Stage Partial Module，跨阶段局部连接模块），在CSP模块前将多个特征图进行连接，本文在颈部网络中的每个Neck模块最后添加了一个卷积注意力模块（CBAM）（Woo等，2018），每个模块的结构如图3中的CBAM Neck1_1所示。CBAM是一个轻量级的注意力模块，通过空间注意力和通道注意力来对特征进行增强。卫星视频中大部分区域为城市、海洋等地理区域，使用CBAM模块能够让检测网络更好地关注目标所在的区域。2.1.3　检测头低分辨率的高层特征图包含丰富的语义信息，但缺少细节信息。相较之下，高分辨率的低层特征图能够保留小目标的细节，所以使用高分辨率的特征图对检测小目标是非常必要的。如图3所示，本文增加了一个预测分支解耦头1（Decoupled Head 1），该预测分支的输入为卷积注意力颈部网络中的低层特征图，其下采样率为4，相较于其他预测分支能够得到高分辨率的特征图，该特征图对小目标更敏感，能够显著提升网络对卫星视频中小目标的检测能力。2.1.4　损失函数每个解耦头包含回归和分类分支，分别用于回归目标的边界框和分类，对于回归边界框分支，采用GIoU损失函数（Rezatofighi等，2019），对于分类分支采用交叉熵损失函数。2.2　关联算法由于小目标尺寸小、细节特征不明显的特点，卫星视频中的小目标在检测阶段的预测置信度比较低，如果在数据关联阶段中将低置信度的检测结果视为背景，就会造成大量小目标的漏跟，显然在遥感卫星场景下是不适用的。因此，本文采用更加关注低置信度检测的弱数据关联算法Byte（Zhang等，2022）。关联算法1具体流程如下：输入：卫星视频，检测器，检测置信度阈值和，卡尔曼滤波器，轨迹初始化阈值。输出：卫星视频目标轨迹。具体步骤如下：1. for in do；2. 检测器检测当前帧；3. 根据检测置信度阈值和划分检测结果；4. 基于预测轨迹在第帧的位置；5. 基于IoU相似度，关联和；6. 未匹配的高置信度检测结果；7. 未匹配的轨迹段；8. 基于IoU相似度，关联和；9. 未匹配的轨迹段；10. 从中删除；11. 基于阈值将初始化为新的轨迹；12. return 。","result":"介绍了一种面向小目标检测的卫星视频跟踪算法。现有多目标跟踪算法难以应对卫星视频目标跟踪的挑战，如目标尺寸小、特征少、置信度低等。为此，本文提出了一种新的算法，包括小目标检测器YOLOS的设计和两步关联策略。YOLOS基于YOLOX算法，通过增加预测分支和CBAM模块，以及利用Transformer编码器提供全局上下文信息，增强了小目标的检测能力。此外，还改进了卷积注意力颈部网络和检测头，提高了对复杂背景下小目标的检测性能。在关联算法方面，采用了弱数据关联算法Byte，特别关注低置信度检测结果，以避免小目标漏跟问题。整个算法流程包括输入卫星视频、检测、关联、轨迹初始化和更新等步骤，旨在实现更准确的卫星视频多目标跟踪。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"3　数据结果处理与分析","content":"3.1　实验设置3.1.1　实验数据和评价指标本文所用的实验数据来自2021高分遥感图像解译大赛，使用的数据集为高分辨率光学卫星视频中多目标跟踪数据集AIR-MOT（（https：//github.com/HeQibin/TGraM［2022-03-07］）（He等，2022），数据由吉林一号光学卫星采集，图像场景包括不少于15个国内外常用民用机场、港口等。该数据集中包含两类目标，飞机和舰船，训练集共80个由图像序列组成的视频，图像的分辨率为1080×1920，数据集示例如图5所示。由于训练集中有21个视频无目标标注，因此在实验中将有标注的59个视频的70%划分为训练集，用于训练模型，30%划分为测试集，用于测试模型的有效性。图5AIR-MOT数据集示例Fig. 5Examples of the AIR-MOT dataset试验测试使用的评价指标为MOTA（Bernardin和Stiefelhagen，2008），其计算公式如下： (1)式中，表示第帧中目标漏检的个数，表示第帧中目标误检的个数，表示第帧中目标ID发生切换的次数，表示第帧中真值（ground-truth）的个数。3.1.2　对比方法表1为对比实验选用的方法。联合检测与跟踪JDT（Joint Detection and Tracking）方法是指将检测和跟踪联合，进行端到端地学习训练。MSOT-CNN（Bahmanyar等，2019）、Yolov3+MGN（Wu等，2021a）以及DSFNet+SORT（Xiao等，2022）是应用在遥感场景下的多目标跟踪算法，所有对比方法的参数设置都遵循原论文使用的参数。表1对比实验选用的方法Table 1Comparative methods used in the experiments3.2　实验数据本文所提算法通过Pytorch框架实现，硬件环境为：Ubuntu18.04操作系统，Intel Xeon 5220R CPU，NVIDIA RTX3090 GPU显卡。基于SGD优化器，YOLOS在训练集上训练90个epoch，初始学习率为每张图像0.0000625，在训练过程中采用预热（warmup）和余弦学习率衰减策略。数据增强采用Mosaic（Bochkovskiy等，2020）和MixUp（Zhang等，2017），此外采用了强的旋转数据增强，即图像的旋转角度范围设为，在训练的最后20个epoch，关闭所有的数据增强。训练采用多尺度训练的方法，图像最长边包含的像素个数范围为1120—1632，batch size大小为4。和分别设置为0.1和0.3，设置为0.6。3.3　消融实验结果分析为了验证提出的各项改进对于跟踪性能的影响，本文采用高分辨率光学卫星视频中多目标跟踪数据集的测试集进行消融实验，结果如表2所示。在增加一个预测分支（解耦头1）后，跟踪性能有一个明显的提升，MOTA指标从49.6%增加到52.0%；在使用了强的旋转数据增强后，MOTA指标提升非常大，本研究的分析发现遥感图像中的目标会呈现出各种不同的角度，使用强的旋转数据增强能够使网络学习到目标在不同方向的特征，从而提高网络的泛化性能；在上述基础上增加CBAM注意力机制后，增强了目标的特征，MOTA指标也有一定程度的提升；通过Transformer将全局的上下文信息融合到特征中也能提升跟踪性能。由于在检测网络中增加了一个预测分支以及使用了Transformer，本文提出的方法相较于Baseline，处理速度有所降低，Baseline的处理速度能够达到15 FPS，本文的方法仅为10 FPS左右。注： √表示使用这个模块或方法。↑表示越高越好，↓表示越低越好。表2检测器的消融实验Table 2Ablation study on detector为了更直观地展示各项改进的有效性，本研究可视化了网络最后一层的特征响应图，结果如图6所示。图6（a）为测试集中的某一帧图像，图中红色越深的区域代表网络对于该区域的响应值越高。图6（b）—（e）依次展示了解耦头1到解耦头4的特征图的可视化结果，其特征图的分辨率依次减小。可见：随着预测舰船目标的特征图分辨率增加，网络对于单个小目标的响应值更高，更容易检测出小目标。图6（f）和（g）表示分别表示在增加CBAM和Transformer后，解耦头1特征图的可视化结果。可见在使用了CBAM注意力后，只有目标所在位置的响应值高，网络对小目标的注意权重更大，这有利于小目标的检测；在增加Transformer编码上下文信息后，特征图中目标与背景之间的差异更大，进一步提高小目标的检测能力。图6视频帧及其特征图可视化结果（图中红色越深的区域代表网络对于该区域的响应值越高）Fig. 6Video frame and its feature maps visualization results （The deeper red area in the image， the higher network’s responsevalue for that region）本文还验证了弱数据关联的有效性，采用了两个实验，一是只使用高置信度的检测结果与轨迹进行匹配，二是同时考虑高置信度和低置信度的检测结果，其结果如表3所示。可见在卫星视频场景下直接忽略低置信度的检测是不合理的，会导致部分小目标无法匹配轨迹，造成跟踪精度的降低。注： ↑表示越高越好，↓表示越低越好。表3数据关联的消融实验Table 3Ablation study on data association本文选取了SORT （Bewley等，2016）、 DeepSORT（Wojke等，2017）、MOTDT（Chen等，2018）3种数据关联方法与Byte进行比对。为了公平地比较不同轨迹关联的差异，检测阶段都使用本文提出的改进YOLOX，对比结果如表4所示。可见采用Byte的MOTA指标最高，而且SORT、MOTDT、Byte在MOTA指标相近的情况下，Byte的IDF1指标更高，表明Byte的关联准确性更高。此外DeepSORT和MOTDT在匹配时使用了ReID模型，这两种方法的MOTA指标都低于不使用ReID模型的SORT和Byte，这是因为在卫星视频中，不同目标之间的外观特征差异小，以及目标与复杂背景之间的差异不突出，使用目标的外观特征会损害跟踪器的性能，因此在关联阶段需要根据卫星视频中目标的特点针对性地设计外观特征提取器，或者注重利用目标的时空、运动等信息提高关联的准确性。注： ↑表示越高越好，↓表示越低越好。表4不同数据关联方法的对比Table 4Comparison of different data association methods如表5所示，本文还验证了检测与关联对跟踪性能的影响，检测阶段分别采用YOLOX和YOLOS，检测阶段分别采用SORT和Byte。表5的结果说明，在检测上的改进能够极大提升卫星视频多目标跟踪的性能，而不同的关联算法对跟踪性能的影响相对较小。推测这是由于遥感视频成像的特点造成的，即以鸟瞰视角观测到的目标运动模式相对简单，使得关联阶段的难度低于自然场景的监控视频。注： ↑表示越高越好，↓表示越低越好。表5本文方法采用不同检测与关联方法对跟踪性能的影响Table 5Effect of adopting different detection and association methods in the proposed method on tracking performance3.4　对比实验结果及分析本研究将提出的方法与其他多目标跟踪算法进行比较，对比结果如表6所示。由表6可见，本文提出的方法在MOTA和IDF1指标上都优于其他方法。基于式（1）和表6可知，在卫星视频的多目标跟踪中，FN和FP对于MOTA指标的影响更大，即检测器的好坏更容易影响跟踪器的性能，如MSOT-CNN是基于单目标跟踪的方法，在复杂的背景下容易跟丢，导致FP过高；DSFNet更加注重检测运动目标，无法精准的检测出静止目标，导致FN过高。此外，相较于未使用ReID特征的方法，使用ReID特征关联的方法在卫星视频的跟踪中没有展现出其优势，如FairMOT和CenterTrack、StrongSORT和ByteTrack，这是因为卫星视频中目标之间的外观特征差异小，基于外观特征更容易产生匹配错误。在遥感场景和监控场景下进行多目标跟踪存在明显的差异，如ByteTrack在MOT17数据集上MOTA指标高达80.3%，而在卫星视频数据集中MOTA仅为49.6%，在卫星视频下进行多目标跟踪存在更大的挑战。注：黑体数值表示该指标的最好的结果。↑表示越高越好，↓表示越低越好。表6不同方法下的跟踪性能比较Table 6Comparison of tracking performance under different methods表7展示了2021高分遥感图像解译大赛高分辨率光学卫星视频中多目标跟踪赛道的结果，结果表明，本文提出的多目标跟踪算法具有一定的优越性，并且本研究的检测器只在比赛给定的训练集上训练，未使用额外的数据。注： ↑表示越高越好。表72021高分大赛多目标跟踪赛道前5名结果Table 7Top 5 results of MOT in 2021 Gaofen Challenge","result":"章节详细描述了面向小目标检测的卫星视频跟踪算法的实验设置、数据结果处理与分析。实验数据来源于2021高分遥感图像解译大赛的高分辨率光学卫星视频多目标跟踪数据集AIR-MOT，包括飞机和舰船两类目标。实验中，70%的视频用作训练，30%用作测试，评价指标为MOTA。对比实验选用了联合检测与跟踪JDT方法和其他几种多目标跟踪算法。\n\n实验在Pytorch框架下进行，使用Ubuntu18.04操作系统、Intel Xeon 5220R CPU和NVIDIA RTX3090 GPU显卡。优化器采用SGD，数据增强包括Mosaic和MixUp，以及强的旋转数据增强。消融实验结果表明，增加预测分支、使用强旋转数据增强、引入CBAM注意力机制和Transformer均能提升跟踪性能，但处理速度有所降低。\n\n可视化特征响应图展示了网络对小目标的响应值，证明了CBAM和Transformer对小目标检测能力的提升。弱数据关联实验显示，忽略低置信度检测结果会导致跟踪精度降低。不同数据关联方法的比较表明，Byte方法在MOTA和IDF1指标上表现最佳，而使用ReID模型的方法在卫星视频跟踪中并未展现优势。\n\n检测与关联方法对跟踪性能的影响实验表明，检测阶段的改进对跟踪性能提升显著，而不同关联算法的影响相对较小。最终，与其他多目标跟踪算法的比较结果证明了本文提出方法在MOTA和IDF1指标上的优越性。此外，2021高分遥感图像解译大赛的结果进一步证实了算法的有效性。","language":"zh"},{"title":"面向小目标检测的卫星视频跟踪算法","chapter":"4　结论","content":"针对在高分辨率光学卫星视频中小目标跟踪问题，本文提出了一种面向小目标检测的卫星视频跟踪算法。主要结论如下：（1）由于卫星视频中的目标尺度小、特征信息弱，本文在检测器中添加一个预测分支，使用高分辨率的特征图来检测小目标，并且通过注意力机制在特征图中融合全局的上下文信息，并增强小目标的特征，有效地提高了对小目标的检测能力。（2）在关联阶段，由于数据中存在的大量小目标导致检测出的目标置信度较低，同时考虑高置信度和低置信度的检测结果，保证检测到的小目标能够与轨迹关联。（3）在AIR-MOT数据集上的实验结果表明，本文提出的方法在跟踪性能上超越了其他先进方法。此外，本文提出的方法仍存在局限性，首先为了提高跟踪的准确性能，牺牲了模型的运行效率，难以达到实时性的需求；其次在关联阶段未充分考虑遥感场景下多目标跟踪的特点，如由云雾、隧道等因素引起的目标遮挡问题，目标之间的相对关系等。本文所提方法对于舰船的跟踪效果仍不理想，未来应更加关注遥感场景下舰船的多目标跟踪问题。","result":"提出了一种针对高分辨率卫星视频中小目标检测的跟踪算法。通过在检测器中加入预测分支和注意力机制，增强了小目标的特征并提高了检测能力。关联阶段考虑了高低置信度的检测结果，确保小目标与轨迹的关联。实验结果表明，该方法在AIR-MOT数据集上的跟踪性能优于其他先进方法。然而，该方法存在局限性，如牺牲了模型的运行效率，难以实现实时性，且在关联阶段未充分考虑遥感场景下的多目标跟踪特点，如目标遮挡和相对关系等问题。未来研究应更关注遥感场景下舰船的多目标跟踪问题。","language":"zh"}]”
Vol. 28, Issue 7, Pages: 1812-1821(2024)
Published： 07 July 2024 ，
DOI： 10.11834/jrs.20232098
稿件说明：

扫描看全文

崔浩文，许楚杰，郑向涛，卢孝强.2024.面向小目标检测的卫星视频跟踪算法.遥感学报，28（7）： 1812-1821

Cui H W，Xu C J，Zheng X T and Lu X Q. 2024. Multi-object tracking by detecting small objects in satellite video. National Remote Sensing Bulletin， 28（7）：1812-1821
崔浩文，许楚杰，郑向涛，卢孝强.2024.面向小目标检测的卫星视频跟踪算法.遥感学报，28（7）： 1812-1821 DOI： 10.11834/jrs.20232098.

Cui H W，Xu C J，Zheng X T and Lu X Q. 2024. Multi-object tracking by detecting small objects in satellite video. National Remote Sensing Bulletin， 28（7）：1812-1821 DOI： 10.11834/jrs.20232098.

Alert me when the article has been cited

提交

Spectral unmixing method considering endmember variability of vegetation

Surface microwave scattering model evaluation and soil moisture retrieval based on ground-based radar data

Investigation on earthquake-induced landslide in Jiuzhaigou using fully polarimetric GF-3 SAR images

From optical to SAR： A SAR ship detection algorithm based on multi-level cross-modality alignment

Multi-object tracking by detecting small objects in satellite video

DOI： 10.11834/jrs.20232098