Domain-adaptation algorithm for remotely sensing building changes through instance contrast learning

ZHANG Qi; LU Yao; WANG Fei; ZHANG Xuetao; ZHENG Nanning

doi:10.11834/jrs.20233259

Satellite Information Intelligent Application | Views : 0 下载量: 377 CSCD: 0

R-PDF
PDF
Export
Share
Collection
Album

Domain-adaptation algorithm for remotely sensing building changes through instance contrast learning
“[{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"1　引言","content":"近年来随着遥感技术的飞速发展，遥感卫星的成像能力不断提高，遥感图像的质量飞速提升，目前光学遥感影像空间分辨率已经可以达到0.3 m GSD。因此，借助遥感图像可以更加清晰准确的辨别地表上的物体。目前遥感图像智能解译已经得到了广泛应用，如遥感图像目标检测（姚群力等，2019；史文旭等，2020；王海峰等，2022；薛成宬等，2023）、遥感图像语义分割（Su等，2022；Cheng和Lei，2023）、遥感图像变化检测（刘宣广等，2024；刘英等，2022；刘红超和张磊，2020）等。其中遥感图像变化检测中的建筑物变化检测是一个重要方向。遥感图像建筑物变化检测是对同一地理区域、不同时间获取的遥感影像自动地进行地面建筑物变化检测的技术（柳思聪等，2023）。近年来，深度学习方法在建筑物变化检测中得到了广泛的应用，此类方法可以从原始数据中自动提取层次结构的、非线性的特征，克服了传统建筑物变化检测方法的一些局限性，表现出优异的性能。根据双时相图像的深度特征提取过程，基于深度学习的建筑物变化检测框架可以概括为3种类型：单流、双流和多模型集成（Shi等，2020）。由于双流孪生网络具有更简单的结构和更强的性能，受到更多的关注。在双流孪生网络中，可以将提取特征所使用的深度模型分为基于卷积神经网络的模型、基于循环神经网络的模型、基于Transformer的模型等。基于卷积神经网络的算法有全卷积早融合模型FC-EF（Fully Convolutional Early Fusion model）（Daudt等，2018）、全卷积差异模型FC-diff（Fully Convolutional Difference model）（Daudt等，2018）、孪生U型变化检测网络SNUNet-CD（Siamese and U-shaped Network for Change Detection）（Fang等，2022）等，这些方法采用卷积模型提取双时相特征，可以保留邻域的联系和空间的局部特点，由于其共享卷积核的结构，可以处理尺寸较大的图像；基于循环神经网络的算法有深度孪生卷积多层递归神经网络SiamCRNN（deep Siamese Convolutional Multiple-Layers Recurrent Neural Network）（Chen等，2020）、基于递归残差的森林变化检测U型网络FCD‑R2U‑net（Forest change detection in bi-temporal satellite images using the recurrent residual-based U-net）（Khankeshizadeh等，2022）等，这些方法在捕获序列关系方面非常有效，可以有效建立双时图像之间的变化关系；基于Transformer的算法有双时相图像BIT Transformer（Bitemporal Image Transformer）（Chen等，2021）、变化检测Transformer模型Changeformer（Change detection Transformer）（Bandara和Patel，2022）等，这些方法通过多头注意力机制提取原始遥感图像中具有上下文关联性的特征表示，最近几年在遥感图像处理领域被广泛运用。除了关注提取特征的深度模型的结构之外，另一个在双流孪生建筑物变化检测算法中被关注的点是变化特征的融合方式。有一些工作通过改进多尺度特征的融合方式来提升变化检测的性能。时空注意力网络STANet（Spatial-Temporal Attention-Based Network）（Chen和Shi，2020）算法在编码器网络之后增加一个变化检测自注意力模块，计算变化检测输入图像中任意两个像素之间的时空关系，并针对建筑目标的尺度多样性，提出不同尺度的自注意力机制，从而生成更有效的变化特征。特征限制变化检测网络FCCDN（Feature Constraint Change Detection Network）（Chen等，2022）算法提出了一种基于密集连接的简单而有效的深度特征融合模块DFM（Deep Feature Fusion Module），使用求差分支与求和分支，求和分支用于增强边缘信息，求差分支用于生成变化区域，每个分支都由两个密集连接的共享权重的流构建，以此减少特征错位。双向自注意力网络DSANet（Dual Self-Attention Network）（Huang等，2019）提出了一种基于深度度量学习的遥感变化检测方法，该方法使用双重注意模块来改进特征辨别力以更稳健地区分变化。然而，以上大多数现有的变化检测方法都是使用全监督深度学习模型（Chen等，2021，2022；Fang等，2022；Asokan和Anitha，2019），这需要大量带标签的遥感数据来进行准确的预测。而手动标注建筑物变化检测标签是非常耗时耗力的，因为这需要专业的人员逐像素地对两幅影像进行对比标注。并且由于地点不同、季节不同、成像系统不同等原因，同一地物在不同的图像中可能呈现出不同的样貌，这导致在原场景训练的模型迁移至新场景时性能严重下降。无监督域适应技术是缓解这个问题的有效手段。当前无监督域适应算法可以主要分为基于对抗训练的域适应和基于自训练的域适应（Liu等，2022）。基于对抗训练的域适应算法借鉴对抗生成网络（Goodfellow等，2020）的思想，在模型训练的过程中使用鉴别器鉴别输入特征来自于源域还是目标域。输入级对抗训练域适应算法，使用傅里叶变换（Yang和Soatto，2020）或者深度学习方法（陈淮源，2022）对源域数据和目标域数据进行风格匹配；特征级对抗训练域适应算法对编码器的特征进行鉴别分类，并采用梯度翻转层（Ganin和Lempitsky，2015）驱使编码器提取域不变特征；输出级对抗训练域适应算法，在模型的输出层使用鉴别器和熵最小化策略（Tsai等，2018；Vu等，2019）使源域和目标域具有相似的预测值。对抗训练的方法具有想法直观易于理解的优点，但是在鲁棒性和模型训练的稳定性上较差。基于自训练的域适应方法使用源域数据训练模型并对目标域数据生成伪标签（Wang等，2021），然后对模型重新训练以提升模型在目标域上的性能。在模型训练上，通过基于类别的域混合将源域正样本混合至目标域图像上（Tranheden等，2021；Olsson等，2021），同时根据类别的出现频率确定其在训练过程中的采样频率（Hoyer等，2022a），以此让模型学习目标域的背景信息和平衡多个类别之间的关系。还有一些研究在域适应任务中使用掩码图像一致性方法（Hoyer，2023）和层次性伪标签融合策略（Arnaudo等，2023）提升模型对输入数据上下文的表示能力，此类方法也是适用于正样本类别数量较多的场景。此外，还有一些算法将对比学习引入至无监督域适应任务（Chen等，2023；Vayyat等，2022），鼓励模型学习具有类内紧凑性和类间可分离性的区分像素特征，显式地促进区分性特征学习。虽然目前的域适应算法已经可以在建筑物变化检测任务上取得较好的效果，但仍然存在以下3个问题：（1）问题1。基于类别的域混合策略适用于类别数量较多的情况下，在建筑物变化检测任务中，仅存在“变化”这一个类别的正样本，在使用基于类别的域混合时，模型仅简单学习混合正样本的边缘区域即可将其区分出来，使模型无法有效学习；（2）问题2。当前基于像素的对比学习方法，由于目标域的标签不可知，由模型生成的伪标签必然具有分类错误的样本，导致在对比训练过程中易引入较大的噪声信息；（3）问题3。高置信度阈值过滤生成的伪标签未利用教师模型的低置信度预测结果，使得目标域的大量区域被忽略，造成样本的不充分利用。针对以上问题，本文提出了针对跨域建筑物变化检测任务的实例级对比学习域适应算法ICDA-CD（Instance Contrast learning Domain Adaptation for Change Detection）。主要贡献点有3个：区域级域混合、实例级对比学习和伪标签质量估计加权损失。针对上述问题1，本文提出区域级域混合，将含有源域建筑物的数据与含有目标域建筑物的数据同时混合在一个样本上，混合形成的混合域样本可以使模型更加关注背景区域的域不变特征；针对上述问题2，根据像素级对比学习存在的缺点，本文提出实例级对比学习，将其应用在建筑物变化检测模型的编码器和解码器中。在编码器中，拉开变化建筑物区域双时相特征距离，在解码器中，拉近各个变化建筑物区域特征之间的距离，从而降低模型对源域和目标域变化建筑物正样本特征表示的差异；针对上述问题3，本文提出伪标签质量估计，通过教师模型的预测值得出各个像素位置的伪标签质量估计，然后对损失进行加权，这可以使得低置信度的标签可以被有效利用，不浪费教师模型的预测结果。本文对所提出来的方法ICDA-CD进行了域迁移实验，并与其他先进算法进行了对比分析和消融实验。","result":"介绍了遥感技术的发展及其在建筑物变化检测中的应用，重点讨论了深度学习在该领域的应用和进展。文中首先概述了遥感图像智能解译的广泛应用，包括目标检测、语义分割和变化检测等。随后，详细讨论了基于深度学习的建筑物变化检测框架，包括单流、双流和多模型集成三种类型，并特别强调了双流孪生网络的优势。文中还介绍了不同深度模型，如基于卷积神经网络、循环神经网络和Transformer模型的算法，并探讨了变化特征融合方式的改进对提升性能的影响。\n\n进一步，章节指出了现有全监督深度学习模型在建筑物变化检测中的局限性，包括对大量带标签数据的依赖和模型迁移至新场景时性能下降的问题。为解决这些问题，提出了无监督域适应技术，包括基于对抗训练和自训练的域适应方法，并分析了这些方法的优缺点。\n\n最后，针对现有方法的不足，本文提出了一种新的实例级对比学习域适应算法ICDA-CD，该算法通过区域级域混合、实例级对比学习和伪标签质量估计加权损失三个主要贡献点来提高跨域建筑物变化检测的性能。文中还对ICDA-CD进行了域迁移实验，并与其他算法进行了对比分析和消融实验，验证了其有效性。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"2　研究方法","content":"本文所构建的实例级对比学习域适应遥感变化检测模型ICDA-CD（Instance Contrast learning Domain Adaptation for Change Detection），采用了基于学生—教师模型的自训练域适应框架，整体结构如图1所示。图1实例级对比学习域适应遥感变化检测算法整体结构Fig. 1Overall structure of the domain adaptation change detection algorithm根据在半监督和无监督域适应中广泛应用的“强弱一致性”（Li等，2020）原则，教师模型的输入为不经过数据增强的目标域数据，以生成更准确的伪标签；学生模型中，本文提出将目标域数据与源域数据进行区域级域混合及强数据增强之后的结果作为学生模型的输入，以此使模型同时学习源域数据和目标域数据，增大训练数据的多样性。训练过程中，本文提出在学生模型的编码器和解码器中分别采用实例级对比学习。首先根据源域标签和教师模型生成的目标域伪标签混合成新的标签，然后根据标签中正样本的连通性，将每一个连通域内的所有空间位置的样本视为一个实例。正样本表示的是变化类别，所以在孪生编码器中正样本对应位置的特征属于不同的类别，因此将编码器中的正样本特征通过实例对比学习拉远。同时在解码器中显式地拉近同一个训练批次中源域和目标域的正样本实例特征。本文提出的实例级对比学习方式相比于一般的像素级对比学习，可以大大减少训练过程中的噪声，同时可以引导模型提取域不变的特征，提升模型的跨域性能。在损失计算的过程中，本文提出对教师模型输出的伪标签进行质量估计，并对混合域样本的损失进行加权，相比于传统的高置信度阈值的伪标签生成方式可以更加充分得利用目标域样本数据。2.1　区域级域混合域混合是提升无监督域适应性能的常用方法，在语义分割任务中，通常存在多种类别，且各个类别之间通常存在一定的语义关系，从而造成语义的高低层之差，例如汽车类别要高于道路类别，因为汽车可能会遮挡道路，但道路不会遮挡汽车。将源域的汽车复制出来，粘贴到目标域图像的道路类别之上，从而形成了混合两个域的新图像。由于类别众多，即使粘贴之后边界明显，模型仍然可以学习域混合之下的类别信息，所以这种实例级别的域混合方式对于语义分割十分有效，可以提升模型在目标域的性能。但是，在遥感变化检测中仅有“变化”这一个类别，当将源域的变化物体复制粘贴到目标域的图像上时，粘贴边界较为明显时，模型可以很容易的进行二分类，从而无法使域混合发挥作用。图2为建筑物变化检测中的源域和目标域在实例级进行混合的示例。可见：复制粘贴之后的图像边缘较为明显；同时，在变化检测中通常正样本的数量占比较小。这两个原因导致在变化检测任务中实例级别的域混合技术无法发挥其作用。图2实例级域混合示例Fig. 2Example of the instance level domain mix通过CutMix区域级别的域混合，构建混合域样本，再送入模型进行训练。通过这种方式使模型在同一个样本中同时学习源域与目标域的特征，从而学习到域不变特征，提升模型在目标域的泛化性能。图3为本文所采用的区域级混合示例图，首先使用教师模型推理得到目标域图像的伪标签，然后随机裁切目标域图像及伪标签的一个矩形区域，替换源域图像及真值标签的对应位置，从而生成了混合域的图像及标签。此过程可以表示如下： (1) (2)式中，x表示前后时相的样本；下标中：m表示混合域，s表示源域，t表示目标域；表示一个随机的矩形区域；表示目标域样本的伪标签。在计算x和计算label时使用同一个，以保证图像和标签可以对应上。图3区域级域混合示例Fig. 3Example of the regional level domain mix2.2　实例对比学习遥感图像变化检测域适应任务的目标是使模型在目标域上具有更好的性能，这需要减小源域特征和目标域特征之间的距离，才能使模型具有更好的泛化性能。而对比学习可以缩小同类特征的距离，扩大不同类别特征之间的距离，因此可以借助对比学习来提升模型跨域变化检测的性能。在无监督域适应任务中，由于目标域没有真实标签，伪标签是由教师模型生成的，会产生大量错误的伪标签，这导致在进行像素级的对比学习时出现大量错误的正负样本对，这些噪声会影响模型的有效学习。为降低像素级对比学习过程中噪声的影响，本文提出实例级对比学习，将一个实例内部所有位置的特征进行平均，以降低离群噪声的影响。本文将实例级对比学习分别应用在编码器阶段和解码器阶段。在编码器中，由于变化检测模型采用孪生网络提取双时相特征，模型对相同类别的特征表示具有较大的相似性，对不同类别的表示具有较小的相似性。在变化检测中，发生变化的区域（正样本）在前后时相的图像中是属于不同的类别，则前后时相的此区域的特征应该具有较小的相似性。基于这种观察，本文在编码器中采用了实例级对比学习，扩大前后时相中同一区域不同类别的特征距离。编码器阶段的实例对比学习EIC（Encoder Instance Contrast learning）的具体步骤如图4所示。首先，将前时相图像和后时相图像分别输入编码器，得到编码器深层的高维特征，因为深层特征具有较多语义信息，所以将其作为实例对比学习的特征来源；同时根据连通性将变化真值标签分为多个连通域，每一个连通域表示一个实例掩码；接着使用实例掩码与双时相高维特征提取该实例区域在前后时相中的特征表示；为提升特征距离的计算效率，使用如图6所示的结构，将这一对特征都降维至128维；最后，计算每一对特征的对比损失，扩大这对特征之间的距离。对比损失的计算如式（4）： (3) (4)式中，D表示余弦距离，i表示第i个实例，n表示所有实例的个数，r表示实例的特征表示，pre表示前时相，post表示后时相，表示L2距离，∈［0，2］。图4编码器阶段的对比学习Fig. 4Contrast learning in the encoder stage图5解码器阶段的对比学习Fig. 5Contrast learning in the decoder stage图6实例特征降维结构Fig. 6Instance feature dimensionality reduction structure在解码器中，输入编码器的前后时相多尺度特征，经过自上而下的多尺度融合之后，得到多个尺度的变化特征。此时不再有前时相特征和后时相特征之分，它们一起融合成为了变化特征。对于源域数据的变化特征和目标域数据的变化特征应该具有相似的表示，本文通过实例级对比学习显式地拉近源域变化实例特征与目标域变化实例特征，从而提高模型对源域和目标域的变化表示的一致性。解码器阶段的实例对比学习DIC（Decoder Instance Contrast learning）的具体步骤如图5所示。首先，将前后时相图像输入至孪生编码器，再经过变化特征解码器，得到解码器最后两个阶段的变化特征；同时，与编码器的变化标签实例化相同，根据连通域将变化标签分为多个实例掩码；接着使用实例掩码与变化特征提取该实例的变化特征表示；为提升特征距离的计算效率，使用如图6所示的结构，将特征降维至128维；最后，计算同一个训练批次中每一个变化实例与其他所有变化实例之间的对比损失，拉近源域变化实例特征和目标域变化实例特征之间的距离，引导模型提取域不变特征。解码器中对比损失的计算方式如式（5）所示： (5)式中，n表示所有实例的个数，r表示实例变化特征，距离D的计算方式见式（3），。综上所述，在训练过程中采用的实例对比损失的计算公式如下： (6)图6为在提取实例特征时采用的降维结构，为了防止对比学习的过程中出现“模型坍塌”现象，在降维结构中未使用非线性操作，保持降维之后的特征与编码器或解码器输出的特征为线性关系。2.3　伪标签质量估计为了充分利用教师模型的预测结果，本文采用固定0.5阈值置信度将预测结果二值化，不忽略任何伪标签，并将教师模型的预测结果置信度作为伪标签的质量估计PLQE（Pseudo Label Quality Estimation）。如图7（a）所示，传统的伪标签生成采用高置信度阈值，造成伪标签中存在忽略样本，无法利用到低置信度阈值的样本，如果仅降低阈值，则会引入更多的噪声标签；同时二值化标签将不同置信度同等对待，如0.8和0.9转为二值化标签后为1和1，这减少了伪标签中的信息。本文提出直接使用0.5置信度阈值对目标域样本的预测结果二值化得到伪标签，如图6（b）所示：将预测结果中置信度>0.5的像素视为正样本，如图中蓝色位置；置信度<0.5的像素视为负样本，如图中黄色位置；不产生忽略标签，所有像素均可参与训练。得到之后，再根据式（2）得到混合域的标签。由于采用了低置信度阈值，在目标域样本的伪标签中有大量噪声。为了解决这个问题，本文根据教师模型的在目标域样本上的预测结果生成其伪标签质量估计，其转换方式如式（7），置信度越接近于0.5则其质量越差，计算公式如下： (7) (8)式中，与式（1）和（2）中的相同，以保证混合矩形位置可以对应，表示源域标签的质量，其为一个全一矩阵，表示源域的标签的质量都是最高的。得到学生模型的预测结果之后，与混合标签计算二元交叉熵损失，之后将标签质量加权至BCE损失上，标签质量越高，损失权重越大。可表示如式（9）至（10）。 (9) (10)式中，表示学生模型对混合样本的预测结果，表示逐像素点加权运算。通过这种方式，利用了目标域样本中包括低置信度预测在内的所有像素，同时对目标域伪标签的质量进行了估计，使得模型更加关注更高质量的伪标签。综上所述，在域适应阶段模型的总损失计算公式如下： (11)","result":"提出了一种基于实例对比学习的遥感建筑物变化检测域适应算法ICDA-CD，采用学生—教师模型的自训练域适应框架。算法利用“强弱一致性”原则，教师模型输入目标域数据生成伪标签，学生模型输入经过区域级域混合及数据增强的目标域和源域数据，以学习两域数据并增加训练数据多样性。实例级对比学习在编码器和解码器中应用，通过混合源域标签和教师模型生成的伪标签，将连通域内样本视为实例，拉远正样本特征，拉近源域和目标域正样本实例特征，减少训练噪声，提取域不变特征，提升跨域性能。区域级域混合通过CutMix方法构建混合域样本，使模型学习源域与目标域特征，提升泛化性能。实例对比学习在编码器阶段扩大同一区域不同类别特征距离，在解码器阶段拉近源域和目标域变化实例特征，提高变化表示一致性。为充分利用教师模型预测结果，采用固定0.5阈值置信度二值化预测结果得到伪标签，并通过伪标签质量估计对损失进行加权，使模型更关注高质量伪标签。最终，模型的总损失综合考虑了实例对比损失和伪标签质量加权的二元交叉熵损失。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"3　结果与分析","content":"为了评估本文所提出的基于实例对比学习的遥感域适应变化检测模型的性能表现，本文将本文方法与目前先进的DACS、DAFormer、HRDA等域适应算法进行了对比。3.1　数据集及评价指标本文采用LEVIR-CD（Chen等，2020）和S2Looking（Shen等，2021）数据集分别进行了2组实验：（1）将LEVIR-CD作为源域数据，S2looking作为目标域数据；（2）将S2looking作为源域数据，LEVIR-CD作为目标域数据。训练中源域数据的图像和标签都可以使用，不使用目标域真值标签。图7高置信度伪标签生成与本文伪标签生成方法对比Fig. 7High-confidence pseudo label generation versus this proposed pseudo label generation methodLEVIR-CD数据集包括来自美国德克萨斯州几个城市的20个不同地区的遥感图像，图像数据的捕获时间从2002年—2018年不等，分辨率为0.5 m GSD。此数据集仅关注建筑物单个类别的变化情况，图像大小为1024×1024像素，共计637对RGB图像。S2Looking是一个建筑变化检测数据集，包含在各种偏离最低点的角度拍摄的大规模侧视卫星图像。该数据集由2017年—2020年从高分、SuperView和北京二号收集的5000对超高分辨率配准图像组成。数据集包含了来自世界各地的各种场景，包括村庄、农场、别墅、零售中心和工业区等。表1为LEVIR-CD和S2Looking数据集的主要信息概况。表1本文采用数据集概况Table 1Overview of the data sets used in this paper虽然两个数据集都是针对建筑物变化检测，但是二者在光照强度、图像分辨率、成像角度等方面存在明显差异，图8展示了两个数据集中的部分建筑物图片。可见：LEVIR-CD中的建筑物较为单一，主要为美国乡村地区的居民住宅，在外貌上各个建筑物有较大的相似性；S2Looking中的建筑物的在外观、形状、色彩、分辨率上有更多的样式。两个数据域之间存在样本分布不一致的情况，可以用于本文域适应变化检测方法的验证。图8LEVIR-CD与S2Looking中的建筑物对比Fig. 8Comparison of buildings in LEVIR-CD and S2Looking变化检测任务中常用的评价指标有准确率P（Precision）与召回率R（Recall），P与R的计算公式如下： (12) (13)式中，TP表示实际为正样本并且被模型识别为正样本的数量，FP表示实际为负样本但被模型识别为正样本的数量，FN表示实际为正样本但被模型识别为负样本的数量，TN表示实际为负样本并且被模型识别为负样本的数量。在实际应用中，由于P和R是两个相互影响的指标，所以本文也采用综合这两者的指标F1分数，F1的计算如下： (14)此外，本文也采用IOU作为评价指标，在变化检测中，仅有“变化”与“非变化”两个类别，本文仅计算“变化”类别的IOU，其计算如式（15）。 (15)3.2　对比算法由于当前专门针对遥感图像变化检测域适应的研究较少，为了验证所提出方法的有效性，将当前语义分割域适应任务中的先进算法进行了变化检测适配，然后将本文方法与之进行对比，主要对比了3种算法，现介绍如下。DACS（Tranheden等，2021）是2021年被提出来的，是混合来自两个域的图像以及相应的标签和伪标签，除了训练有标签的数据本身之外，还对这些混合样本进行训练。DAFormer（Hoyer等，2022a）是2022年被提出的，它将Transformer模型引入到语义分割无监督域适应中，采用罕见类别重采样策略解决类别不均衡的问题，并使用ImagNet预训练模型特征距离限制，防止模型遗忘已知类别。HRDA（Hoyer等，2022b）是2022年被提出来的，采用了一种多分辨率训练方法，使得在训练高分辨率图像的时候，运用高分辨率裁切来保存细粒度的分割细节，同时用大的低分辨率的裁切，通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。3.3　实现细节本文实验的硬件环境为Intel Xeon Gold 6240 CPU@2.6 GHz，128 G内存以及NVIDIA Quadro RTX8000，软件环境为pytorch深度学习框架。基础变化检测模型采用基于孪生网络的编码器-解码器结构，编码器采用ConvNext-base（Liu等，2022b），解码器采用UperNet（Xiao等，2018），双时相特征融合采用级联融合，域适应模型采用两阶段训练方式。第一个阶段是仅在源域数据上训练，在原始1024尺度的图像上随机裁切，以512尺度进行训练，训练批次大小为16，训练迭代次数为10 k，优化器采用AdamW，初始学习率设置为0.0001，并且在前1000个迭代使用线性学习率预热策略，学习率衰减策略采用poly。在数据增强上，采用（0.5，2）范围内的随机缩放、随机裁切、随机上下左右翻转、随机旋转、HSV空间抖动、输入归一化等策略，在官方测试集上进行验证并保留训练中指标最高的模型。第二个阶段是在源域数据和目标域数据的混合域上进行训练，在教师模型生成为伪标签的时候，不进行数据增强，直接输入归一化之后的目标域数据。学生模型采用强数据增强，包括第一个阶段使用的数据增强以及CutMix、高斯模糊，学习率采用CosReStart，每1000次迭代进行一次学习率重启，其余设置与第一个阶段相同。在第二个阶段中，学生模型与教师模型具有相同的结构，都采用遥感变化检测中常用的基于孪生网络的编码器—解码器结构；学生模型与教师模型具有不同的参数，教师模型的参数是学生模型的参数在训练过程中的指数移动平均EMA（Exponential Moving Average），以此来提升教师模型生成目标域伪标签的稳定性，且教师模型在进行伪标签生成的时候，不进行梯度的反向传播。教师模型参数的EMA更新方式如下： (16)式中，表示教师模型的参数，表示学生模型的参数，t表示迭代数，为指数移动平均中的超参数，取0.998。此外，针对对比算法，本文相比于原始官方代码并未做很多参数上的搜索。DACS、HRDA、DAFormer 3个模型原本是适配于语义分割任务的域适应算法，本文按照变化检测算法中常用孪生网络的架构对它们的模型结构进行了改造，以适配变化检测任务。在模型上，DACS的编码器采用ResNet101，解码器采用DeepLabv2；DAFormer的编码器使用MIT-B5，解码器采用SegFormer；HRDA的编码器和解码器与DAFormer相同。对其进行变化检测任务适配时，在孪生编码器之后，使用级联操作，将双时相特征级联起来，然后再使用对应的解码器进行后续的多尺度解码。其余参数设置均与原始官方代码相同。3.4　实验结果及分析本文以LEVIR-CD和S2 Looking互为源域和目标域进行实验。表2为以LEVIR-CD为源域、S2Looking为目标域时不同算法的指标结果，表3为以S2Looking为源域、LEVIR-CD为目标域时不同算法的指标结果。注：表中最好的结果使用粗体进行了标记；第二好的结果使用下划线进行了标记；Source Only表示使用本文的基础变化检测算法仅在源域LEVIR-CD数据集上训练，Target Only表示使用本文的基础变化检测算法仅在目标域S2Looking数据集上训练，其中Target Only的结果也就是域迁移模型结果的上限。表2LEVIR-CD域迁移至S2Looking时不同算法的结果Table 2Results for different algorithms when transfer LEVIR-CD domains to S2Looking /%注：表中最好的结果使用粗体进行了标记；第二好的结果使用下划线进行了标记；Source Only表示使用本文的基础变化检测算法仅在源域LEVIR-CD数据集上训练，Target Only表示使用本文的基础变化检测算法仅在目标域S2Looking数据集上训练，其中Target Only的结果也就是域迁移模型结果的上限。表3S2Looking域迁移至LEVIR-CD时，不同算法的结果Table 3Results of different algorithms when migrating S2Looking domains to LEVIR-CD /%由表2可见，本文方法ICDA-CD在LEVIR-CD域迁移至S2Looking任务中取得了最高的F1和IOU，分别为43.91%和28.31%，相比于DAFormer分别高出1.55%和1.44%，相比于HRDA分别高出2.46%和2.16%，相比于仅源域训练的Source Only分别高出12.01%和9.33%。在其他先进的算法中，DACS算法以ResNet50作为编码器，以DeepLabv2作为解码器，都是较弱的模型，所以其表现不佳；DAFormer采用SegFormer作为基础模型，具有较好的域迁移效果，但是由于变化检测任务是一个二分类任务，导致DAFormer中用于解决类别不平衡的罕见类别重采样策略失效，且遥感变化检测数据和ImageNet中的数据差异较大、无类别重叠，导致DAFormer中用于保持ImageNet原始类别特征提取能力的特征距离限制策略失效，所以DAFormer的表现也不如本文方法好。HRDA算法主要是解决在域适应时Cityscapes数据分辨率太大的问题，而S2Looking和LEVIR-CD数据集都是1024×1024像素的图像分辨率，并不存在分辨率太大的问题，所以HRDA算法的表现也不如本文方法好，在实际业务应用中，遥感图像的尺度会有上万分辨率，这时HRDA可能会有突出的效果。另一个观察到的现象是，所有的域适应算法在S2Looking上的召回率都不高，仅有25%—30%，这与2个域中的建筑物差异太大有关，本文所提出的ICDA-CD具有最高的召回率30.69%，这也可以说明本文的算法有更好的域适应能力，可以召回更多目标域中的正样本。由表3可见，本文方法ICDA-CD在S2Looking域迁移至LEVIR-CD任务中也取得了最高的F1分数和IOU，分别为74.75%和59.68%。相比于LEVIR-CD域迁移至S2Looking时的指标高出不少，这是由于S2Looking数据集中的样本更加丰富，当将其作为训练样本的时候，可以在样本更加简单的LEVIR-CD数据及上取得很好的效果。本文方法ICDA-CD在两个遥感变化检测数据集相互域迁移时，都取得了最佳的综合指标，说明了该方法的有效性。此外，从表2和表3可以看出在LEVIR-CD域迁移至S2Looking时，本文的算法的准确率较低，但在S2Looking域迁移至LEVIR-CD时，本文的算法准确率最高。这与数据集的难度及本文所采用的实例级对比学习有关。当LEVIR-CD域迁移至S2Looking时，由于S2Looking的难度较大，在域适应之前正样本的召回率较低，仅有19.75%，从而导致目标域的正样本实例较少。而当S2Looking域迁移至LEVIR-CD时，在域适应之前正样本的召回率较高，为67.17%，导致此时目标域的正样本实例较多。当目标域的正样本实例越多，使用实例级对比学习之后，源域特征可以更有效地与目标域特征对齐，准确率P就会更高。图9展示了本文方法ICDA-CD在LEVIR-CD域迁移至S2Looking时的预测结果，从左到右每一列依次为时相一的输入图像、时相二的输入图像、变化标签、仅在源域LEVIR-CD上训练时的预测结果、DAFormer算法的预测结果、本文算法的预测结果、仅在目标域S2Looking上训练的预测结果。在预测结果中，白色表示检测正确的样本，红色表示误检的样本，蓝色表示漏检的样本。从图中第4列可以看出，当仅源域数据训练时，模型输出的检测结果比较少，整体白色的结果较少，但是红色的误检也较少，当进行域适应之后，如第5列和第6列，召回开始有所提升。对比DAFormer和本文方法的结果，如第2行，本文的方法的误检更少，同时可以将右下角的建筑物的变化检测出来，第4行中，本文方法可以将中间的变化建筑物检测出来，本文方法的预测结果相比于DAFormer更加接近仅在目标域上训练的结果。图10展示了本文方法在S2Looking域迁移至LEVIR-CD时的预测结果，在第4行中，SourceOnly和DAFormer都将新增的田径场识别为变化建筑，本文的方法可以将其正确识别。对比第1行DAFormer和本文方法的预测结果，从右下角的结果可以看出，本文方法可以基本召回所有的变化样本。以上预测结果的分析证明了本文所提出方法的有效性。图9LEVIR-CD域迁移至S2Looking时各算法的预测结果Fig. 9Prediction results for each algorithm when transferring the LEVIR-CD domain to S2Looking图10S2Looking域迁移至LEVIR-CD时各算法的预测结果Fig. 10Prediction results for each algorithm when transferring the S2Looking domain to LEVIR-CD3.5　消融实验为了验证本文所提出的各个方法的有效性，本小节进行了详细的消融实验。表4展示了LEVIR-CD域迁移至S2Looking时的消融实验结果，表中IC表示实例对比学习，PLQE表示伪标签质量估计，基线模型采用基于自训练的教师—学生模型，伪标签以高置信度产生。从表4中可以看出，本文所提出的3个改进均可以有效提升指标，其中CutMix带来的增益最大，可以在基线模型的基础上将F1提升3.41%、IOU提升2.88%，这证明了域混合策略在域适应任务中的关键性。使用实例对比学习IC可以将F1进一步提升1.3%、将IOU提升1.11%，证明了将源域正样本特征与目标域正样本特征显式拉近是可以提升模型的泛化性能的。伪标签质量估计PLQE带来的提升较小，F1提升0.4%左右。通过上述实验分析，说明了不同改进点对模型的定量影响程度，由此验证了本文方法设计的合理性与有效性。表4LEVIR-CD域迁移至S2Looking时的消融实验结果Table 4Results of ablation experiments when LEVIR-CD domains migrate to S2Looking图11展示了LEVIR-CD域迁移至S2Looking时的消融实验结果可视化，图11中（a）—（f）表示不同的遥感图像对，第4行至第8行分别表示使用本文提出的不同的模块的组合时的模型预测结果，其顺序与表4中的消融实验结果一一对应。在预测结果中，白色表示检测正确的样本（TP），红色表示误检的样本（FP），蓝色表示漏检的样本（FN）。从图11中可以看出，整体而言，各个模型的召回率较低，图中大片为蓝色。使用本文提出的各个模块之后，可以提升跨域检测效果，如图11（e）列中，使用3个模块的组合之后，模型可以将图中的正样本基本都预测出来，相比于基线模型的预测结果，提升效果很明显。图11LEVIR-CD域迁移至S2Looking时的消融实验结果可视化Fig. 11Visualization of ablation experiment results when transferring the","result":"通过实验评估了所提出的基于实例对比学习的遥感域适应变化检测模型（ICDA-CD）的性能，并与DACS、DAFormer、HRDA等先进域适应算法进行了对比。实验使用了LEVIR-CD和S2Looking两个数据集，分别在两种情况下进行：LEVIR-CD作为源域，S2Looking作为目标域；反之亦然。实验中不使用目标域的真实标签。\n\nLEVIR-CD数据集包含20个地区的遥感图像，时间跨度从2002年到2018年，分辨率为0.5米，图像大小为1024×1024像素，共637对RGB图像。S2Looking数据集包含5000对超高分辨率的侧视卫星图像，时间跨度为2017年至2020年，图像分辨率与LEVIR-CD相同，但场景更加多样化。\n\n评价指标包括准确率（Precision）、召回率（Recall）、F1分数和IOU。实验结果显示，ICDA-CD在LEVIR-CD迁移至S2Looking任务中取得了最高的F1分数和IOU，分别高出其他算法1.55%-2.46%。在S2Looking迁移至LEVIR-CD任务中，ICDA-CD同样取得了最佳性能。\n\n实验的硬件环境包括Intel Xeon Gold 6240 CPU、128G内存和NVIDIA Quadro RTX8000显卡，软件环境为pytorch框架。基础模型采用基于孪生网络的编码器-解码器结构，编码器使用ConvNext-base，解码器使用UperNet。域适应模型采用两阶段训练方式，第一阶段仅在源域数据上训练，第二阶段在源域和目标域的混合数据上训练。\n\n消融实验验证了实例对比学习、伪标签质量估计和CutMix等方法的有效性。实验结果表明，CutMix带来的增益最大，可以显著提升模型性能。实例对比学习进一步提升了F1分数和IOU，伪标签质量估计的提升较小。\n\n预测结果的可视化分析表明，ICDA-CD在LEVIR-CD迁移至S2Looking时能够减少误检并检测出更多的变化建筑物。在S2Looking迁移至LEVIR-CD时，ICDA-CD能够正确识别新增的田径场等场景，基本召回所有变化样本。\n\n综上所述，ICDA-CD在两个遥感变化检测数据集的域迁移任务中均取得了最佳性能，验证了所提出方法的有效性。消融实验进一步证明了各个改进点对模型性能的定量影响，展示了方法设计的合理性。","language":"zh"},{"title":"基于实例对比学习的遥感建筑物变化检测域适应算法","chapter":"4　结论","content":"本文以遥感图像中的建筑物变化检测算法为研究对象，探究了在跨数据域检测时的无监督域适应方法，主要结论如下：本文提出了实例级对比学习域适应变化检测算法ICDA-CD。主要贡献点有3个：区域级域混合、实例级对比学习和伪标签质量估计加权损失。其中区域级域混合将源域数据与目标域数据混合在一个样本上，混合域样本可以使模型更加关注域不变特征；实例级对比学习应用在模型的编码器和解码器中，在编码器中，拉开变化实例区域双时相特征距离，在解码器中，拉近各个变化实例区域特征之间的距离，从而降低模型对源域和目标域特征表示的差异；伪标签质量估计通过教师模型的预测值得出各个像素位置的伪标签质量估计，然后对损失进行加权，这可以使得低置信度的标签可以被有效利用，不浪费教师模型的预测结果。本文将所提出的方法在LEVIR-CD和S2Looking数据集上进行了域迁移实验，并与先进的域适应算法进行了对比分析和消融实验，证明了本文所提出的方法可以有效提升跨数据域无监督域适应变化检测算法的精度。此外，本文所提出的的跨域遥感变化检测算法也存在一定的局限性。具体表现为本文所提出的方法无法端到端完成训练，需要两个训练阶段。首先第一个阶段仅在源域数据上进行训练，然后第二个阶段在目标域数据上进行域适应调整。流程较为复杂，未来可以探究更好的训练策略以实现跨域变化检测模型的端到端训练。","result":"提出了一种名为ICDA-CD的遥感建筑物变化检测域适应算法，通过区域级域混合、实例级对比学习和伪标签质量估计加权损失三个主要贡献点，实现了跨数据域的无监督域适应。算法在LEVIR-CD和S2Looking数据集上进行了域迁移实验，与先进算法对比分析和消融实验，验证了其有效性。然而，该方法存在局限性，如无法端到端完成训练，需要分两个阶段进行，未来研究可探索更优的训练策略。","language":"zh"}]”
Vol. 28, Issue 7, Pages: 1771-1788(2024)
Published： 07 July 2024 ，
DOI： 10.11834/jrs.20233259
稿件说明：

扫描看全文

张奇，路遥，王飞，张雪涛，郑南宁.2024.基于实例对比学习的遥感建筑物变化检测域适应算法.遥感学报，28（7）： 1771-1788

Zhang Q，Lu Y，Wang F，Zhang X T and Zheng N N. 2024. Domain-adaptation algorithm for remotely sensing building changes through instance contrast learning. National Remote Sensing Bulletin， 28（7）：1771-1788
张奇，路遥，王飞，张雪涛，郑南宁.2024.基于实例对比学习的遥感建筑物变化检测域适应算法.遥感学报，28（7）： 1771-1788 DOI： 10.11834/jrs.20233259.

Zhang Q，Lu Y，Wang F，Zhang X T and Zheng N N. 2024. Domain-adaptation algorithm for remotely sensing building changes through instance contrast learning. National Remote Sensing Bulletin， 28（7）：1771-1788 DOI： 10.11834/jrs.20233259.

Alert me when the article has been cited

提交

Remote sensing image detection method based on brain-inspired spiking neural networks

Remote sensing image super-resolution guided by multi-level supervision paradigm

Remote sensing of vegetation drought： Research progress

Super-resolution reconstruction of hypertemporal remote sensing images based on self-attention

Domain-adaptation algorithm for remotely sensing building changes through instance contrast learning

DOI： 10.11834/jrs.20233259