空天•灵眸：首个面向跨模态遥感数据的生成式预训练大模型

发布时间：2024-05-18
来源：空天信息

文章转载自微信公众号空天信息，内容由中国科学院空天信息创新研究院地理与赛博空间信息技术研究部（二部）提供，版权归原作者及刊载媒体所有。

以深度学习为代表的人工智能技术已被应用于多种遥感图像解译任务中。遥感数据幅宽大、场景内容复杂，一幅标准景图像往往就可达数十亿像素，覆盖上万平方公里，与自然场景数据存在较大差异。

大多数现有的深度神经网络模型是利用自然场景图像预训练的权重来进行初始化，在遥感数据解译任务上的性能和普适性有待进一步提升。

中国科学院空天信息创新研究院（以下简称“空天院”）牵头研制首个面向跨模态遥感数据的生成式预训练大模型“空天•灵眸”（RingMo，Remote Sensing Foundation Model），旨在构建一个通用的多模态多任务模型，为遥感领域多行业应用提供一套通用便捷、性能优良的解决方案。

该模型在8个国际标准数据集上达到了同类领先水平，有效填补了跨模态生成式预训练模型在遥感专业领域的空白。

同时，空天院与华为公司深度技术合作，基于昇腾AI基础软硬件平台，尤其是昇思MindSpore AI框架，将联合打造灵活易用的自监督预训练通用套件，可高效支撑大模型并行训练及下游任务的开发。

以遥感特性为研发驱动

不同于现有遥感预训练方法通常进行有监督或者对比式学习的范式，“空天•灵眸”模型依托掩膜自编码结构，是面向复杂场景且更具通用表征能力的遥感生成式自监督预训练模型。

例如，针对来自不同平台的遥感数据成像机理和目标特性不一、遥感图像观测面积大而目标相对较小、目标尺寸差异较大且分布不均匀等问题，“空天•灵眸”模型采用目标特性引导的自监督学习方法，通过引入几何、电磁、目标结构等多特性约束，使得模型自动提取遥感地物通用特征，对新任务有较强的泛化能力。

值得一提的是，“空天•灵眸”大模型采用了最近比较流行的ViT和Swin Transformer等Transformer类骨干网络，可有效建模遥感数据的局部和全局特征的依赖关系。

拥有跨模态遥感数据集

现有遥感样本库在标注上依赖于专业人员的手工标绘，人力和时间成本极高，难以满足大模型训练所需的大规模、高丰富度、易快速扩充的遥感数据需求。

为了提升遥感预训练模型的特征表达能力，“空天•灵眸”模型的训练数据集包含了200多万幅分辨率为0.1m到30m的遥感影像，分别来源于中国遥感卫星地面站、航空遥感飞机等平台，以及高分系列卫星、吉林卫星、QuickBird卫星等传感器。

同时，在数据集中包含了1亿多具有任意角度分布的目标实例，覆盖全球150多个典型城市、乡镇以及常用机场、港口等场景。所用样本数据具备遥感专业特色，且整个样本集都无需标注，能大幅节省训练数据标注成本。

具有应用任务泛化能力

由于不同应用任务的难点不同，所用的数据、目标也各异，现有解译方法需针对不同下游任务设计专用网络结构，利用大量带标签数据进行微调，同时得到的遥感模型也常常通用性不足，没有较强的任务泛化能力，只适用于特定应用任务。

实现国产化适配

为实现自主创新，空天院与华为深度合作，由北京昇腾人工智能生态创新中心提供技术保障，依托“东数西算”样板工程成都智算中心算力支持，基于昇腾底座和昇思MindSporeAI框架对已有模型和训练方法进行了国产化适配，并针对自监督大数据训练方面进行性能优化，为各行各业研究者基于国产化软硬件平台进行遥感预训练以及下游任务开发提供有力支撑，推动业务上的应用和落地。

相关论文信息：

论文链接：

荐读

产业大会 | 分论坛预告：2022数字地球生态峰会——数字地球引领数字经济空天信息赋能产业升级

GNSS资源|关于举办2022年“空天科技”全国博士后学术论坛的通知

认清三大趋势，用足遥感大数据

新闻动态

空天•灵眸：首个面向跨模态遥感数据的生成式预训练大模型