2097-3012(2024)01-0001-10 Journal of Spatio-temporal Information 时空信息学报
收稿日期: 2023-11-15;修订日期: 2024-02-10
基金项目: 国家自然科学基金项目(42371453,42201486)
作者简介: 康志忠,研究方向为激光雷达技术、三维建模及月球与行星遥感。E-mail:*************** 通信作者: 杨俊涛,研究方向为激光雷达语义理解与植物表型监测。E-mail:****************
室内实景三维重建技术综述
康志忠1,杨俊涛2
1. 中国地质大学(北京) 土地科学技术学院,北京 100083;
2. 山东科技大学 测绘与空间信息学院,青岛 266590
摘 要:构建语义丰富、几何精确且拓扑完备的室内三维模型是实景三维中国建设中一项富有挑战性的任务,在室内导航与位置服务、虚拟现实、智能家居等领域都有重要的应用价值。室内空间结构布局复杂、实体要素类型多样及杂乱遮挡等因素给室内实景三维重建带来诸多挑战。近些年,室内实景三维重建受到
广泛关注,然而关于现有方法的系统性总结仍较为欠缺。本文对室内实景三维重建最新技术的研究进展进行整理和归纳。首先,简要总结当前主流的室内空间三维数据采集手段;其次,从室内实景三维模型构建过程中涉及的关键环节出发,从实体要素语义识别和分类、实体要素几何模型生成、空间拓扑特征组织与表达方面对现有方法及其优缺点进行综述;最后,对室内实景三维重建相关研究现存的技术挑战进行分析总结,并对未来研究趋势进行展望。 关键词:室内实景三维;数据配准;实体要素分类;空间拓扑模型;实体要素几何模型
引用格式:康志忠, 杨俊涛. 2024. 室内实景三维重建技术综述. 时空信息学报, 31(1): 1-10
Kang Z Z, Yang J T. 2024. Review of indoor real scene 3D reconstruction technology. Journal of Spatio-temporal Information, 31(1): 1-10, doi: 10.20117/j.jsti.202401001
1 引 言
由于城镇化的快速推进,商业中心、交通枢纽、停车场等大型公共场所空间结构日益复杂,随之而来的城市建筑信息更新也越来越快,传统的二维建筑数据已逐渐无法满足人们对建筑分析、管理及应用的需求(Kang 等,2020)。随着实景三维中国建设战略的深度推进,室内实景三维作为部件级的组成部分,在室内导航与位置服务、虚拟现实、智能家居等领域具有极大的应用价值(周捷等,2023)。然而,当前室内实景三维重建的方法多为手工或人机交互的半自动化,建模周期长且成本高,无法满足大
批量快速生产的迫切需求(李华蓉等,2021)。因此,自动构建语义属性丰富、几何结构精确且拓扑特征完备的室内实景三维模型逐渐成了地理信息科学和遥感领域的热点研究问题。
室内空间结构布局复杂、实体要素类型多样及杂乱遮挡等因素给室内实景三维重建带来诸多挑 战(Schwing 等,2012)。近些年,建筑结构和设计风格变得灵活多样,然而现有几何模型重建方法对于满足弱曼哈顿世界假设的室内实体要素(如圆柱形墙体、L 形布局)稳定性较差。而且,在室内走廊等人造结构化场景中,墙面、地板等区域因弱纹理扰动的不确定性,难以正确估计视差,进而导致视觉三维重建结果出现“空洞”现象(Bleier 等,2022)。此外,与室外不同,室内空间因受墙体、门窗等建筑构件要素的限制,其拓扑特征(如连通性、包容性或邻接性)无法在欧氏空间进行有效组织和表达(韩李涛等,2022;Kang 等,2020)。
为了应对这些挑战,近年来诸多国内外研究开展了与室内实景三维重建相关的工作,并取得了显著的进步。通过在Web of Science 中搜索关键词,包括“室内场景”“室内环境”“三维重建”“室内建模”“深度估计”“同步定位和建图(simultaneous localization and mapping ,SLAM )”“语义理解”“拓
2 Journal of Spatio-temporal Information 时空信息学报 2024, 31(1)
扑重建”和“室内外一体化”等,总结了2010~2024年室内实景三维重建相关的出版物数据统计(图1)。从聚类分析来看,近些年室内实景三维重建相关研究从整体而言逐渐受到广泛关注,尤其是深度学习和
语义建模,关键词之间共现关系较强,且有多个节点为各热点选题子之间起到桥梁作用,通过该节点连通其各个热点选题。因此,本文对室内实景三维重建技术进行了系统综述。首先,梳理和总结当前主流的三维室内空间数据采集手段;其次,详细分析与室内实景三维重建关键技术的研究进展,并根据建模过程中涉及的不同研究主题,重点介绍相关方法及其优缺点;最后,讨论相关研究的技术挑战和未来趋势。
图1 与室内实景三维重建相关的出版物统计数据Fig.1 Statistical data on publications related to indoor real
scene 3D reconstruction
2 三维室内空间的数据采集方式
随着传感器和计算机视觉技术的快速发展,可用于室内三维空间数据采集的传感器,如光学相机、激光雷达(light detection and ranging,LiDAR)越来越多,其搭载平台也越来越多样化,从固定平台到移动平台,如无人机、机器人、智能手机,而且基于移动平台的数据采集方式逐渐成为近几年的热点领域(杨震等,2023)。本文从数据源的角度将室内三维数据采集方式总结为三种类型,即基于摄影测量、基于LiDAR和基于多源数据融合的方式。
2.1 基于摄影测量的方式
基于摄影测量的方式是利用相机拍摄室内场
景的多幅影像,并根据相机的内外方位元素、影像之间的关系及三维空间的几何特征,重建出室内场景的三维模型。影像的获取主要涉及摄像机标定、摄影站布设与摄影方式这几个方面。摄像机标定是为了确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,建立摄像机成像的几何模
型,这些几何模型参数主要涉及相机的主距、像素大小、像主点位置和畸变系数等。在相机标定完成之后,可以通过已知的内外方位元素将像素坐标转换为真实世界中的三维坐标。
利用基于摄影测量方式的优势在于价格低廉、可以生成效果逼真的三维纹理模型,且自动化程度较高,极大地节约了人力物力成本(李雪和朱明荣,2023)。然而,这种方式的三维重建质量非常依赖于帧间的配准精度。由于室内场景结构复杂,光照变化显著,这严重影响图像间的匹配性能(Quattoni 等,2009)。因此,国内外研究通过优化光度误差函数(如局部光度一致性和全局可见性约束)以测量图像块之间的相似度,有效地提高了特征匹配的效率和质量,生成高质量的多视图匹配(Furukawa 和Ponce,2010)。除了光照变化干扰之外,室内场景弱纹理现象也普遍存在,这会导致图像误检和漏检关键点,进而影响后续的匹配和三维重建效果(陈明伟和杨洋,2015)。面对室内场景弱纹理难以捕获关键点的难题,其他辅助信息如阴影、平面共面性、平面平行性、平面垂直性等,也逐渐被用作重要约束因素对重建场景进行校正,以增强三维场景重建效果(Langguth等,2016)。
近年来,随着深度学习在语义分割和立体匹配等领域取得巨大突破,基于深度学习的方法通过构建端到端三维重建架构从大量数据中学习特征提取、立体匹配及代价函数正则化,并可以聚合上下文语义信息,在普适性、重建精度等方面展现出优于传统方法的性能(Häne等,2017;杨航等,2023)。相比于传统方法,基于深度学习的方法利用其金字塔网络结构挖掘不同尺度的上下文语义信息,避免了先验知识构建特征矩阵带来的误差等问题,重建的完整度和整体质量得到了很大提升(王云艳等,2023)。
但是基于深度学习的方法在挖掘高层次特征过程中丢失了空间信息,这将降低重建精度(杨航等,2023;鄢化彪等,2023)。因此,进一步引入特征金字塔结构、注意力机制、从粗到精等策略,重建的效果会有很大的提升空间(鄢化彪等,2023)。
康志忠等:室内实景三维重建技术综述 3
2.2 基于LiDAR的方式
与基于摄影测量的方式需要通过影像之间几何关系生成三维坐标不同,基于LiDAR的方式是利用飞行时间(time of flight,TOF)测距等成像技术恢复场景或被测物体的三维空间结构。基于LiDAR的方式是通过给目标连续发送激光脉冲,然后用传感器接收从物体返回的信号,通过计算激光发射和反射时间差或相位差,来换算距被拍摄景物的距离以产生深度信息,进而生成真实世界中的三维坐标(任飞等,2022)。
作业视野范围有限、场景遮挡等因素导致无法通过单一视角的数据采集获得室内环境完整的三维激光雷达数据(Yang等,2016;Zhou等,2016)。因此,需要从多视角出发开展若干次数据采集,通过数据配准实现空间基准统一。通过在Web of Science中搜索关键词,包括“室内配准”等,得到与室内数据配准相关的关键词聚类图谱,并在此基础上进一步进行自动聚类分析的结果,如图2所示。通过对配准相关关键词之间的相关性进行统计和分组,发现LiDAR点云数据和机器视觉在室内三维数据获取方面研究
越来越受欢迎。而且从整体上来看,相关选题范围之间连接度较高,不少关键词之间可相互搭配,共同对新技术、新方法展开探索。
图2 与室内数据配准相关的出版物统计
Fig.2 Statistical data on publications related to indoor data
registration
纵观近些年的研究状况,室内数据空间基准统一的方法大致分为基于优化的配准算法和基于深度学习的配准算法。在基于优化的配准算法中,Besl 和McKay(1992)的迭代最近点(iterative closest
point,ICP)算法应用最为广泛,然而其对初始姿态敏感,容易陷入局部最优。尽管一些全局优化方案(Yang等,2016;Zhou等,2016),缓解了局部最优的困境,但基于优化的配准算法仍难以在效率和精度上保持平衡。随着深度学习技术的发展,基于深度学习的配准算法得到广泛关注(Lu等,2019)。借鉴深度学习网络在特征描述与场景泛化能力上的出性能,国内外相关研究(Wang和Solomon,2019;Huang等,2020;Wang等,2021;Sun等,2022),更多关注稳健的局部(全局)特征表达,以实现多视角数据间同名特征关联。这些研究结果也表明了基于深度学习的配准算法比基于优化的方法具有更高的效率和稳健性(Wang和Solomon,2019;Sun等,2022)。
在实际采集过程中,数据遮挡、操作不当等原因会导致多视角数据仅有低(部分)重叠,这使得数据配准更加困难(Shelhamer等,2017;Huang 等,2021)。因此,在低(部分)重叠情况下实现多视角
数据的稳健配准成为研究热点。诸多学者通过捕获待匹配数据间的重叠区域,由此放大其在低(部分)重叠多视角数据配准中的作用来实现配准(Raposo和Barreto,2017;Huang等,2021)。众所周知,室内外一体化重建与表达近几年也受到广泛关注。但是建筑物内外空间结构差异使得室内外多视角数据间没有或缺少重叠区域,导致配准精度降低。国内外相关研究将窗户的几何形状作为连接室内外多视角数据的重要先验信息,通过全局最优化匹配方法实现了室内外多源数据的无缝配准(Kang 等,2014;Girshick等,2014;Shelhamer等,2017)。
2.3 基于多源数据融合的方式
基于多源数据融合的方式通过整合LiDAR、相机、惯性测量单元(inertial measurement unit, IMU)等传感器的优势,有效地提升数据采集的可靠性和稳健性。根据信息耦合程度,这种方式分为松耦合和紧耦合。前者是使用独立模块分别处理不同传感器数据,通过融合算法实现多传感器运动估计,进而实现三维场景的重建。后者则是直接融合不同传感器数据进行位姿估计和地图构建的联合优化,从而生成准确的三维重建结果。Qin等(2019)开源了基于优化的多传感器状态估计器(visual-innertial state(VINS)-fusion),提供了单目相机+IMU、立体
4 Journal of Spatio-temporal Information 时空信息学报 2024, 31(1)
相机+IMU等多源数据融合方案;Karam等(2021)设计了通过平面特征增强的LiDAR+IMU多源数据融
合方案的室内场景三维重建系统。大量的研究表明紧耦合的方式相对于松耦合精度更高。
由于传感器感知特性差异,现有多源数据融合方案面临着各种场景退化问题。如长时间弱纹理环境运行,相机因无法有效感知纹理信息,进而导致退化失效(张庆鹏和曹宇,2021)。因此,国内外研究尝试引入场景中更为稳健的几何结构信息,如线(面)特征(Pumarola等,2017)、甚至语义特征(Jeong等,2018),以获取更多优化的观测信息进行互补性融合。然而,现有多源数据融合的研究中,多数方案仅限于使用多源数据所提供的先验约束,避免退化情况的出现(张善福和胡步发,2023),较少对约束条件在联合优化中的贡献进行分析。
3 室内实景三维重建方法
在获取三维室内空间数据后,通过数据处理得到建筑物的外部轮廓、内部结构、语义属性及拓扑特征,进而生成语义属性丰富、几何结构精确且拓扑特征完备的室内实景三维模型。本文将从实体要素语义识别和分类、实体要素几何模型生成、空间拓扑特征组织和表达三个环节涉及的关键技术展开介绍。
3.1 实体要素语义识别和分类
室内场景目标类别丰富而且房间类别(如走廊、书店和厨房)差异大,实体要素类型直接决定了后续室内空间几何和拓扑模型建模的方案设计(Wang等,2018;熊汉江等,2018;Chen等,2021)。因此,
对室内空间实体要素语义属性的识别和分类在室内实景三维模型构建过程中起着重要的作用。目前,关于室内实体要素语义属性的识别和分类的方法大致可以分为两类,即传统机器学习的方法和深度学习的方法。
传统机器学习的方法大多需要针对特定类型的实体要素,依赖于人为设计的视觉特征,并设计不同的语义识别和实体要素分割方案,实现直接从数据中提取和分类室内空间典型实体要素(顾广华等,2016)。基于人为设计特征的一般分类框架通常包括自底向上的分割、特征提取和分类等阶段。传统机器学习的方法一般需要依赖先验知识来设计低级视觉特征,智能化水平低,最终得到的语义标注结果取决于每个阶段的性能优劣,难以适应密度不均匀、遮挡等复杂场景情况(Wang等,2018)。由于所面对的室内场景的复杂性和多变性,仅仅利用底层视觉特征,如几何特征和光谱特征,往往不能取得理想的分类结果,因此,一些研究也试图通过视觉词袋模型、主题模型等挖掘描述场景描述能力更好的中层视觉特征,以提高分类的精度(Wang 等,2018)。
鉴于深度学习在图像分类和语音识别等领域展现出强大的特征表达能力,逐渐有研究将深度学习思想引入室内场景语义理解和实体要素识别任务中,并取得了良好效果(Hedau等,2009;Del 等,2012;Chen等,2021)。与传统机器学习方法相比,基于深度学习的方法可以达到更高的准确度,且泛化性更好(Hedau等,2009;Del等,2012;Charles等,2017)。基于深度学习的端到端框架利用金字塔层次结构提取和聚合不同尺度的视觉信息,进而表现出更优越的语义分割性能。因此,众多研究通过建
立图像卷积神经网络(Landrieu和Simonovsky,2018)、注意力机制(Chen等,2021)、循环神经网络(Ye等,2018)等模型,将上下文空间信息引入到三维数据视觉特征的表达学习任务中,提高三维数据特征空间信息表达能力,捕获和聚合三维数据中的显著视觉特征,实现高质量的室内场景实体要素分类和识别(熊汉江等,2018)。
3.2 实体要素几何模型生成
几何模型通过具象化描述室内实体要素几何信息,如墙体、门窗、楼梯等室内构件的几何尺寸及位置坐标,实现室内三维空间几何结构的精确表达。室内三维几何模型的构建在建筑工程、城市规划、文物保护等领域有着广泛应用。通过在Web of Science中搜索关键词,包括“室内几何”等,统计了与室内几何模型相关的出版物,并利用关键词之间的相关关系做共现分析,如图3所示。从整体来看,近些年室内几何的研究热点较为多元和分散,涉及语义分割、布局估计、三维融合等领域,对其进行聚类分析,可以看出多个节点在连通各个热点选题子中起着桥梁作用。二维建筑平面图因其丰富的建筑语义信息成为室内三维几何模型构建的有效数据源之一(Li等,2010a)。但大多数建筑平面图的不同细节层次形式导致了建筑结构表达的
康志忠等:室内实景三维重建技术综述 5
模糊或不一致,因而未能实现从二维建筑平面图生成三维建筑模型的完全自动化(Previtali等,2018)。
图3 与室内几何模型相关的出版物统计
Fig.3 Statistical data on publications related to indoor正则化描述正确的是
geometric models
随着室内三维空间数据采集方式的多样化,有研究正在尝试直接从三维数据中利用正态分析(Ning等,2019)、最小二乘(Edelsbrunner,2010)、区域增长(Edelsbrunner,2010)、随机抽样一致性(random wample consensus,RANSAC;Previtali等,2018)或贝叶斯抽样一致性(Bayesian sample consensus,BaySAC;Kang等,2016)等稳健估计方法提取能够代表复杂室内空间结构的关键点、线、面等基元,并对彼此关系进行参数(矢量)化建模。Jung等(2014)、Previtali等(2018)利用RANSAC算法提取平面基元,并对建筑物主体轮廓结构进行参数化。Michailidis和Pajarola(2017)则关注更为逼真的墙面模型,利用贝叶斯图割算法对室内遮挡场景的墙面门窗进行建模。由此可见,目前三维几何模型主要侧重于主体结构元素(如墙壁、天花板和地板)或墙壁表面特征(如门窗)的重建。尽管这些方法提高了三维几何模型重建的效率,但是它们一般是基于强曼哈顿世界假设,从而限制了其适用性(Jung等,2014)。除了建筑主体结构几何模型之外,部分研究也通过使用模型检索方法,对室内空间内部实体要素(如桌椅)进行更精细化的建模,以生成更完整的室内场景模型(Chen等,2014;Li等,2015;Liu等,2015)。
事实上,深度学习在实体要素几何模型生成方面也逐步发挥重要的作用。许多研究已经在利用深度学习提供语义信息来驱动三维建模过程、优化结果质量和处理效率等方面做了探索,并取得了一定的成果。如Wang等(2018)利用条件生成对抗性
网络优化遮挡情况下语义化点云的建筑物线框图构建;Fang等(2021)借助从三维数据中感知到的室内空间墙体、地板和天花板等建筑主体构件要素引导mesh格网模型的重建过程,显著降低了mesh 格网模型的复杂度;Wang等(2022)在利用点云数据进行室内三维语义模型重建任务中,通过深度学习产生的语义信息引导场景部件的分割;Chuang 和Sung(2021)使用预训练的单阶段三维目标检测(3D single stage object detector,3DSSD)模型(Yang 等,2020),从三维点云数据中定义和识别建筑构件的角点,然后以预训练的图神经网络模型为基础框架来表达角点间的相互关系,实现学习驱动的建筑物模型矢量化。
3.3 空间拓扑特征组织和表达
室内空间由于受建筑主体结构的约束,呈现出有界性的特定。通过拓扑特征组织和表达,确保生成室内三维模型的空间拓扑一致性。针对室内空间拓扑特征的表达,室内空间拓扑模型的存在形式多样,如规则格网(Li等,2010b)、不规则格网(Demyen 和Buro,2006)、节点关系图(Yang等,2021)等。图4总结了室内空间拓扑中的主要数据源与拓扑表现形式。
空间拓扑模型自动生成的方法与室内空间结构密切相关,不同室内场景会存在不同形式的空间布局和拓扑特征,并且基于不同数据源的构建方法被开发出来。计算机辅助设计(computer-aided design,CAD)数据、建筑信息模型(building information model,BIM)的工业基础类标准(industry foundatio
n class,IFC)和城市地理标记语言(city geography markup language,CityGML)等带有室内场景中精准的几何信息和丰富的语义信息,但较少关注室内空间之间的拓扑关系信息。因此,大量研究以这些原始数据为基础,制定一系列数据转换(如语义匹配、几何转换、拓扑分析等)手段(Teo和Cho,2016;Fu等,2020;Chuang 和Sung,2021)。从CAD、IFC或CityGML数据中自动识别和建立可用于室内导航和路径规划等应用的室内拓扑空间模型,但基于这些数据提取的空间拓扑特征缺乏时效性。
LiDAR和摄影测量技术的发展使得室内三维空间信息的实时高效采集成为可能,逐渐受到室内
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论