第36卷第4期湖南理工学院学报(自然科学版)V ol. 36  No. 4 2023年12月                        Journal of Hunan Institute of Science and Technology (Natural Sciences)                        Dec. 2023基于自适应查表的高动态范围内容映射算法
程宇红1, 郭铖2
(1. 湖南理工学院, 湖南岳阳 414006;
2. 中国传媒大学媒体融合与传播国家重点实验室, 北京 100024)
摘要:高动态范围是媒体行业超高清标准体系的重要组成部分. 随着标准的完善、政策的支持和消费市场的演进, 高动态范围行业的矛盾转移到内容上, 需要能将现有普通图像或视频上转换为高动态范围显示的算法, 该过程称作逆调映射, 是非适定的底层视觉问题, 故通常结合深度学习方法来解决. 将深度学习与图像转换或映射的常用高效方法(自适应查表)结合, 提出面向用户终端的高效逆调映射算子, 并针对高动态范围容器更高量化位深的特性进行了优化. 实验结果表明, 该方法相比其他基于深度学习的逆调映射算法在表现与计算开销上均有优势.
关键词:查表; 高动态范围; 逆调映射; 深度学习
中图分类号: TN919.8 文献标识码: A 文章编号: 1672-5298(2023)04-0019-05
High Dynamic Range Content Inverse Tone-mapping Operator Based on Adaptive Look-up Table
CHENG Yuhong1, GUO Cheng2
(1. Hunan Institute of Science and Technology, Yueyang 414006, China;
2. State Key Laboratory of Media Convergence and Communication, Communication University of China, Beijing 100024, China)
Abstract: High dynamic range (HDR) is an important part of media’s ultra-high definition (UHD) standard system. With the recent advances in standardization, policy and consumer market, the contradiction of HDR industry comes to the aspect of content where conventional footage needs to be up-converted to HDR for display. This process is called inverse tone-mapping (ITM), an ill-posed low-level vision task, thus researchers are involving deep learning for implementation. This paper combines deep learning with self-adaptive look-up table (LUT) which is a popular and efficient method for image conversion, and proposes a user-end-oriented efficient ITM operator which is further optimized for higher-bit-depth HDR processing. The experimental results show that this method has advantages over other deep learning-based ITM operators on both performance and computational overhead.
Key words: look-up table; high dynamic range; inverse tone-mapping; deep learning
0 引言
当前视频技术正经历从高清向超高清(UHD)标准体系的演进. 超高清[1]在分辨率、帧率、位深、域、动态范围5个维度都有提升, 其中后2个维度可提供更优秀的表达力, 统称为高动态范围(HDR)[2]. 随着消费级HDR显示设备的逐渐普及, 业界的矛盾逐渐转移到仅剩的环节上[3], HDR内容拍摄与制作成本仍较高, 需要使用逆调映射(ITM)将许多经典素材转为HDR播出. 目前有两类解决方案, 第一类发生于媒体内容提供商, 由于算力充足, 故可使用深度学习模型[4~10], 达到相比传统算法[11~13]更好的增强效果. 第二类发生于计算资源受限的用户终端设备, 要求提高算法效率以实现实时转换.
针对第二类应用场景, 本文基于商业软件常用的查表(LUT)实现常规图像向HDR图像的高效转换, 并针对HDR图像的特点对查表框架进行优化. 首先, HDR图像或视频拥有更大的量化位深, 对查表大小(即采样精度)的要求更高[14], 但后者与计算效率存在矛盾. 为权衡该矛盾, 使用3个大小为17的查表, 每个查表对输入的非均匀采样[15~17]位置集中于不同的电平段, 它们对输入图像查插值的结果分别在不同对应电平段的误差更小(相当于局部达到更大查表的误差水平). 此时, 将各自结果误差更小的电平段融合为最终输出HDR, 以较小的计算开销达成了与单个较大查表相当的表现. 其次, 通过基础LUT加权融合策略实现算法的自适应性. 上述3个不同LUT中的每一个都由5个基础LUT加权求和得
收稿日期: 2023-06-28
作者简介: 程宇红, 女, 硕士, 副教授. 主要研究方向: 媒体内容处理与增强
20 湖南理工学院学报(自然科学版) 第36卷
到, 权重则由神经网络处理输入图像得来. 不同输入图像对应权重不同,故LUT 所代表的映射特性可随
不同图像自适应变化. 此外, LUT 内容本身也在训练过程中更新, 可自底向上从大数据中学习得到.
1 算法设计
本文算法框架如图1所示. 将算法输入的常规图像表示为x ', 输出HDR 图像表示为y ', 则
{,,}(),interp (,LUT ,).l l l l l l d m b y p x y y x v ∈'''=
⋅=∑                        (1)
其中{,,}l d m b ∈分别表示该查表对应输入图像x '的暗(d )/中(m )/亮(b )亮度范围(以l 为下标表示3个查
表). 3()h w l p x R ⨯⨯'∈为图1右侧绿框的逐像素概率图, 用于3个查表所得结果3h w l y R ⨯⨯∈的逐像素融合.
而interp 表示对输入图像x '使用带有非均匀采样间隔l v 的查表LUT l 进行查与三线性插值.
图1  算法框架
各查表非均匀采样点位置是由[0,1]归一化范围内均匀采样点位置u v 经式(2)的非线性变换得到:
1/(1.40.8)2.20.8,[3πcos(3π)1]/(3π2),.x b u m u u x d u
v v v v v v v '+'-⎧=⎪=-++⎨⎪=⎩                            (2)
其中linspace (,0,1)u v N =表示归一化范围内非线性变换前的均匀采样点位置, x '表示输入图像x '在某通
道上像素值的空域平均, 该项可赋予采样点随x '变化的自适应性.
图1中的彩立方体展示了经式(2)变换后非均匀采样点在输入x '的RGB 立方体中的位置. 可以看
出, 变换后3个LUT 各自的采样点(个数为N )分别集中于0(暗)/0.5(中)/1(亮)的电平附近, 实现了局部较
高精度, 局部等效于N 较大的均匀采样查表. 然而, 局部采样点密集意味着剩余电平上的采样稀疏, 对
应查插值误差反而变大. 故对于每个查表的结果l y , 本文舍弃误差较大的部分, 而结合各自误差较小
的电平段融合为最终HDR ()y '. 具体做法是, 将l y 与亮度概率图逐像素相乘后相加, 使得y '中某像素的
值更多来源于误差更小的结果l y . 例如, 对于0.3i x '=的像素, (,,)(0,1/3,2/3)b m d p p p =, 对应i y '分别由
0, 1/3, 2/3比例的b y ', m y ', d y '组成.
如图2所示, 式(3)使得某分支LUT 对应范围以外的输出值无效(例如, LUT d 在0.45i x '>时对应输出
值无效), 故各分支的LUT 内容(采样点对应的输出y '值)在深度学习框架的训练下也会呈差异化分布.
()clamp (,0,1),1()clamp (,0,1),[0,1],0.45,0.55,0()1()().b b b d d d b d m b d x t p x t x t p x x t t t p x p x p x '-⎧'=⎪-⎪'-⎪''=∈==⎨-⎪⎪'''=--⎪⎩
(3) 图1左侧以及图2(a)立方体中各点表示该LUT 内容在y '的RGB 立方体中的分布, 各分支LUT
输出
第4期 程宇红, 等: 基于自适应查表的高动态范围内容映射算法 21 也集中于y '的对应电平段. 可见, 训练后LUT 内容也与其非线性采样呈相似的分布. 借助深度学习可实
现LUT 采样精度与输出内容的同步差异化分布, 使用3个较小N 的LUT 合力达到单个较大N 的LUT 的
误差水平, 进一步优化了算法效率.
图2  亮/中/暗分支查表所学内容的差异化分布 除了从大数据中自底向上学习, 本文还利用了深度学习自适应性的优势, 各个LUT 由式(4)的神经网
络加权融合得到:
4
,,,0,1,40LUT LUT ,(,,,)().T l l i l i l l l l i w w w w NN x ='==∑                        (4) 其中神经网络(NN )可对不同的x '输出不同的系数,0,1,4(,,,)T l l l w w w  , 故融合后的LUT l 将随x '的特性而自
适应变化. 神经网络的作用是理解x '的全局粗略信息, 因此将其设计为编码器+全连接(FC)结构, 如图3
所示. 图3中k , n , s 分别是卷积层的核大小、输出通道数、步长. 各查表LUT l 生成权重所用网络NN l 的
结构相同, 但所训权重不共享.
图3  控制可学习查表自适应融合权重的神经网络结构
在深度学习框架PyTorch 中训练时, 式(4)中的5个基础查表初始化策略如图4(a)所示. 相比图4(b)
所示多数相关算法的初始化方法, 本文采用4个实际商用的ITM 查表与1个恒等映射(y x ''=)分别初始
化, 通过增加多样性与考虑HDR 容器的特殊性(记录相同内容的HDR 图像像素值普遍小于普通图像)来
减少训练的搜索域, 有利于模型收敛.
图4  基础查表的初始化
最后, 使用逆调映射(ITM)领域最新公开数据集HDRTV4K [17]中的3848对配对图像(常规图像-HDR
图像配对)对模型进行有监督端到端训练, 损失函数l 1(MAE)为平均误差与可学习查表专用的单调性与
平滑性正则化项. 训练时, 神经网络参数使用Kaiming 初始化. 为增加模型鲁棒性, 训练集中的图像对会
经0.25~1倍随机缩放后, 从随机位置裁取600×600像素图像块再送入模型推理及后续损失函数计算. 初
始学习率为0.0001, 每10轮后降为原先一半. 本方法所有对比项的训练都于35轮停止.
2 实验结果分析
本文实验分为两部分. 首先, 针对HDR 容器特性对LUT 框架做出改进, 融合3个非均匀采样不同的
22 湖南理工学院学报(自然科学版) 第36卷
较小LUT(17)N =的结果, 以更小计算开销达到与单个更大LUT (33)N =如相当的效果, 故第一项实验将
两者对比以验证改进的有效性(表1). 其次, 由于本方法使用了深度学习, 故第二项实验使用相同的训练
集对当下基于学习的经典逆调映射算法以相同设置重新训练, 以比较各自的模型性能, 并验证本方法
的实用性(表2). 两项实验测试集中的输入图像与真实(GT)HDR 图像都来自10%训练集. 表1  改进后与常规LUT 架构的结果对比
对比项
LUT  参数总数 算法输出HDR 与GT 的距离 算法输出HDR 的统计特性(%) PSNR(dB)SSIM ΔE  VDP3平均亮度对比度 平均饱和度彩度本文改进(3个N = 17)
44,217 34.203 0.959317.0138.836320.255 85.729 9.4065 9.6538单个较大LUT(N  = 33) 107,811 33.540 0.953917.6078.620920.293 85.536 9.3331 9.2878
由表1可见, 3个不同较小查表的融合结果在峰值信噪比(PSNR)、结构相似度(SSIM)、HDR 专用
ΔE itp 差(ΔE )和HDR-VDP-3视觉差异性(VDP3)指标上都优于单个较大的普通查表, 同时, 计算开销也
明显更小. 实验结果验证了该改进思路可以初步解决HDR 容器下LUT 更显著的精度-开销固有矛盾.
将本文算法与其他重新训练的经典算法进行对比, 结果见表2. 一方面, 由于本文方法面向计算资源
受限的用户终端, 故额外比较各方法由PyTorch 框架统一实现、在相同12 GB 显存NVIDIA A2000 GPU
设备上运行的计算开销. 由表2可见, 本文方法处理单帧常见分辨率图像的显存占用与运行时间都优于现
有算法, 更适合在算力有限的终端设备上实现. 另一方面, 通过算法输出HDR 与GT 的距离来衡量各算
法的模型性能. 不难看出, 本文方法在多数指标上优于更复杂的神经网络方法. 图5进一步对比了各深度
学习逆调映射算法的结果.  表2  各深度学习逆调映射算法性能与计算开销对比 算法名
神经网络参数总数超高清(3840×2160) 高清(1920×1080) 算法输出HDR 与GT 的距离 显存占用 运行时间显存占用运行时间PSNR(dB)SSIM ΔE  VDP3Deep SR-ITM [4]
2.87M 无法运行 (显存溢出) 8099MB    1.201s 32.804 0.9267 27.489 8.8861JSI-GAN [5]
1.06M 6765MB 0.876s 28.985 0.8904 34.013 7.8622SR-ITM-GAN [6]
515k 10539MB    2.694s 5759MB 0.608s 32.659 0.9270 27.193 9.0535HDRTVNet [7]
35k 10325MB 0.958s 4061MB 0.251s 31.970 0.9283 22.887 9.1484FMNet [8]
1.24M 8715MB
2.635s 5843MB 0.697s 3
3.540 0.9264 25.765 8.7246本文算法 375k 2869MB 0.254s 2145MB 0.063s 3
4.203 0.9593 17.013 8.8363
图5  各深度学习逆调映射算法结果比较
第4期程宇红, 等: 基于自适应查表的高动态范围内容映射算法 23 红框展示了对高亮细节的处理, 各方法在计算开销各异的情况下表现差异并不大. 蓝框展示了各算
法从常规图像到HDR图像转换过程中颜与亮度体积(volume)的扩展情况, 一般扩展越多则越充分利用
了HDR容器表达力的优势, 正确显示时观感更好. 左侧Yxy度图横纵坐标代表xy颜平面, 纵坐标代
表亮度(Y), 右侧波形图的横坐标为像素水平位置, 纵坐标为对数尺度的亮度Y. 本文方法将颜与亮度
扩展至更接近GT的水平, 扩展程度甚至优于图5第一行所示的3种深度学习方法, 因此可以更充分利用
用户端HDR显示设备的先进性营造更佳观感.
3 结束语
本文首先从媒体产业的角度分析高动态范围(HDR)产业当前的矛盾, 引出由常规图像或视频映射至
HDR图像或视频的需求, 即逆调映射(ITM). 根据输入内容的特性与发生地计算资源情况, 将逆调映
射分为2类应用场景. 针对用户终端逆调映射对算法效率的要求, 基于高效执行预计算-查-插值的查
表(LUT)设计算法, 并将其与深度学习结合以规避传统静态LUT自适应性较差的缺点. 针对HDR容器
量化位深更大的特点, 将LUT的有限精度各自分配到关注范围内, 以较小计算开销实现了相当的误差水
平, 初步探索了解决HDR所用LUT精度-开销固有矛盾的方法. 本文算法与经典深度学习ITM算法的对
比结果可以证明所提算法的实用性.
参考文献:
[1]国家新闻出版广电总局. 超高清晰度电视系统节目制作和交换参数值: GY/T 307—2017[S]. 北京: 国家新闻出版广电总局广播电视规划院, 2017.
[2]国家新闻出版广电总局. 高动态范围电视系统节目制作和交换参数值: GY/T 315—2018[S]. 北京: 国家新闻出版广电总局广播电视规划院, 2018.
[3]惠慧, 朱颖瑛, 朱林林, 等. HDR技术及标准发展情况[J]. 电视技术, 2016, 40(3): 75−78.
[4]Kim S Y, Oh J, Kim M. Deep SR-ITM: Joint learning of super-resolution and inverse tone-mapping for 4K UHD HDR applications[C]//Proceedings of
2019 IEEE/CVF International Conference on Computer Vision. IEEE, 2019: 3116−3125.
[5]Kim S Y, Oh J, Kim M. JSI-GAN: GAN-based joint super-resolution and inverse tone-mapping with pixel-wise task-specific filters for UHD HDR
video[C]//Proceedings of the thirty-fourth AAAI Conference on Artificial Intelligence. 2020, 34(7): 11287−11295.
[6]Zeng H, Zhang X, Yu Z, et al. SR-ITM-GAN: Learning 4K UHD HDR with a generative adversarial network[J]. IEEE Access, 2020, 8: 182815−182827.
[7]Chen X, Zhang Z, Ren J S, et al. A new journey from SDRTV to HDRTV[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer
Vision. IEEE, 2021: 4500−4509.
[8]Xu G, Hou Q, Zhang L, et al. FMNet: Frequency-aware modulation network for SDR-to-HDR translation[C]//Proceedings of the 30th ACM International
Conference on Multimedia. ACM Digital Library, 2022: 6425−6435.
[9]宁士钰. 基于生成对抗网络的高动态范围逆调映射算法研究[D]. 上海: 上海交通大学, 2019.
[10]徐宇澄. 基于深度学习的高动态范围视频逆调映射算法研究[D]. 上海: 上海交通大学, 2020.
[11]Bist C, Cozot R, Madec G, et al. Tone expansion using lighting style aesthetics[J]. Computers & Graphics, 2017, 62: 77−86.
[12]Luzardo G, Aelterman J, Luong H, et al. Fully-automatic inverse tone mapping algorithm based on dynamic mid-level tone mapping[J]. APSIPA
Transactions on Signal and Information Processing, 2020, 9(1): e7.
[13]Mohammadi P, Pourazad M T, Nasiopoulos P. A perception-based inverse tone mapping operator for high dynamic range video applications[J]. IEEE
Transactions on Circuits and Systems for Video Technology, 2021, 31(5): 1711−1723.
[14]Andriani S, Zabot A, Calvagno G, et al. 3D-LUT Optimization for High Dynamic Range and Wide Color Gamut Color Processing[J]. Electronic Imaging,
2021, 33: 221-1−221-7.
[15]Zeng H, Cai J, Li L, et al. Learning image-adaptive 3d lookup tables for high performance photo enhancement in real-time[J]. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 2022, 44(4): 2058−2073.
正则化参数的自适应估计[16]Vandenberg J D, Andriani S. A review of 3D-LUT performance in 10-bit and 12-bit HDR BT. 2100 PQ[J]. SMPTE Motion Imaging Journal, 2020, 129(2):
59−70.
[17]Guo C, Fan L, Xue Z, et al. Learning a practical SDR-to-HDRTV up-conversion using new dataset and degradation models[C]//Proceedings of 2023
IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2023: 22231−22241.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。