|
|
本帖最后由 whusolo 于 2026-2-24 09:48 编辑 ; f1 v& Q( b( B/ L# h5 ~- n
1 E$ ^3 j/ c% c& T新春启序,学术传捷。北京时间 2 月 21 日,IEEE/CVF 国际计算机视觉与模式识别会议(CVPR 2026)论文录用结果公布。作为全球计算机视觉领域顶会,本届会议投稿量再创新高,彰显领域蓬勃活力。武汉大学机器人学院马佳义教授课题组表现亮眼,5 篇论文强势入选,聚焦多模态融合感知、单图跨光谱表征、视频时空协同、通用图像复原、2D-3D 无描述符匹配等前沿方向,突破现有技术瓶颈,为智能机器人、自动驾驶等场景提供关键技术支撑。学院将持续推送成果详情,展现学科交叉创新实力,助力智能科技高质量发展。7 K! X0 V+ n; U$ O. q' F _
3 s' w" F% ]2 b- {) z) o6 V; K0 t1 B& Y# D/ `: I
' w ]7 K( b: B7 {. E+ r ^) M
# N. V+ t- ^& H5 G# P2 |& O8 h; U& z& t
一、多模态扩散互馈耦合,解锁全天候稳定融合感知新可能0 y6 L/ L, q9 z0 }
0 O5 H r( I% V7 FReCoFuse: Ultra-Robust Image Fusion via Restorative Multi-Modal Diffusion Reciprocal Coupling' h" A( t; E; e
( v9 k2 i/ _" i# T7 g2 X. y2 s作者:Hao Zhang, Shuhan Yang, Linfeng Tang, Xunpeng Yi, Jiayi Ma: L& L$ u% ?% q
, t* D7 g7 ~1 f
单模态图像通常难以完整刻画真实场景的分布特性,而多模态图像能够提供互补信息。通过图像融合技术对多源信息进行有效整合,可构建更全面的场景表征,显著提升感知性能,已在自动驾驶、智能安防等领域得到广泛应用。然而,受现实场景复杂性与硬件条件限制,实际采集的多模态图像常伴随低光、雾霾、噪声、条纹等多种退化干扰,导致模态间互补性大幅下降,进而严重制约融合表征质量。
& w# z" Z" n% t0 L* I5 l* d% l3 u" X. B" O
* h' k; G2 }: P$ m, C
' S) U' O+ E$ {: m' o7 y
为应对这一挑战,现有鲁棒融合方法主要分为两类思路。一类遵循硬回归范式,采用一体化回归方式学*图像恢复与融合的隐式联合映射。但该范式需同时应对不同退化类型的交叉映射学*,且难以适配不同场景下信息保留的强异质性需求,通常存在退化残留、场景表征不完整等问题。另一类采用解耦优化范式,将信息恢复与信息融合拆分为两个独立模块依次优化,导致多模态信息在恢复阶段无法借助其他模态的互补线索,难以消除严重且复杂的退化现象,同时造成恢复过程与融合过程之间适配性不足,最终形成明显的性能瓶颈。/ h& K6 B: g& d$ @
! x) O7 p/ _( C2 K$ d针对现有范式存在的核心缺陷,马佳义教授课题组提出了ReCoFuse,这是一种基于恢复式多模态扩散互馈耦合的超鲁棒图像融合框架。ReCoFuse重新解构了信息恢复与融合的内在关系,通过二者的相互强化,构建出全新的互馈耦合优化范式。该框架首先利用扩散模块DiM构建双分支恢复结构,以捕获各模态专属的恢复先验;随后引入时间感知跨模态融合模块TIM作为耦合桥梁,将其嵌入DiM每一步采样过程中,实现多模态信息的动态聚合。聚合后的特征不仅反向反馈至各恢复分支,借助跨模态互补信息强化退化抑制能力,同时可生成质量优异的融合图像。此外,还设计了交替正则化机制,沿梯度路径对DiM与TIM进行迭代优化,保障恢复与融合过程高效协同。实验结果表明:在低光、雾霭、噪声、低对比度、条纹等复杂退化场景下,ReCoFuse能够直接输出干净、完备的场景表征,有望为自主机器人、无人平台、智能驾驶等智能系统提供全天候底层感知能力,支撑复杂动态环境下的自主决策与安全作业。) V$ a- w9 l( _' U8 b8 L) ~4 l
/ u5 z3 O" \! u& |, v( e3 Z
4 A, q. N1 W2 I6 I+ m9 ]" x: m! s4 H" }! J
. G, [# Z" x$ }* L g
, T- s& r! c% q6 P! b f0 j二、单图即可“脑补红外”!MagicFuse实现单张可见光图像跨光谱感知9 y# ^, q" l" j3 j+ D5 Y- \9 u
6 g) | S0 w1 u+ W6 \& O& F! ~
MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement
( N. L( Y% n* Q- g4 C' s+ }9 O" ]8 d
" @! r" I. @7 G. m7 W作者:Hao Zhang, Yanping Zha, Zizhuo Li, Meiqi Gong, Jiayi Ma* I) m" A$ a# X
3 d& S8 F: _/ R. t3 K4 [: \2 w可见光成像传感器在低光、雾霾等恶劣环境下成像质量会严重退化。主流的红外与可见光图像融合技术虽能显著提升场景感知效果,但必须依赖配对的可见光与红外数据才能工作。在实际应用中,红外传感器成本较高、难以大规模普及,导致现有融合方法在真实部署场景中往往无法有效运行。而仅依靠可见光图像复原,又受限于单一光谱先验信息,面对复杂耦合退化时效果十分有限。因此,如何在仅配备可见光传感器的条件下,仍能获得接近多模态融合水平的感知能力,已成为极具现实价值的关键科学问题。) B9 ?% k, u0 t* }. m4 g& ^
$ b6 F' t! e$ a
$ q+ ]' U8 t+ E7 `* f
! m( e7 r( l, ^6 \# b. _针对这一难题,马佳义教授课题组首次提出单图融合(Single Image Fusion, SIF)这一全新研究理念,将传统的数据级融合提升至知识级融合。该理念不再依赖实时红外数据输入,而是让模型从大规模数据中学*先验知识,直接从单张低质量可见光图像推理出跨光谱(可见光+红外)的完整场景表征,从而在不搭载红外传感器的条件下,也能获得多模态融合带来的性能增益。& `9 A+ ]2 G) q
2 |2 C) b l' r9 {基于该创新理念,提出单图像融合框架MagicFuse,可仅从单一退化可见光图像中,联合生成高质量可见光–红外融合表示。框架基于扩散模型构建三条核心分支:谱内知识强化分支—挖掘并恢复可见光谱内被遮蔽、淹没的场景细节;跨谱知识生成分支—从海量配对数据中学*目标热辐射分布规律,生成可靠的红外光谱知识;多域知识融合分支—以概率噪声为融合媒介,整合谱内与跨谱知识,通过迭代采样生成具备跨光谱表示能力的融合结果MagImg。此外,模型还嵌入辅助分割头,将融合特征与语义标签进行对齐,使输出图像既满足人眼视觉观测需求,又能直接支撑下游高层语义决策任务。在多个公开基准数据集上的实验结果表明:MagicFuse仅以单张退化可见光图像为输入,在视觉效果与语义表征能力上,均可达到甚至超越当前必须依赖双模态数据的SOTA方法,为恶劣环境、传感器资源受限条件下的高性能场景感知提供了全新可行方案。
1 Y- x3 S @; ?, G. {/ Y2 ?* p2 _
( V, A# T( O" F. g* B. S% j
5 \% Y% m, v1 \! f+ R7 d R8 s& H# s7 m
! i2 B* @8 C; W8 o- l7 M% ~: B4 Y1 z! ^, m9 e$ P4 C
三、时序一致性与融合质量全面提升:面向多模态视频融合的时空协同网络7 P: n- |8 H# L
. M# w- X! p% a: i6 h. \! n
VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion* W: k; d7 u$ [ X% p
8 f* u* V! J" x' V# [0 r
作者:Linfeng Tang, Yeda Wang, Meiqi Gong, Zizhuo Li, Yuxin Deng, Xunpeng Yi, Chunyu Li, Han Xu, Hao Zhang, Jiayi Ma* g! k. f: N" [4 Z$ B8 w% T
# Y6 L& N$ c9 n9 U% D" c0 w1 n2 zGithub:https://github.com/Linfeng-Tang/VideoFusion' \* ?' S' I, y" [4 t9 n
+ i& R5 f) q: y2 W8 y9 ]+ r( VM3SVD数据集:http://github.com/Linfeng-Tang/M3SVD. T6 F/ P7 O6 N- W
9 c" y) Z* f$ e( _9 H) Y; k
Arxiv:https://arxiv.org/abs/2503.23359
1 Z0 s2 J k2 n. U+ F8 Q1 s! [$ w% c! g
多传感器融合技术旨在聚合多类型传感器(如红外与可见光)捕获的互补信息,以获得更全面的场景表征并服务于后续智能感知与辅助决策。然而真实物理世界高度动态,实际系统接收的往往是连续视频流而非静态帧序列。受限于大规模多模态视频数据集匮乏以及时空联合建模能力不足,现有方法常将图像融合算法直接逐帧应用至视频序列上:虽然单帧观感可提升,但跨帧互补信息被割裂,容易引发帧间闪烁、抖动与时间不一致等问题,难以满足安防监控、自动驾驶和复杂环境感知等场景对稳定时序的需求。
* V" M7 M/ {- t" @3 e: R$ G8 {" z, P' I
针对这一挑战,马佳义教授课题组提出面向多模态视频融合的时空协同网络 VideoFusion,并配套发布大型多模态视频基准数据集 M3SVD(包含 220 段时序同步、空间对齐的红外-可见光视频,总计 153,797 帧),为视频融合、视频增强、配准等相关研究提供规模化训练与统一评测基础。VideoFusion 以统一的视频融合框架突破传统逐帧处理局限,能够面向输入退化的多模态视频流直接生成高保真、时空连贯的融合结果:方法通过多层次协同机制强化表征学*与信息聚合,在特征提取阶段引入跨模态差分强化模块(CmDRM),挖掘“互补且非冗余”的跨模态差异并增强单模态表征;在多尺度融合阶段提出完备模态引导融合模块(CMGF),以综合特征作为查询自适应汇聚红外与可见光互补线索;同时在编解码阶段设计双时相协同注意力(BiCAM),从前后相邻帧双向引入时序上下文以抑制闪烁并提升时间稳定性。在M3SVD与HDO数据集上的实验验证表明,VideoFusion能有效应对低照度、条纹噪声等退化场景,不仅在信息保留与结构一致性等图像级质量指标(如MI、SSIM等)上达到领先水平,同时在表征时序一致性的指标(flowD)上取得更优结果,体现出更强的跨帧稳定性与时间连贯性。该工作揭示了时空协同机制在多模态视频融合中的关键价值,为动态场景下的智能感知系统提供了更可靠的技术路径与数据基座。
6 I5 b, W2 _% ], l' L2 I+ Y! L3 C1 ]/ W, q
9 G% l0 l* ]* G, E% I9 G
8 l; s$ B* y! p! i( l
9 v: ]$ I- d% P' W- h' n$ n3 P; }5 ^
! E- V. Q- t$ ~# y四、通用图像复原新范式:RDBM统一扩散复原理论框架并实现区域自适应的精准图像复原
# l, D" d% t: W+ ?7 ~+ c8 X( p! {+ g# m" x, f5 H9 L/ S) f/ P
Residual Diffusion Bridge Model for Image Restoration
4 g2 Z8 w2 P/ v$ X2 }& E, L* q4 z9 D+ t/ l; R+ o0 k
作者:Hebaixu Wang, Jing Zhang, Haoyang Chen, Haonan Guo, Di Wang, Jiayi Ma, Bo Du! v* G( l( u- b7 b. H
' b. r) M, U: q! E% _
真实世界图像在采集与传输过程中不可避免地受到多种退化因素的干扰,如低光照、模糊、雾霾、雨雪及噪声等。由此,图像复原任务应运而生,旨在实现对退化的精准感知、表征与消除。现有的扩散模型虽然取得了显著进展,但普遍面临着“一刀切”式全局噪声扰动带来的根本性困境:其既缺乏对不同退化区域进行差异化复原的能力,又无法抑制对完好区域的冗余重构,这严重制约了复原性能的上限。# N$ E4 j: ?2 m& b2 w4 Z# \
0 f5 L: R. G* l i
( h( W u s% x5 q
, D4 ]7 w; J& c9 Z& `: M8 ~: r1 K; O' s6 g+ r6 j: R
% D; H& C Z/ x0 B7 E! c% I针对扩散过程中固定的噪声扰动模式导致的适应性瓶颈,马佳义课题组深入剖析扩散理论,提出通用扩散桥框架“Residual Diffusion Bridge Model”并揭示“残差调制动态演化”机制。具体而言,该框架首先对广义扩散桥的随机微分方程进行理论重构,并推导出其闭式解析解,阐明了扩散桥的内在机理与设计空间,为统一描述各类扩散桥模型奠定了理论基础;在此基础上,通过引入“残差-噪声”比精准刻画路径演化中的动态平衡,并创新性地利用图像分布间的残差信息作为调制因子,动态调控噪声注入与移除的过程,从而引导概率路径构建。最终,赋能模型对不同退化区域进行精准、差异化的复原。
4 ~- s+ {; a8 \; |+ @/ }1 ?' h4 y, L$ V
在涵盖去雨、低光增强、去雪、去雾、去模糊等五大图像复原任务的广泛实验表明,RDBM超越现有方法,更在零样本泛化场景下展现出优越的鲁棒性。此外,该框架在图像翻译和图像修复等延伸任务上也取得了突破,为通用底层视觉的多任务部署提供了一种理论完备、性能优越的解决方案。1 ] h$ }0 s/ g# |/ I) _8 v
_- b. j4 M0 L% J. w# i: ~ O: \. F3 u( @8 Y: l
, z) X9 E( x' u$ M% N0 H五、用于无描述符2D-3D匹配的语义感知引导图神经网络/ s" q! l$ r; ~- E
$ |( r1 |$ f( e, a* K) b4 k" O0 ASAG-GNN: Semantic-Aware Guided GNN for Descriptor-Free 2D-3D Matching
* a ^, T9 ^8 k& F7 H- G W) l' g' Y6 b
) s2 H' y) M0 Z$ J3 ~$ f, v3 f作者:Shihua Zhang, Tianhao Xu, Zizhuo Li, Qing Ma, Jiayi Ma
; v4 S, a( ]6 ~4 Z1 P1 x
/ }7 S- l1 u) u" c% W2D图像与3D点云匹配旨在建立图像关键点与3D点之间建立准确的对应关系,以恢复六自由度的相机位姿。现有方法要么因为特定场景的坐标回归需要逐场景重新训练而导致泛化能力差,要么因为基于描述符的匹配依赖庞大的描述符集而产生高昂的存储和维护成本。因此,无描述符方法通过避免沉重的存储负担并提高泛化能力而备受关注;然而,大多数此类方法仅依赖低级几何线索,从而限制了匹配性能。" C) d& Y+ F% T2 M) C) F3 V1 \
$ M$ Q/ b; i+ Z. G3 z$ l" d5 c6 T& d/ |/ O8 A2 B
6 B+ M) {9 \3 v
利用语义在提供上下文、消除歧义以及增强在挑战性场景下鲁棒性方面的优势,马佳义课题组提出了一种语义感知引导的图神经网络(SAG-GNN),将高级语义融入无描述符的2D-3D匹配中。具体而言,该方法设计了一种紧凑的语义提取方案,将每个3D点编码为低维的语义概率分布,以极小的存储开销提供有效的引导。双向对齐的融合模块将几何特征与语义上下文进行合并,从而获得更加统一和一致的特征表示。此外,语义先验从高级语义视角指导了交互框架内的2D-3D信息聚合。广泛的室内外实验验证了SAG-GNN在无描述符的2D-3D匹配和视觉定位任务中达到了最先进的水平,并具备低存储需求和强大的泛化能力。 |
|