在视频编码技术演进的长河中,双向编码(Random Access模式)始终扮演着高效压缩的关键角色,广泛应用于点播、存储等高画质场景。然而,当深度学习浪潮席卷视频编码领域时,这项传统技术却遭遇了前所未有的挑战。双向编码特有的分层B帧结构虽然能带来显著的码率节省,但其复杂的大跨度参考机制却成为智能编码算法难以逾越的障碍。

视频编码技术的本质在于解决海量视觉数据与有限传输存储资源之间的根本矛盾。未经压缩的4K视频每分钟可占用近20GB空间,码率高达1-3Gbps,这样的数据量级完全超出了现有网络基础设施的承载能力。通过消除时空冗余、量化视觉不敏感信息,视频编码技术能够将原始码率压缩至1/100到1/1000,这才使得短视频平台、实时直播、视频会议和云游戏等现代数字应用成为可能。从产业经济视角看,先进的视频编码技术每年为全球互联网行业节省数万亿带宽成本,同时大幅降低数据中心能耗,让终端用户能够在有限带宽下享受高质量的视频体验。
传统视频编码存在两种主要模式:低时延模式(Low Delay)采用单向P帧编码,仅参考前一帧进行预测,虽然延迟较低适合直播场景,但压缩效率有限;双向模式则采用分层B帧结构,每个B帧可同时参考前后两帧,利用时域双向信息,在相同画质下可比低延迟模式节省20%以上码率。然而,当前基于深度学习的端到端智能视频编码研究主要集中在LD模式优化上,对RA模式的研究相对薄弱。这主要是因为RA模式的参考帧顺序具有独特设计,与LD模式及其他深度学习视频任务存在本质差异,研发难度显著更高。
快手音视频技术团队最新提出的BRHVC(Bi-directional Reference Harmonization Video Compression)方法,正是针对这一技术空白进行的突破性探索。该方法不仅在压缩性能上超越了当前最先进的端到端智能视频编码方案,更成功超越了最新视频编码标准VTM-RA的表现,相关研究成果已被人工智能领域顶级学术会议NeurIPS 2025录用。

BRHVC技术创新的核心在于精准识别并解决了双向智能视频编码中的两大核心难题。首先是长跨度帧的运动处理问题。RA编码结构采用分层B帧设计,初始层级的帧间隔随层级指数级增长,最高可达32帧距离。这种长时距导致运动幅度与复杂度呈非线性激增——当物体在32帧间隔内持续移动时,其位移可能超过数百像素,同时伴随遮挡、形变、光照变化等复杂视觉现象。现有基于深度学习的光流网络(如SpyNet)通常基于局部相关性假设,其感受野受限于卷积核尺寸,面对大位移运动时极易陷入局部最优,导致运动场估计出现“断裂”或“漂移”等严重误差。

其次是参考贡献不平衡问题。在长跨度参考场景下,前后两个参考帧的信息价值往往存在显著差异,但现有方法缺乏对这种差异性的显式建模,默认两帧具有同等参考价值,这与实际视频内容特性严重不符。例如在编码当前帧的特定区域时,可能由于遮挡等原因,其中一个参考帧几乎无法提供有效信息,而另一个参考帧则包含丰富的参考价值。研究团队通过专门设计的实验定量揭示了这一问题的严重性:在帧跨度较大(16或32帧)时,仅使用较差参考帧相比仅使用较好参考帧,BD-rate指标(表示相同质量下码率增加比例)差异显著,这直接制约了整体编码效率的提升空间。


针对上述挑战,BRHVC框架创新性地设计了两个核心模块。整体架构如图所示,形成了完整的双向智能视频编码解决方案。

双向运动聚合(BMC)模块专门攻克长跨度运动估计难题。该模块将光流网络生成的多尺度光流(包括原始分辨率、1/2分辨率和1/4分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验知识,动态适配不同帧类型的信息需求。这种设计突破了传统光流压缩的局限性,使解码端能够重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。可视化效果对比显示,BMC模块通过对多尺度光流进行单独生成和整体压缩,有效避免了传统方法在大跨度下出现的光流杂乱错误现象。


双向上下文融合(BCF)模块则专注于解决参考贡献不平衡问题。在编码端,该模块通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端的协同优化。权重特征可视化分析表明,BCF处理得到的显式权重建模能够有效识别长跨度帧中的遮挡区域,使编码器能够将更多注意力集中在具有更高参考价值的区域,从而提升整体压缩效率。


BRHVC的两个关键模块形成了递进式优化体系:BMC首先提供高质量的多尺度运动表征,为后续处理奠定基础;BCF在此基础上实现智能化的信息筛选与融合,最终形成完整的双向编码优化闭环。这种设计使BRHVC在标准测试数据集上实现了对传统编码标准的全面超越。


研究团队在HEVC Class B至E、UVG及MCL-JCV等业内标准数据集上进行了全面验证,实验结果充分证明了BRHVC方法的有效性和先进性。这项技术突破不仅代表了双向智能视频编码领域的重要进展,更为整个视频压缩技术的发展开辟了新的方向。在视频数据爆炸式增长、带宽资源日益紧张的今天,BRHVC所展现的技术潜力具有深远的产业意义,有望推动视频服务质量的持续提升和运营成本的进一步优化。
— 图片补充 —


关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6550
