近日,Hugging Face正式发布了Transformers库的v5.0.0rc0候选版本,标志着这一全球最流行的AI基础设施库完成了从v4到v5长达五年的技术周期跨越。作为AI开源生态系统的核心支柱,Transformers的这次重大更新不仅体现了技术架构的深度重构,更预示着AI开发范式的系统性演进。

自2020年11月v4版本发布以来,Transformers的生态影响力实现了指数级增长。日下载量从最初的2万次激增至超过300万次,总安装量突破12亿次,成为全球AI开发者最依赖的基础设施之一。更重要的是,它重新定义了业界使用预训练模型的标准方式:支持的模型架构从最初的40个扩展至超过400个,覆盖文本、视觉、音频及多模态领域;社区贡献的模型权重超过75万个,形成了全球最大的开源模型生态系统。这种规模的增长不仅反映了技术需求的爆发,更体现了开源协作在AI发展中的核心价值。
官方在发布声明中强调,在快速演进的人工智能领域,“重塑”是保持长盛不衰的关键。Transformers作为生态系统中领先的模型定义库,必须不断演进并调整库的形态,以保持其技术相关性和生态主导地位。v5版本围绕四大核心维度展开深度重构:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性,以及将量化提升为核心功能。这种系统性的架构调整,反映了Hugging Face对AI开发范式变迁的深刻洞察。
在简洁性维度,团队进行了前所未有的架构简化。Hugging Face认为,模型的集成方式必须干净、清晰,这种简洁性能够带来更广泛的标准化、更强的通用性,以及更全面的生态支持。为此,v5版本进行了大规模代码重构:建模文件通过模块化方法得到显著精简,许多不属于模型本体的工具被抽象出去,使建模代码只保留前向/反向传播所需的核心部分。tokenization与processing文件也得到简化:未来将只关注tokenizers后端,移除Fast和Slow tokenizer的概念区分;图像处理器将只保留fast版本,依赖torchvision作为统一后端。

模块化设计成为v5架构的核心哲学。在过去一年中,Hugging Face大力推进模块化方法,这种方式使维护更简单、集成速度更快,并能促进社区协作。尽管始终坚持“一个模型,一个文件”的哲学,但团队引入了关键的抽象层来简化通用辅助函数的管理。最典型的例子是AttentionInterface的引入,它为注意力机制提供了集中的抽象层:Eager方法保留在建模文件中,而FA1/2/3(FlashAttention)、FlexAttention或SDPA等方法则被移至该接口中。这种设计既保持了灵活性,又提升了代码的可维护性。
模型转换工具的智能化是v5的另一大亮点。Hugging Face正在构建基于机器学习的工具,用于识别新模型与现有架构之间的相似性,通过代码相似度分析加速集成流程。更革命性的是自动化模型转换系统:当有新模型需要集成时,系统将自动创建草稿PR,将其转换成符合Transformers格式的版本。这一流程将大幅减少手动工作量,确保整体一致性,同时加速新模型的生态接入速度。
后端策略的重大调整体现在PyTorch的确立上。v5版本将PyTorch确立为唯一核心后端,并逐步停止对Flax/TensorFlow的原生支持。这一决策反映了PyTorch在AI研究社区的主导地位,以及统一后端带来的技术简化优势。PyTorch基金会执行董事Matt White对此表示认可,认为Transformers全面转向PyTorch是生态成熟的重要标志。同时,团队仍在与JAX生态合作伙伴协作,确保模型能够与该生态兼容,体现了开放与专注的平衡。

训练支持的范围扩展是v5的战略重点。过去Hugging Face主要专注于微调场景,而v5加大了对大规模预训练和完整训练的支持。为了支持预训练,团队重新设计了模型初始化方式,加入了对前向与反向传播优化算子的支持。目前,v5已经与torchtitan、megatron、nanotron等主流训练工具实现了更广泛的兼容。在微调与后训练方面,Hugging Face继续与Python生态系统中的所有微调工具保持紧密合作,同时与JAX生态中的MaxText等工具兼容,确保框架间的良好互操作性。
推理优化的范式更新同样引人注目。v5带来了多项重要改进:包括专用内核、更干净的默认设置、新的API,以及优化对推理引擎的支持。团队投入大量精力封装推理内核,并新增了两个专用API:连续批处理和paged attention机制。这些功能已经在内部开始使用,未来将发布详细的使用指南。全新的transformers serve服务系统可部署兼容OpenAI API的服务器,极大简化了模型部署流程。
值得注意的是,Transformers v5的定位并非取代vLLM、SGLang、TensorRT-LLM等专业推理引擎,而是与这些引擎实现深度兼容。这种“合作而非竞争”的生态策略,体现了Hugging Face对AI基础设施分层架构的深刻理解。团队与最流行的推理引擎紧密合作,使Transformers能够作为后端使用:只要某个模型被添加到Transformers中,就会立即在这些推理引擎中可用,同时充分利用各引擎的优化特性,如推理优化、专用内核、动态批处理等。
生产环境支持得到全面加强。本地部署方面,通过与主流推理引擎的深度集成,Transformers能够提供企业级的部署解决方案。云端部署则通过Hugging Face Hub和推理端点服务,提供无缝的模型托管和调用体验。这种端到端的支持体系,使Transformers从单纯的研究工具转变为完整的生产级解决方案。
从技术演进的角度看,Transformers v5的发布标志着AI开源基础设施进入新的成熟阶段。它不再仅仅是模型架构的集合,而是演变为连接研究、开发、部署全流程的生态系统核心。这种演进反映了AI技术从探索期向应用期的转变,也预示着开源协作在推动AI民主化进程中的持续价值。随着v5正式版的临近,我们有理由期待这一生态系统将催生更多创新应用,加速AI技术的普惠进程。
— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5686
