一、算力中心建设方案
(一) 建设规模
AI大模型时代已经来临,人工智能技术的创新与变革催生出几何级增长的算力需求。据OpenAI数据显示,算力需求每3至4个月便需翻倍。大模型虽增强了AI技术的通用性,助力行业AI普惠化,但其参数量已攀升至数千亿级别,训练数据集规模亦高达TB级别。通常,完成单个大模型的训练即需投入超过200 PFlops的智能算力资源。综合考虑资源复用率与算力中心建设规模的边际收益效应,智能算力中心需达到1000P或更大规模,方能确保最优的利用效率与经济效益。
基于项目建设的必要性与需求分析,本项目规划建设峰值算力约1000 PFlops(基于半精度浮点FP16运算)的智算中心,并配套建设约5PB的对象存储、0.5PB的文件存储,以及相应的算力服务平台与其他软硬件设施。
(二) 建设内容
本项目建设内容涵盖:AI算力硬件基础设施(含计算、存储及网络硬件资源)、AI算力软件基础平台(AI计算服务、AI存储服务、AI网络服务、AI开发平台及AI云管理平台)、信息安全体系以及运营运维体系。
1. AI算力硬件基础设施
1) AI算力资源
- 服务器选型:采用国际领先的新一代Tensor Core GPU服务器,专为满足大型语言模型、推荐系统、医疗健康研究及气候科学等领域的大规模计算需求而设计,具备强大的AI与高性能计算(HPC)能力。
- 单机配置:每台GPU服务器配备八块高性能GPU算力卡。单卡非稀疏算力达989 TFLOPS,卡间通过高速数据链路互联,使其在FP8精度下可实现高达32 Petaflops的整机AI性能。
- 性能优化:支持Transformer引擎,可将大型语言模型的训练速度提升高达9倍,推理速度提升30倍。服务器内存配置高达80GB的HBM3内存,带宽达到3TB/s。
- 规模测算:为达成约1000 PFLOPS的总算力目标,约需部署128台上述服务器。基于单卡989 TFLOPS(FP16 Tensor Core)的算力进行折算,总算力总量约为1,012,736 TFLOPS。
2) AI存储资源
为全面支持AI数据采集、标注、预处理及训练等场景,需建设功能全面、稳定可靠且具备高读写性能的分布式存储系统。

该系统采用业界主流分布式存储架构,支持冷热数据智能分层及3AZ(可用区)数据冗余分布。

项目分布式存储系统的架构设计
文件存储:
(1) 功能描述
* 托管与弹性:提供完全托管的共享文件存储服务,可弹性伸缩至PB级规模,具备高可用性与持久性,有力支持海量数据、高带宽型应用。适用于容器存储、媒体处理、文件共享、内容管理及Web服务等多种场景。
* 线性扩展:支持业务不中断的按需扩容,性能与容量可线性增长。提供统一命名空间,可存储文件、视频、图像等多种类型的业务数据。
* 共享与安全:通过构建大容量并发文件共享服务,解决日常办公与业务系统的数据共享问题。通过精细化权限控制,为不同用户设置差异化的文件与目录访问权限,保障数据安全。
(2) 组网方案
* 网络隔离:文件存储前后端网络物理隔离,业务网络与管理网络分属不同平面。前端业务网络用于对接用户网络,后端存储网络用于内部节点互联。
* 网络兼容:集群后端网络支持10GE、25GE、IB连接;前端网络支持GE、10GE、25GE、IB连接,以满足不同组网需求。
* 高可用设计:所有节点网络均采用冗余设计,单一网口或交换机故障不影响系统使用。前端与后端可使用不同物理网卡实现网络隔离,前端网络可根据用户现状灵活选择连接方式。通过设备IPMI网口可访问管理界面。
* 部署要求:系统支持多种类型节点混合部署,相同类型及配置的节点最少需配置3台;若仅部署NAS存储,则最少需部署3台节点。
Ethernet组网描述:前后端均采用Ethernet交换机的典型组网方案如图所示。

文件存储系统结构
组网说明:
当文件存储使用Ethernet组网时,前端网络对接用户Ethernet交换网,后端网络使用内部Ethernet交换机,前后端交换机均冗余配置。GE交换机通过网线连接管理网口与IPMI网口,仅用于管理维护。
(3) 容量设计
* 配比原则:根据大模型训练与推理需求,按XXXXP计算算力配比0.5PB文件存储的规划。文件存储采用三副本高可用架构,0.5PB容量需部署18台文件存储服务器。
* 单机容量测算:单台服务器配置12块硬盘,单盘容量7.68T。采用纠删码4+2架构(利用率0.66),并考虑损耗(系数0.91)后,单台服务器提供的可用存储容量为:7.68T * 12 * 0.66 * 0.91 ≈ 55.2 TB。
* 服务器数量:所需文件存储服务器数量约为:0.5PB ÷ 55.2TB ≈ 10台。因此,共需10台服务器即可提供约0.5PB的文件存储可用容量。
对象存储:
(1) 功能描述
对象存储融合了块存储的高速直接访问特性与文件存储的分布式共享特点,是一种可存储文档、图片、影音视频等非结构化数据的云存储服务,提供海量、安全、高可靠、低成本的数据存储能力。
主要应用于大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控等场景。提供多语言SDK,兼容主流客户端工具,支持随时随地通过网络管理数据。应用可通过调用SDK直接读取存储数据,为高并发应用提供保障。同时提供精细化权限控制,确保数据安全可靠。
(2) 组网方案
对象存储组网主要包括三种方式:业务平面与存储平面均采用10GE组网;业务平面采用GE组网而存储平面采用10GE组网;业务与存储平面均采用25GE组网。
集群内组网方案:

集群内组网结构
上图展示了单个子网内的节点与交换机连接示意,单个集群由若干个此类子网构成,子网间通过汇聚交换机互联。
多区域组网方案:
对象存储支持多区域组网,提供统一命名空间服务。为满足组网与数据可靠性要求,需支持多Region单AZ组网形态。下图展示了部署2个Region,每个Region包含一个AZ(即一个集群)的组网结构。其中IAM为鉴权服务器(亦支持Keystone鉴权或自有POE鉴权,此处以IAM为例)。

多区域组网结构
对接组件包括IAM(身份与访问管理)或POE(内部鉴权服务)、负载均衡集群,这些均需在对象存储系统之外使用独立服务器部署,具体如下:
1. 每个对象存储集群对应一个LVS集群;
2. 负载均衡集群接入业务平面,提供负载均衡功能;
3. 对象存储与IAM或POE对接,完成统一认证鉴权。
存储平面是对象存储的内部网络,集群内节点通过存储平面交换机互联,流量不跨集群。
(3) 容量设计
根据大模型训练与推理需求,按1000P计算算力配比5PB对象存储,用于图像、视频等数据存储。对象存储采用EC4+2高可用架构,5PB容量需部署15台对象存储服务器。
对象存储服务器配置测算:
每台对象存储服务器提供的可用存储容量为:18 * 32 * 0.66 * 0.91 = 345.9 TB。
所需对象存储服务器数量约为:5 PB ÷ 345.9 TB ≈ 16 台。
因此,共需16台服务器,可提供约5PB的对象存储可用容量。
3) AI网络资源
智算中心是开展人工智能研究和应用的基础,为大规模数据分析与深度学习算法研究提供强大的计算、存储与通信能力,从而加速算法迭代。
基于人工智能任务的发展特点,该智算中心采用存算分离的集群架构,通过高速数据/存储网络将多个计算子集群和存储子集群有效连接。通过解耦计算和存储资源,可以实现资源的弹性扩展与按需分配,使系统负载均衡调度更加灵活高效。
根据AI训练和推理的需求,设计的网络拓扑架构如下。

项目网络拓扑图
如上图所示,本项目采用模块化设计,包含若干计算模块和存储模块。在单一模块内,计算或存储服务器通过不同类型的网络互连。集群核心交换机负责不同模块间的互连。为充分发挥分布式系统性能并保障效率,本项目采用多种网络方案满足不同场景的节点互联需求。根据模块内外的网络流量类别,节点互联采用了五种不同的网络方案:基于以太网的业务网络、基于IPMI的管理网络、基于InfiniBand硬件实现的RDMA训练网络、基于RoCE的高速以太网数据网络和存储网络。
(1) 业务网络
在本项目中,传统IDC运维管理及HTTP/HTTPS通信流量由业务网络承担。业务网络采用三层CLOS架构,支持大两层网络和VXLAN隔离,以满足网络隔离需求。基于以太网的业务网络提供10Gbps接入带宽,用于集群控制面的任务分发、管理以及集群与外部用户的互通。
(2) IPMI管理网络
IPMI是一种服务器信息采集标准,用于监控服务器的物理健康特征,如温度、电压、风扇状态、电源状态等。基于IPMI的管理网络采用1Gbps接入带宽和通用以太网技术,承载服务器监控和远程管理产生的流量。
(3) 训练网络
RDMA是一种绕过远程主机操作系统内核直接访问其内存数据的技术,避免了操作系统开销,不仅节省了大量CPU资源,也提高了系统吞吐量并降低了网络延迟。
在本项目中,基于RDMA的高速训练网络采用NDR/HDR InfiniBand网络,承载集群内分布式训练产生的计算流量。在大规模分布式训练场景中,GPU服务器之间的通信流量称为训练流量,其对网络的要求是高带宽、低延迟,并且必须支持RDMA通信。
本项目采用InfiniBand网络和两层CLOS架构进行组网。在单一计算模块内,根据GPU服务器的具体通信要求,采用NDR 400Gbps或HDR 200Gbps带宽的InfiniBand进行服务器互联,所采用的Leaf-Spine组网可保证GPU计算节点之间实现无阻塞的RDMA通信。
分布在不同模块的GPU服务器之间的RDMA通信,由训练网络的Super-Spine层交换机承担。为最大化跨集群RDMA通信性能,Super-Spine层交换机采用HDR InfiniBand交换机,并可动态添加交换机以支持更高的通信性能。
(4) 存储网络
本项目包含独立的存储模块,其内部服务器之间的数据同步由存储网络承担。存储流量要求高带宽和低延迟,本项目根据存储软件特性,采用基于以太网的RDMA(RoCE)进行组网。
在存储集群内,存储网络采用两层CLOS网络架构,并支持无损网络以实现高性能RDMA通信。RoCE(基于融合以太网的RDMA)是一种网络协议,允许在以太网上使用RDMA。在本项目中,它为集群服务器的存储网络提供100Gbps/25Gbps接入带宽,用于存储服务器之间的数据同步。
(5) 数据网络
数据网络承担计算服务器读写远端存储服务器的流量。针对GPU服务器在模型训练过程中的I/O需求,本项目为计算服务器的数据网络提供25Gbps接入带宽,为存储服务器的存储网络提供100Gbps接入带宽。计算模块内的计算节点从独立存储模块读写数据产生的流量称为数据流量。
本项目采用Spine-Leaf以太网络架构承载此类流量,以支持多路可用路由的数据传输场景,从而提升数据传输速度并降低延迟。计算集群可根据实际I/O负载,采用25G、100G或更高带宽接入数据网络交换机。
容量设计
依据智算中心建设规模,本项目建设共需2台核心交换机、38台以太网交换机、26台Infiniband交换机。具体网络设备配置如下:
网络设备配置表

2. 算力中心建设架构
1) 总体架构

项目总体架构图
智算中心主要围绕AI算力软硬件基础设施开展建设及运营运维,当前主要包括基建设施、AI算力硬件基础设施、AI算力软件基础平台、AI能力软件平台和信息安全体系建设,以及运营运维和运营增值服务体系。
建成后将为当地提供算力服务,面向全省政企事业单位,赋能支撑自动驾驶、元宇宙、智慧科研、金融服务等各个行业领域的创新发展和应用。
(1) 应用
经过前期调研,本项目首先面向科技创新业务,同时也向政务、智慧医疗、智能遥感等智慧城市及各行业应用赋能扩展。算力应用领域涉及AI大模型、AI4S、生成式AI、Web3.0、区块链数字化产业、元宇宙等战略创科产业。
主要面向地方政府、高校院所、重点科创企业、AI和软件企业、智能化需求企业,在大模型应用、基础科研、生物医药、金融科技、智慧城市、智能制造、车联网、农业与食品加工、纺织服装鞋业等多个领域提供人工智能算力服务。通过智算中心与相关高校互联互通、资源共享,强化产学研创新协同。
(2) 算力中心云平台
* AI计算服务:主要包括AI计算管理系统,提供高性能AI算力池、云容器实例、弹性裸金属服务器等服务。AI计算管理系统面向AI训练、推理等场景,提供容器、裸金属等多类型计算实例的全生命周期资源管理能力。高性能AI算力池旨在打造高性能、弹性扩展、安全稳定、智能调度的AI算力平台。通过算力池启动不同工作负载进行AI训练、推理任务,智能调度系统能够提高资源利用率及AI应用效率。在AI算力调度基础之上,为用户提供云容器、弹性裸金属服务器等。
* AI存储服务:主要包括存储管理系统、AI文件存储、AI对象存储。AI存储管理系统提供安全、稳定、高可用、低成本、弹性可扩展的存储服务。在此基础上,用户可根据需求购买所需的文件存储和对象存储。
* AI网络服务:主要包括私有网络VPC和弹性公网IP EIP。私有网络VPC是云上隔离的私有网络空间,支持高速RDMA网络。弹性公网IP提供了公网IP与Internet带宽,通过网络地址转换技术,满足租户私有网络中的裸金属、开发机等各类资源与Internet互联互通的需求。
(3) 算力中心软件基础平台
AI算力软件基础平台包括AI开发平台和AI能力平台。
AI能力软件平台包括AI模型管理和模型推理服务。
面向大模型全新开发范式,提供模型生命周期管理,覆盖大模型微调、推理到部署应用的全栈式AI开发场景,帮助企业有效沉淀及共享模型资产,并提供公开算法库,助力用户快速开发定制业务模型。AI模型推理服务是基于人工智能技术的推理云服务,提供大语言模型等推理API,赋能开发者模型能力与大规模并发推理能力。
(4) AI 算力硬件基础设施
人工智能算法,尤其是训练任务,需要海量算力的支撑。因此,XXXX智算中心底层在通用CPU处理器之外,规划采用H100 GPU处理器进行高性能加速。同时,根据大模型训练与推理对存储和网络的需求,配置相应规模的存储与网络设备。
本项目采用模块化设计,包含若干计算模块与存储模块。在单一模块内部,计算服务器或存储服务器通过不同类型的网络进行互连。集群核心交换机负责不同模块间的连接。为充分发挥分布式系统软硬件性能并保障效率,采用多种网络方案以满足不同场景的节点互联需求。
同时,项目提供全面的安全保障产品方案,严格参考等级保护思路与标准,将不同区域、不同层面的安全措施整合为有机的保护体系。建成后的安全体系将充分符合国家等级保护标准,为XXXX智算中心的稳定运行提供有力保障。
(5) 运营运维体系
为确保项目后期稳定运行,需建设完善的运营体系与运维体系。该体系主要包括运营运维管理组织架构、规范制度的建设,并提供持续的运营运维支持服务。
(6) 基建设施
本项目采用机房改造方案,根据智算中心机房的特定应用需求进行升级改造,主要包括建筑系统、智慧电力及供配电系统、智慧冷却空调系统、智慧机房综合监控系统。
2. 整体技术路线
综合考量算力技术先进性、软件生态成熟度、大模型发展趋势,并充分借鉴国内智算中心的建设运营经验,本项目建议AI算力采用GPU H100处理器作为核心硬件,软件部分采用支持多元化高性能调度的异构AI云服务管理平台及AI开发平台。
智算中心建设的技术路线涵盖硬件、软件及网络基础设施等多个方面:
- 硬件设备选择:选择适用于智算中心的高性能计算设备,如服务器或GPU。针对AI任务,考虑采用专用AI芯片(如GPU、TPU等)来加速矩阵计算与神经网络推理,以提升模型训练与推断速度。所选设备应具备高计算能力、大内存容量与高速数据传输能力。
- 分布式计算架构:采用分布式计算架构,将计算任务分配给多个计算节点并行处理。可利用Hadoop、Spark等开源框架或自研系统,以充分利用集群资源,提升计算效率与吞吐量。
- 云计算平台搭建:建立云计算平台,提供虚拟化、弹性化的计算资源与服务。可选用OpenStack、Kubernetes等技术栈来管理与调度资源,支持根据需求动态分配,并提供IaaS、PaaS、SaaS等灵活的服务模型。
- 网络基础设施优化:为应对数据与AI模型的巨量化趋势,需设计服务器节点内多卡互联及多服务器节点间网络互连方案。节点内互联以PCIe、OAM高速互联等协议为主;节点间网络基于RoCE以太网技术搭建,实现池化资源间总线级交互,保证极低时延的数据访问。
- 数据管理和存储:建立适当的数据管理与存储系统,以处理大规模数据。可采用分布式文件系统(如HDFS)或对象存储系统(如Amazon S3)等技术,确保数据的可靠性、高可用性与高性能访问。
- 安全与隐私保护:构建强大的安全架构,涵盖网络安全、身份认证、数据加密与访问控制等措施。可采用TLS/SSL、IPSec等技术保障数据传输安全。同时,确保处理敏感数据时遵守隐私保护法规,满足合规性、数据去标识化等要求。
综上所述,XXXX智算中心的技术路线注重计算、存储、网络、安全及基础设施等关键领域的技术整合与方案实施,以支撑智能计算的快速发展。
3. 算力中心云平台建设
1) 统一云管平台
(1) 概述
统一云管平台主要面向云平台资源的运营、财务及运维人员。它为运营人员提供高效的租户管理、营销管理、产品运营等功能;为财务人员提供汇款管理、对账结算等费用管理服务;为运维人员提供资产管理、报表管理、日志审计等资源监控与维护功能。
(2) 逻辑架构

统一云管平台逻辑架构
- 统一的产品门户:统一承载IaaS及PaaS产品,为用户提供快速的资源获取方式和通用的管理配置策略,一站式完成AI研发。
- 全面的企业业务支撑:面向企业管理者提供企业级租户管理工具、标准账务支撑能力,实现企业内部资源管理调配、财务分析及合规审计。
- 高效的云平台运营管理:提供系统性的云平台运营管理体系,根据大企业或集成商客户的不同业务与管理需求特性,提供管理框架,使AI算力、数据、算法成为可运营的服务。
(3) 主要功能
企业级租户管理:
* 用户管理:采用主子账号模式,由主账号统一管理子账号生命周期,实现管、控分离与权限下放。
* 访问控制管理:使用RBAC模型对平台内子账号进行统一的访问控制管理,便于用户快速使用与管理。
* 管理组管理:提供“管理组”功能,方便用户根据企业部门组织建立资源管理结构,并在管理组层级进行授权,提升资源管理效率。
* 订阅管理:订阅是用户进行计费和账单管理的单位,所购资源与订阅直接关联,订阅与计费账户绑定。
* 资源组管理:资源组是共享相同生命周期、权限和策略的资源的集合,是最基本的资源分组方式。每个资源实例必须且只能隶属于一个资源组。
* 费用管理:包含账户余额管理、消费流水和趋势查询、订单管理、账单管理和合同包,帮助用户通过收支分析系统使用情况。
* 订单管理:包括订单查询、续订管理和退订管理,支持用户对各类资源生命周期的特殊逻辑管理。
* 账单管理:包括账单概览和账单明细,方便客户从多维度了解账单额度、使用趋势及余额分布。
统一用户控制台:
* 快速入口访问:提供最近访问入口作为快捷导航;支持自定义入口收藏,满足用户定制化入口管理需求。
* 资源全局概览:支持对登录账号下各类产品服务资源的关键指标用量统计和异常状态提醒。
* 账户资金概览:展示账户可用余额、代金券及剩余延停额度,并提供一键快速充值功能。
* 待办事项提醒:提供待续费、待支付订单数统计,支持一键跳转至订单管理页处理。
* 结构化帮助中心:提供完备的新手指引和详细产品文档,帮助用户快速上手。提供即时、多类型的产品公告及告警通知,支持用户进行资产生命周期管理,维持服务正常运行。
云平台运营运维管理:
* 多租户管理:面向多租户,支持系统管理员创建、VPC划分、可用区域限定及租户级别的平台偏好配置。
* 资源运营:从已售资源、库存资源、硬件资源等多个层面统计使用数据,根据水位、利用率等信息辅助运营制定资源管理策略。
* 产品管理:根据售卖策略和营销内容,制定标准单元产品、可售卖产品、产品属性、收费模式及计价策略,实现线上售卖体系的实时调整。
* 财务管理:提供平台级订单、账单、用户账户余额报表,辅助财务核算,帮助运营快速识别租户账务风险,及时对接以减少因余额不足导致的服务中断风险。
* 账户管理:支持面向租户的线下余额汇款、合同包创建及代金券发放功能,为各类营销场景提供可扩展的解决方案。
2) 云监控服务
(1) 概述
3) 云监控服务
(1) 概述
云监控是一个全方位的云资源监控平台,从基础设施、系统服务和运行任务等多个维度,提供监控、可视化和灵活告警等功能,帮助客户全面掌握资源使用情况和业务运行状态,在保障业务持久稳定运行的同时降低运维成本。
(2) 主要功能
云监控服务主要具备以下功能:
- 云资源监控:支持对接多种云产品,便捷查看目标资源的健康状态与各项指标。用户可自定义监控指标,灵活深入了解各类云产品资源状态。
- 日志查询:支持采集多种类型的日志信息,并可根据特定语法规则进行查询。结合其他云服务的监控功能,可丰富查询维度,形成完整的监控闭环,助力快速排查业务异常。
- 快速告警:提供灵活的告警规则配置。当监控数据达到预设阈值时,系统将自动发送报警通知,使用户能及时获知异常、定位原因并进行处理。
- 监控大盘:支持为不同云产品创建专属监控大盘,提供丰富的配置指标和多样化的可视化图表,以清晰直观的方式呈现各云产品的资源状况。
- 事件监控:汇集各云产品的故障和业务异常事件,支持设置告警规则以便快速响应。详细的事件记录有助于关联分析云产品资源问题,并进行排查复盘。
4) 容器镜像服务
(1) 概述
容器镜像服务是为容器镜像、Helm Chart等符合OCI标准的云原生制品提供全生命周期管理的安全托管平台,提供易用可靠的镜像管理功能,助力开发者以更灵活的方式进行AI任务训练。
(2) 主要功能
容器镜像服务主要具备以下功能:
- 全生命周期管理:支持多种原生制品的推送、拉取、清理等全生命周期托管能力,可为镜像添加AI特性标签以便分类管理。
- 多维度安全保障:支持内外网访问控制、镜像安全扫描等功能,保障数据安全及访问合规性。
- 细粒度权限管控:提供容器镜像隔离能力与细粒度的权限管理,支持为不同用户分配相应的访问权限。
- 无缝对接云产品:可无缝对接ACP、CCI和AICL等云产品,为AI训练和应用部署提供个性化的能力支持。
4. 算力中心软件基础平台建设
1) AI开发平台
(1) 概述
基于云原生技术,AI开发平台为开发者提供专业灵活的开发环境及组件,贯穿AI开发全流程。它支持挂载云存储以获取数据与模型,灵活调用集群内不同规模算力进行代码调试、模型训练与迭代,并可链接其他AI服务获取数据管理、模型可视化等丰富功能。AI云开发机提供专业的研发工具、灵活的云计算资源、流畅的开发体验、稳定的访问服务及开放的配置方式,帮助AI开发者更高效、便捷地构建AI应用,助力产业智能化升级。
(2) 逻辑架构

AI云开发机作为面向AI开发者的开发环境,其设计基于底层AI基础设施,旨在实现对资源的灵活使用(如以容器方式进行系统性管理),并确保与存储、网络等依赖组件具有良好的可交互性与可扩展性。
在内部服务设计上,优先考虑AI训练、算法构建所需的GPU/CPU资源及相应计算驱动库,并为开发者预置主流的AI训练框架与算法框架,减少环境构建时间。同时,平台支持用户通过自定义镜像的方式使用TensorFlow、PyTorch、Caffe、MXNet、PaddlePaddle等主流深度学习框架。
考虑到不同开发者的使用习惯及开发工作的复杂性,系统需提供较高的开放权限,允许用户自定义安装所需组件及版本依赖。平台应支持配合多种IDE及Web IDE形式,实现在线或远程登录访问,保障使用的流畅性与稳定性。
此外,系统设计需具备足够的开放性,允许开发者接入多种第三方训练可视化、数据分析等服务,兼容其已有的成熟分析工具。
(3) 主要功能
- 多种资源规格配置:根据AI研发任务的不同需求,灵活选择配置不同CPU/GPU数量、内存规格的云开发环境。
- 预置AI专用镜像:预置AI研发过程中主流、高效的算法、训练框架和组件包,免去繁琐安装,实现开箱即用。
- 生命周期管理:支持对已创建的AI云开发机进行启动、停止等多种操作,按需启用,随时停止,全面掌握开发环境服务状态。
- 云端编码调试:通过浏览器即可快捷访问云端原生IDE功能,进行代码编译调试与模型构建,无需繁琐的基础设施与环境搭建。
- 多种访问接入方式:支持通过本地客户端、多种Web端远程接入访问,同时享受本地稳定开发体验与云端丰富资源。
- 打通AI计算集群:可在云开发机内使用少量资源完成代码调试,并链接AI高性能算力池,发起大规模分布式训练任务,实现极致弹性算力使用。
- 开放Root权限:支持开发人员在AI云开发机内以Root权限配置所需环境及安装组件包,实现开发环境的完全自定义。
- 自定义镜像:支持开发人员在完成环境自定义配置后,将开发机配置和镜像内容保存为镜像快照,用于后续环境恢复或创建新开发机时选择。
AI云开发机详细功能列表

(4) 使用场景
基于上述特性与功能,AI云开发机可满足以下常见应用场景:
* 数据分析处理:基于开发机内置组件,通过交互式编码对数据进行统计分析、格式转换、特征工程等预处理操作。
* AI算法构建:基于开发机内置算法组件与模型,根据业务和落地需求,调整相关网络结构(如backbone、head、neck等)并进行调试。
* AI模型训练:基于开发机内置训练框架和算力资源,对构建的算法发起训练与调参,并可链接AI训练池发起更大规模任务。
* AI模型评测:可基于本地或在线导入的数据集,对已训练模型或开发机内置模型发起评测,调试测试代码。
* AI模型编译:可对训练出的模型进行格式转换,根据目标部署设备与架构,进行算子的编译以及模型的量化、压缩。
2) AI能力平台:模型平台
(1) 概述
模型平台提供科学、系统的企业级模型管理能力,面向大模型全新开发范式,作为核心枢纽打通模型生命周期管理,覆盖从大模型微调、推理到部署应用的全栈式AI开发场景。它帮助企业有效沉淀及共享模型资产,加速AI开发效率,并通过提供公开算法库,助力用户快速开发定制业务模型。
(2) 逻辑架构

AI模型平台的系统设计围绕模型与算法两大核心元素展开。
在模型层面,平台需为开发者训练产出的模型提供系统的生命周期管理,助力模型资产沉淀。同时,为加速AI开发流程,平台应提供主流公开模型与算法,避免开发者从零开始。
在模型与算法类型上,需全面考虑多种AI任务类型,如NLP、CV、多模态、语音等,并提供主流的开发算法(如Llama、Pythia、Llama2等系列的微调算法),以快速支持相应的模型微调任务。
平台的整体使用需综合考虑不同场景和开发者习惯,通过Web界面、CLI工具、Python SDK等多种交互形式,满足用户在模型获取、查看、使用、保存以及算法使用等方面的多维需求。
(3) 主要功能
AI模型平台的功能模块需综合管理用户产出模型与平台预置资源。
- 模型管理:支持托管企业优质模型,以Git方式组织模型文件,配合模型描述Schema实现标准化模型定义与高效的版本管理。
- 公开模型:提供业界先进、高精度的预训练模型,覆盖丰富的任务类型,支持百亿、千亿参数量级的大模型。
- 公开算法:提供微调算法库,覆盖Llama、Pythia等多种主流大模型类型,支持全量微调、LoRA微调等多种方法,提供大模型微调最佳实践。用户通过简单命令即可快速启动微调任务。
- 快速部署验证:
支持用户在浏览检索私有与公开模型的同时,在目标模型详情页快速发起该模型的推理服务部署,以验证其实际落地效果。
AI模型平台详细功能列表

(4) 应用场景
基于上述AI模型平台的设计特性与功能,应满足以下几个常见应用场景的需求。
AI算法选型:
根据业务需求、任务类型等多维度,帮助用户快速定位合适的算法模型,并基于此在云端快速构建开发环境。用户可随时基于已有算法进行模型训练、优化与迭代,无需从零开始开发。
大模型开发范式落地:
提供大模型开放平台,集成大模型自动分块、大文件自动跟踪等能力,并配备多种开发工具,以加速大模型在行业场景中的应用落地。
前沿算法验证:
持续更新与汇集前沿AI算法,并搭配相应的开发环境、计算资源及验证脚本等核心要素,系统性提升AI算法落地与集成验证的效率,全面助力基于前沿算法的应用开发。
AI资产组织沉淀:
沉淀用户的AI模型资产,并提供系统性工具,协助用户管理不同算法、模型版本、适配环境、代码及数据集等核心AI要素,从而提升后续算法的复用与迭代速度。
模型推理服务
(1) 概述
AI模型推理服务是面向大模型的云端推理服务,旨在方便开发者将大模型部署至云端进行推理。它能够帮助用户快速高效地搭建推理服务,提供简洁易用的运维能力,并实现高性价比、高质量的大模型推理服务。
(2) 逻辑架构

模型推理逻辑架构
整体模型推理的系统架构需综合考虑多个层级,包括底层基础设施(硬件)的利用,以及在其上搭建的推理引擎。推理引擎需实现对多种不同硬件的适配与加速,并能对多种类型的模型进行量化、压缩和加速处理。
由于模型推理是对外提供AI应用服务的核心环节,系统设计需充分考虑业务调用的峰谷情况。它应能批量处理大量请求,同时在服务层级,通过动态加载、灵活的算力调度、弹性扩缩容等能力,加强对在线推理服务的系统性管理。
在模型推理的最上层,应具备相应的网络服务与设计,包括对不同网络请求的负载均衡与流量控制、模型推理的身份认证与鉴权,以及支持用户根据实际AI业务需求配置访问白名单的能力。
(3) 主要功能
模型推理平台的能力应承接来自模型平台管理的自主模型和公开模型,并按用户配置持续提供在线服务。其主要功能特性包括:
AI模型推理服务的创建:
为AI开发者提供快捷的推理服务发起功能。用户通过配置硬件资源,选择所需模型、镜像及推理参数,并设置副本数量等信息,即可快速自动创建并生成一个推理服务。这使得AI开发者能够聚焦于模型算法本身,享受便捷、快速的服务实现。
AI推理服务的管理与使用:
针对已创建的推理服务,平台自动生成可用的API接口。用户可对服务进行鉴权配置管理,并基于暴露的API进一步搭建上层AI应用。平台同时提供详细的在线服务请求、性能及调用统计与分析能力。
AI推理服务的弹性伸缩:
考虑到终端用户使用AI推理服务时,典型的AI应用存在访问峰谷。推理服务在实现自动服务化的同时,允许用户根据服务状况和业务逻辑,配置在线推理服务的自动扩缩容策略。
模型推理服务详细功能列表

(4) 应用场景
基于以上设计的AI模型推理服务,应满足以下几个常见应用场景的需求。
前沿模型快速验证:
通过模型推理服务暴露的API,用户可在上层封装为微应用,迅速搭建并验证前沿模型在具体业务场景中的落地效果与潜在交互形式。
行业AI应用落地:
根据行业应用需求,用户可配置业务所依赖模型的自动扩缩容逻辑,并基于模型推理API,在上层封装需要落地的应用业务逻辑,持续为AI应用软件赋能。
5. 算力中心算力软硬件设备类型
1) AI服务器选型
AI服务器主要用于视频与图形处理。结合调研的业务场景与计算性能需求,在考虑先进性与效率性的基础上,综合计算密度、设备性价比、设备功耗等因素,建议采用基于H100 GPU的服务器。
2) 存储设备选型
2.1 文件存储选型
针对用户多、文件数量庞大、存储空间要求高、初始配置容量大等特点,优选分布式文件存储。其天然支持精简配置,存储容量可根据实际使用情况按需增加存储节点。同时,优选具备与云平台联动能力的分布式存储型号,能够以服务化形式让用户在平台上自主申请文件存储资源,并自动化挂载至虚拟机或裸金属服务器。
文件存储推荐采用全对称分布式集群架构,通过全互联、全冗余的组网机制,实现存储系统节点的全局统一命名空间,允许系统中任何节点并发访问整个系统的任何文件。此外,应支持文件内的细粒度全局锁,提供从多个节点并发访问同一文件不同区域的能力,实现高并发读写,最终达到高性能访问。
分布式架构应支持节点动态扩展,业务不中断。随着节点数增加,存储容量和计算能力线性增长,最终为用户提供线性递增的带宽与并发数。同时,系统需支持NFS、CIFS、NDMP、FTP等多种协议接口,一个系统承载多业务应用,实现数据的全生命周期管理。通过插件化的应用特性组合,在基础架构上加载不同特性以满足多方面需求,并对同一基础架构上不同应用间的数据进行统一调度管理。
2.2 对象存储选型
对象存储兼具块存储的高速直接访问特点及文件存储的分布式共享特点,是一种可存储文档、图片、影音视频等非结构化数据的云存储服务,提供海量、安全、高可靠、低成本的数据存储能力。
对象存储推荐采用分布式部署。接入节点以集群方式组网,任何服务请求均可通过负载分担机制由任一接入节点提供服务,不存在传统存储因状态同步、锁定机制导致的接入节点数目扩展瓶颈。因此,接入节点集群内的节点数目理论上可无限扩展,支撑容量线性增长,不存在架构瓶颈。
通过系统自动负载均衡、元数据多级缓存和特有的小对象聚合技术,使得对象存储的单桶能够支持高达20000 TPS和100亿对象,充分满足客户业务应用对单桶读写性能的诉求,免除分桶改造的麻烦。
分布式对象存储的扩展性具备以下特点:
1. 快速负载均衡:扩容存储节点后无需进行大量数据搬迁,系统可快速达到负载均衡状态。
2. 灵活的扩容方式:可独立扩容计算节点、硬盘、存储节点,或同时进行扩容。
3. 性能线性增长:机头、存储带宽和缓存均匀分布到各个节点,系统TPS、吞吐量和缓存随节点扩容而线性增加。
3) 网络设备选型
遵循适用性与先进性相结合的原则。不同品牌的交换机产品价格与功能差异较大,选型时不应仅看品牌或追求高价,也不应只看低价,而应根据实际应用情况,选择性价比高、既能满足当前需求又能适应未来几年网络发展的产品。
遵循选择市场主流产品的原则。应选择在市场上占有相当份额、具备高性能、高可靠性、高安全性、高可扩展性及高可维护性的交换机产品。
遵循安全可靠的原则。交换机的安全性直接决定网络系统的安全,这一点在选型时至关重要。交换机的安全性主要体现在VLAN划分、访问控制列表等过滤技术上。
6. 配套基础设施建设方案
1) 机房建设总体要求
(1) 规范性原则
投标机房在规划、设计、建设过程中,应符合国家标准《数据中心设计规范》(GB50174)的相关规定,机房等级应不低于国标A级同级水平。
(2) 可靠性原则
投标机房应具备抵御地震、火灾、水害、鼠虫害等自然灾害的能力,并确保电力供应及空调运行的稳定性和连续性。投标机房整体可用性必须达到99.99%以上(即全年不可用时间不超过1.6小时)。
(3) 可扩展性原则
考虑到租用期间业务发展的需要,在机房的场地面积、电力容量、空调容量、通讯能力等基础设施的各个方面,都应预留足够的余量并具备可扩充的灵活性。
(4) 独立性原则
保证所租用区域为本项目专用,与其他用户区域或其他功能区实现物理隔离,避免相互影响。
2) 机房机柜具体规范要求
(1) 机柜技术要求

(2) 机房技术要求

(3) 机房服务要求

(4) 网络线路要求
所有线路均为独享带宽,以保证网络通畅。应支持多种专线类型(如SDH、MSTP、光纤等),除需遵循国家及地方相关标准规范外,不对线路的规格、数量、容量及接入方式进行限制。
(5) 静态互联网链路要求

3) 机房总体需求
机房用电需求:
机房其他设备需求:
4) 机房环境配套采购清单

(三) 运营模式
智算云(重庆)科技有限公司是一家由重庆市南岸区政府牵头,与商汤科技共同出资建立的合资公司。公司依托商汤科技深厚的学术积累与全栈式人工智能能力,在南岸区重庆经开区建设并运营重庆人工智能计算中心。该中心的长期规划是为政府、产业、高校及科研院所等提供前沿的科技创新与行业应用孵化底座,助力实现财务数字化服务、生活智慧化运用、企业智能化升级和教育前瞻性培育。
项目建成后,该智算中心将被纳入商汤科技的全国算力一体化调度网络,实现高效的算力资源调度与使用。
二、项目对区域的价值体现
(一) 建设智算中心,为医疗及大健康行业全面赋能
智算中心对医疗及大健康领域的价值主要体现在以下几个方面:
- 提升医疗服务效率与质量:通过提供强大的算力支持,高效处理和分析医疗健康数据,优化资源配置,提升疾病预防、治疗和健康管理能力。
- 支持智慧医疗应用:为手术机器人、远程医疗、可穿戴设备、电子病历等应用提供算力支撑,通过处理海量数据,提供更精准、个性化的诊疗建议。
- 促进医疗科研与药物研发:提升基因测序的精准性与新药研发效率,加速生物医药领域的科研进程。
- 推动医疗数字化转型:作为核心驱动力,运用先进算法与模型,从海量数据中提取价值信息,推动行业数字化与智慧化转型。
- 支持医共体建设:通过算力支持,助力医共体实现数据共享、远程医疗、智能诊断等功能,提升基层医疗服务能力。
- 促进医疗AI规模化应用:为医疗AI的训练与应用提供丰富的场景与数据支撑,加速其规模化落地,提升服务效率与质量。
- 助力医保支付方式改革:支持按人头付费、按病种付费等创新支付方式的实施,提高医保基金使用效率。
(二) 聚焦区域,辐射周边,带动区域整体AI产业发展
- 推动区域经济发展:作为新型基础设施,吸引高科技企业与人才集聚,促进就业与产业升级,加速数字经济发展。
- 促进科技创新:为人工智能、大数据等技术的研发与应用提供算力支持,推动科技创新与产业转型。
- 提升公共服务水平:为政府、企业及公众提供高效、智能的数据处理与分析服务,提高公共服务质量与效率。
- 加强区域协同发展:有助于构建区域算力网络,促进资源共享与优势互补,加强区域间经济与科技合作。
- 支持绿色低碳发展:采用先进节能技术与管理措施,降低能耗与碳排放,支持可持续发展。
- 增强区域竞争力:提升区域的科技实力与创新能力,增强其在更广范围内的竞争力。
- 促进产业集群形成:吸引产业链上下游企业集聚,形成产业集群,推动区域经济集约化与规模化发展。
- 促进区域经济均衡发展:带动数据中心资源丰富地区的经济发展与就业,促进区域经济均衡。
- 推动教育与人才培养:与高校及研究机构合作,提供实践平台与资源,促进教育创新与人才培养。
- 加强区域品牌建设:提升区域知名度与影响力,通过算力网络连接,带动整个区域的数字化转型与经济发展。
(三) 依托区域算力中心能力,持续为其他产业提供算力服务
- 推动工业AI化:提供必要的算力、数据及算法服务,为人工智能应用提供基础支撑,推动工业智能化转型。
- 促进技术创新与研发:加速需要大规模计算的科研与技术研发,如生物科学、设计制造等领域。
- 支持智慧城市建设:为城市管理、公共安全、环境监测等领域提供强大的数据支持与智能分析,提升治理智能化水平。
- 赋能自动驾驶与智能交通:为自动驾驶技术的研发与实施提供关键算力,推动智能交通系统发展。
- 促进文娱创作与数字内容生产:支持AIGC(人工智能生成内容)等应用,推动数字内容生产的创新与发展。
- 提升政府治理能力:为政府提供决策支持与商业洞察,提升政府治理的现代化水平。
智算中心将持续为智慧城市、工业、交通、文旅、建筑等行业提供算力服务。如果说人工智能是当今行业创新发展的新驱动力,那么智算中心就是支撑这一驱动力的新基石。
附件:项目主要设备清单


- 2025 全球独角兽 500 强榜单发布:SpaceX、字节跳动、OpenAI 位列前三,中国 150 家企业入选
- AI 算力产业链深度研究报告 (2026)
- 阿里千问 APP 上线全新 AI Agent 功能:核心技术与架构深度分析 (2026)
- CES 2026 后英伟达 Rubin 架构及供应链(存储/互联/液冷)变化解读
- 中国液冷服务器及产业链市场深度洞察 (2026)
- 技术迭代与资本分野:AI 大模型行业的 2026 新生态
- 国内外人形机器人出货量排名深度洞察 (2026)
- NVIDIA 推出用于物理 AI 的全新开放模型、框架和 AI 基础设施深度洞察
- 工信部印发《推动工业互联网平台高质量发展行动方案 (2026-2028年)》深度洞察
- 英伟达最新 Rubin 平台 AI 计算架构及产业链深度剖析 (2026)
- 2025 信创产业发展趋势及 50 强报告
- AI 基础设施之通信篇深度洞察 (2026)
- 马斯克:3 年内机器人超越顶尖医生深度洞察 (2026)
-
英伟达开源 Alpamayo 全新自动驾驶汽车大模型深度洞察
-
万亿空间!加速起飞!中国企业级AI应用行业发展深度洞察!2026
- 突发!百万亿规模!工信部印发《工业互联网和人工智能融合赋能行动方案》深度洞察!2026
- 突发!百万亿规模!CES 2026 英伟达扔出3枚重磅“炸弹”之深度洞察!
- 开年大戏,AI存储持续涨价的背景下产业链投资策略深度洞察!2026
- 万亿规模!面向2026!大模型和AI芯片发展战略方向趋势预测!2026
- 突发!开源!清华大学发布视频生成加速框架 TurboDiffusion!AI 视频生成进入“秒级”新时代!
- 突发!Meta数十亿美元收购Manus背后的战略棋局深度洞察!2026
- 新年巨献!AI原生基础设施实践解决方案白皮书!2026
- 突发!上不封顶!新年第一天,互联网头部大厂年终奖之深度揭秘!2026
- 最新!独家发布!面向智算的算力原生白皮书 2026!
- 年终巨献!中国AIDC储能行业核心技术和产业链发展深度洞察!2026
- 年终巨献!未来百万亿十大赛道深度洞察!2026
- 万亿市场!国产GPU四小龙核心技术路线及市场深度洞察!2026
- 最新!独家发布!面向AI自动驾驶的车联网架构技术白皮书(2026)
- 最新!独家发布!AI大模型的智算中心网络白皮书(2026年)
- 最新!AI算力中心GPU集群智能算力管控调度解决方案!2026
- 突发!万亿规模起飞!中国太空算力战略部署深度研究报告!2026
- 万亿空间!央国企AI数智化转型解决方案白皮书!2026
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19923
