软硬一体：讯飞星火X1.5引领国产大模型进入物理世界的新纪元

2025年11月6日下午10:23 • AI产业动态 • 阅读 298

在人工智能技术飞速发展的今天，全球科技巨头们正围绕云端算法展开激烈竞争。然而，中国科技企业科大讯飞却选择了一条截然不同的道路——通过软硬一体的创新策略，让AI真正走出数据中心，进入复杂的物理世界。这一战略的核心成果，便是基于全国产算力训练的讯飞星火X1.5大模型及其配套的硬件生态系统。

讯飞星火X1.5的发布标志着国产大模型技术的重要突破。该模型基于MoE（专家混合）架构，总参数达到293B，激活参数为30B。最引人注目的是其推理效率相较于上一代提升了100%，这一飞跃不仅体现在处理速度上，更反映在数学能力等多个国际权威评测基准中的领先表现。讯飞攻克了长思维链强化学习训练效率和MoE模型全链路训练效率两大技术难题，为国产算力训练通用大模型扫清了障碍。

与此同时，讯飞全球首发的非自回归语音大模型架构展现了其在音频处理领域的深厚积累。该架构不仅将效果提升了16%，更将推理成本降低了520%，这一突破性进展为语音AI的大规模应用奠定了坚实基础。

从DeepSeek的横空出世到OpenAI的GPT-5，全球AI竞赛持续白热化。技术的迅猛发展推动AI从探索阶段走向实际落地的关键时刻。科大讯飞董事长刘庆峰提出的AI红利兑现四大核心——自主可控、软硬一体、行业纵深和个性化——为行业发展指明了方向。其中，软硬一体被视为AI进入物理世界的关键门票。

AI的上半场是对话革命和算法狂欢，云端大模型在封闭环境中表现出色。然而，当这些“智能大脑”试图进入真实物理世界时，却面临巨大挑战。现实世界充满噪音、远场指令、模糊口音、多人对话等复杂信号，纯软件模型在处理这些场景时往往力不从心。讯飞通过在全国产平台上深度对接硬件能力与大模型，为AI赋予了感知物理世界的“超级感官”。

以智能语音起家的科大讯飞，将其硬件能力重塑为未来AI的基石。人类感知世界依赖听、说、看，而AI算法必须遵循声学与光学规律。在“听”的方面，讯飞原创的多型麦克风阵列通过AI测算和动态调节，实现了语音属性解耦、信号时空分离、声源精准定位、自适应降噪等关键技术。

应用该技术的讯飞智能办公本X5，在高噪远场识别效果上超越了iPhone17 Pro。

在“说”的领域，讯飞AI翻译耳机在嘈杂环境中的识别准确率达到97.1%，首创的多感融合AI降噪系统通过软硬件结合提升了降噪效果。更令人惊叹的是，双屏翻译机2.0的强降噪功能可以形成“穹顶式隔音墙”，有效隔离1米外的噪声。

讯飞还打造了业界首个同传麦克风，实现实时同传翻译且时延低于2秒。

AI+扬声器阵列技术实现了立体空间声场重构和均衡，应用于智能座舱声场的iFLYSOUND已在19家车企量产，其音响效果在盲测中媲美高端豪车。

教育领域，讯飞AI黑板让教室每个座位都成为“C位”，10米距离声压差≤3分贝，配合全球首款圆偏类自然光护眼大屏，提升了教学体验。AI学习机则通过算法纠正坐姿，将护眼功能最大化。

在“看”的方面，自研AI摄像头阵列实现了目标的精准识别和跟随。

这些硬件能力并非孤立存在，而是与AI原生绑定，形成统一的“超级感官”系统。从智能屏摄像头到AI学习机，从随身耳机到车载音响，讯飞的硬件为AI量身定制，为未来具身智能融入社会奠定了物理基础。

传统虚拟AI形象之所以难以融入生活，关键在于缺乏多模态交互能力。讯飞基于星火X1.5深度推理模型，首发了个性化记忆能力，通过多源记忆库信息检索和应用，实现个人记忆的识别、提取和更新。现场演示中，虚拟人“小飞”能够识别新朋友并自动切换语种，在多人对话中理解场景，展现了有记忆、有情感、有温度的交互能力。