-
置顶 阿里Qwen 3.5震撼开源:架构革新登顶全球最强,原生多模态重塑AI格局
2026年2月16日,除夕佳节之际,阿里巴巴正式发布全新一代开源大模型千问Qwen 3.5。其Plus版本一经亮相便登顶全球最强开源模型,性能直接媲美闭源第一梯队的Gemini 3 Pro,并在多项权威基准测试中实现超越。 这场新春时节的“技术突袭”,不仅标志着阿里在大模型领域完成了从纯文本到原生多模态的代际跃迁,更以极致的效率与性价比,重构了全球开源大模型…
-
置顶 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破
谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍 谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。 根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。 新模型还能将日常数据转化为互…
-
Agent Skill框架赋能小语言模型:12B模型技能选择准确率逼近90%,算力成本降低50%
关键词:Agent Skill 框架、小语言模型、上下文工程、工业应用、GPU 效率 近年来,以 GitHub Copilot、LangChain 等为代表的 Agent Skill 框架已成为大语言模型应用的重要范式。该框架通过精心设计的“静态技能库”,让模型在推理过程中渐进式地获取相关技能上下文,从而有效减少幻觉、提升工具使用的准确性。 然而,这一范式高…
-
Co-rewarding:突破自监督RL瓶颈,无标注数据下稳定诱导大模型推理能力
本文介绍的工作来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数…
-
FlowPrefill:突破LLM推理瓶颈,算子级抢占实现5.6倍吞吐提升与严格SLO保障
关键词: LLM 服务系统 、预填充、 队头阻塞 、 _ SLO 感知调度_ 、 算子级抢占 、事件驱动调度 当我们正在使用一个智能聊天机器人,输入了一个简短的问题,满怀期待地等待回复。然而, 由于服务器正在处理一个长篇文档总结任务,请求被堵在后面,迟迟得不到响应,眼睁睁看着“正在输入”的提示转个不停 。这种体验像极了早高峰堵车——一辆大货车慢悠悠地走在前面…
-
华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%
「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」 开源完整自动化数据构建算法 构建 1655 个高可靠 CLI 任务环境镜像 通过 291 条轨迹数据带来 20% 解决率提升 在 Agentic Coding 领域,基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中,业界涌现了大量相关工作,例如 …
-
MiniMax M2.5引爆AI需求:周调用量破3T,开源Agent生态全面接入
这个春节,MiniMax 杀疯了。 2 月 20 日,港股马年首个交易日,MiniMax 收盘股价报涨 14.52%,市值一度冲破 3042 亿港元。 这轮上涨并非只是资本市场的情绪宣泄。 过去两年,AI 行业的叙事几乎集中在供给侧,比如更强的模型、更快的芯片、更大的数据中心。然而,制约 AI 产业规模化落地的,除了供给侧的能力上限外,还有大量长期憋着、始终…
-
COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩
为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…
-
智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启
GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。 论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。 正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(…
-
AI Agent 工作流革命:三大开源神器让非技术用户也能轻松驾驭智能自动化
让不懂代码的人也能玩转 AI 工作流 n8n 这类工作流自动化工具虽然强大,但对于非技术用户而言,学习成本较高。光是理解各种节点的配置与连接方式,就需要花费不少时间。 近期在 GitHub 上发现了一个名为 Refly.AI 的开源项目,它自称是全球首个 Vibe Workflow 平台,专为非技术创作者设计,是一个用于构建 AI Agent 技能的神器。 …