-
阿里Qwen3.5-27B深度评测:理科思维突出,文档处理与逻辑推理是亮点,艺术创作待提升
阿里近期推出了Qwen3.5-27B模型,作为Qwen3.5系列中的中型主力版本,它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何?以下是本次评测的核心结论。 核心结论: 三大亮点: OCR与文档理解能力出色: 在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准,效果优于部分更大参数的模型。 空间逻辑与数学推理能力强: 在立体…
-
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减
当前主流的搜索智能体(Agent)普遍存在一个效率瓶颈:其执行流程是严格串行的。以广泛采用的ReAct框架为例,其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下,模型在等待搜索引擎返回结果时完全处于空闲状态,造成了大量的时间浪费。多轮交互中,延迟不断累积,严重影响了用户体验。 研究团队通过分析发现,在多跳问答等复杂任务中,这种“干等”的串行…
-
对话九合王啸:90%具身智能公司没未来,市场名额只有三五家
2026年初,具身智能赛道再度涌入大量资本。 在喧嚣的资本浪潮中,能够做出专业判断、锚定长期趋势的投资人屈指可数,王啸是其中之一。 在人工智能尚未成为风口的十余年前,他便带领九合创投布局AI相关领域。当大模型底层框架还未成为行业焦点时,他投资了一流科技,其研发的OneFlow后来成为世界首个面向大模型大数据的人工智能计算框架。在具身智能仍是创投圈小众话题时,…
-
GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍
Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。 近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式…
-
开源桌面虚拟同事Open Cowork:让AI像人一样操作电脑,实现任务闭环
当 AI 智能体逐渐走出对话框,真正的挑战已不再是“回答得多聪明”,而是能否像人一样完成任务的闭环:看懂屏幕、点击按钮、填写表单、整理文件、生成交付物,并将结果同步回团队协作系统。 我们开源的 Open Cowork,正是一次面向“桌面端虚拟同事”的实践。它支持一键安装、无需编写代码,让模型在安全沙箱中操作你的工作空间,既能生成 PPT、Word、Excel…
-
AI智能体自主发朋友圈引热议!复旦大学开源通用智能体GenericAgent,开启数字生命新纪元
最近,复旦大学肖仰华教授的朋友圈引起了热议。其团队在研发测试的AI智能体通过自主学习,掌握了操作微信的能力,不仅能在朋友圈发布消息,还能与好友在评论区自主互动。这种自然的互动方式,甚至让一些好友开始要求“证明你真的是肖老师,而不是他的AI”。 这种“分不清真人与AI”的错觉,源于A3实验室(Advantage AI Agent实验室,由深圳夸夸菁领科技有限公…
-
阿里开源OpenSandbox:AI智能体的生产级沙盒来了,支持多语言、K8s原生部署
沙盒已成为智能体开发的关键基础设施。近期,阿里巴巴开源了其生产级沙盒解决方案——OpenSandbox。 该平台的核心目标是确保不可信代码的安全执行。它提供了统一的多语言 SDK 接口,支持 Python、Java、JavaScript、C# 等主流编程语言。底层同时兼容 Docker 与 Kubernetes 运行时环境,既便于本地快速测试,也能无缝部署至…
-
Agentic RAG实战指南:六种模式解析与生产级应用
用真实生产取舍解释六种 Agentic RAG 模式 大多数 RAG 演示在理想环境下运行良好,但一旦面对真实用户,问题便接踵而至:检索到无关上下文、浪费大量 tokens,却依然无法避免幻觉。问题的根源往往不在于模型或检索算法本身。 而在于传统 RAG 对所有查询都采用千篇一律的处理方式。 Agentic RAG 改变了这一范式。系统不再机械地执行检索,而…
-
阿里重磅开源Copaw:2026年AI智能助手格局或将重塑
2026年2月28日,阿里云官方宣布,由阿里巴巴AgentScope团队自主研发的桌面级AI智能助手Copaw正式开源,其GitHub仓库与官方文档同步上线。 此举打破了国内高端AI智能助手长期存在的闭源格局,并以“低门槛部署、高可扩展性、全场景适配”为核心特点,为个人与企业级AI智能体的发展提供了新的路径。作为阿里在AI Agent领域的关键布局,Copa…
-
Context Engineering:2026年真正重要的6种技术(完整指南)
Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…