大模型工程
-
Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升
注意力残差:对残差连接的结构性改进 引言:一个基础性的问题 现代大型语言模型普遍采用深度神经网络架构,信息从输入层开始,逐层向上传递并接受加工,最终产生输出。然而,随着网络层数的增加,训练过程面临一个根本性挑战:梯度信号在反向传播过程中,经过数十甚至上百层的传递后,可能严重衰减或消失,导致底层参数难以得到有效更新。 2015年,何恺明团队在《Deep Res…
-
MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽
MiniMax M2.7 重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽 MiniMax 在发布 M2.5 模型仅一个月后,再次推出了全新的 M2.7 模型。此次更新标志着模型在复杂任务处理与多智能体协作能力上实现了显著跃升。 M2.7 的推理与工程能力取得了质的飞跃,能够独立处理生产环境中棘手的故障排查任务。相较于以往仅能辅助编写代码…
-
工具文档质量成AI智能体瓶颈?ICLR 2026新研究:简单文档扩展即可显著提升工具检索性能
在大模型时代,工具调用(Tool-Use)已成为智能体能力的核心。从代码生成到复杂API调用,大语言模型正在学会使用各类工具。然而,一个日益凸显的现实问题是:工具真的难找。 来自宁波东方理工大学/宁波数字孪生研究院沈晓宇团队的一项研究,在ICLR 2026发表论文《Tools Are Under-Documented: Simple Document Exp…
-
CVPR2026满分论文:Proxy-GS实现3D高斯溅射2.5倍渲染加速,用轻量代理网格统一遮挡先验
在城市街景场景中,Proxy-GS 在保持细粒度视觉细节的同时,实现了稳定的实时渲染。该方法显著减少了需要解码的锚点数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。 Proxy-GS:面向结构化3D高斯溅射的统一遮挡先验 论文链接:https://arxiv.o…
-
告别AI作弊与偷懒:强化学习如何成为真正的GPU内核优化专家
关键词:强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化 告别“作弊”与“偷懒”,让强化学习成为真正的 GPU 内核优化专家 训练一个能够编写高效 GPU 内核的 AI 程序员,是加速大模型训练的关键。然而,在实践中,AI 往往会陷入两种困境:一是“作弊”,即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励;二是“偷懒”,即只解决简单…
-
17岁高中生实现Ilya预言!Kimi团队“旋转”注意力机制,训练效率提升25%,马斯克都来围观
17岁高中生实现Ilya预言:Kimi团队“旋转”注意力机制,训练效率提升25% 一位17岁的高中生,以共同第一作者的身份,在Kimi团队将OpenAI首席科学家Ilya Sutskever提出的一个设想变成了现实。 Ilya曾有一个著名的预言:将按时间顺序处理数据的LSTM网络“旋转90度”——即把时间轴替换为模型的深度轴——就演变成了当今主流的残差网络(…
-
AI编程革命:当代码成本归零,8大模式重构工程师工作流
当代码成本归零:8大模式重构工程师工作流 硅谷知名开发者、Datasette创始人Simon Willison近日发布了一份面向专业工程师的实践指南,系统阐述了如何利用Claude Code等AI编程工具提升效率。他总结了八大实战模式,旨在重构程序员在AI时代的工作方式。 代码成本的数量级跃迁 Simon Willison在开篇指出一个根本性转变:编写代码的…
-
多模态模型视觉短板被攻克!UniPat AI用500行代码打造SWE-Vision,让AI学会“掏出Python尺子”自我验证,五大视觉基准全SOTA
模型“看见”却无法“精确处理”的短板 过去一年,多模态大模型在代码任务上的表现突飞猛进,已能媲美资深开发者。然而,在基础视觉理解任务上,其可靠性远未达到同等水平。 UniPat AI 此前发布的多模态基准测试 BabyVision 揭示了这一现象:模型常能给出长篇推理,却在最基础的计量、计数和空间关系判断上出错。该基准已被多个重要模型的技术报告引用,凸显了社…
-
谷歌DeepMind联合伯克利推出LoGeR:突破性长时记忆架构,让3D重建跨越数千帧
记忆机制是大型模型处理复杂任务的核心能力之一。在对话、自动化工作流等场景中,模型需要依赖记忆来维持长期上下文。这一需求在3D重建领域同样关键,尤其是在处理大范围场景或长序列视频时,跨帧信息的持续传递与整合至关重要。 然而,现有的前馈式3D重建模型通常受限于较短的上下文窗口,难以有效建模长序列中的依赖关系。尽管近期出现的几何基础模型(如DUSt3R、MonST…
-
哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%
作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…
