• 谷歌Gemini 3.2 Flash静默上线,编码能力飙升5倍,单次生成2200行代码手搓Windows 98

    I/O 大会近在眼前,谷歌再也藏不住了。 就在刚刚,Gemini 3.2 Flash 无声无息地「上线」,被全球开发者逮了个正着。 AI 领域的专家们只是在 Gemini 网页端选择了「Fast 模式 + Canvas」,便触发了一个完全不同的模型。 不仅如此,在 Gemini 应用端,还灰度测试了「思考层级」功能。 最令人震撼的,是 Gemini 3.2 …

    1天前
    16200
  • MoE训练效率杀手!字节跳动UniEP用MegaKernel技术实现1.38倍加速,数值一致性不妥协

    “MoE专用组件(涵盖分发、专家计算与合并环节)可能消耗掉总训练预算的30%至80%。”这一数据在论文中尤为触目惊心,也精准点出了整个大模型训练行业所面临的共同难题。 随着GPU算力呈指数级跃升,互连带宽的增长速度已远远落后,通信瓶颈正逐渐演变为制约大模型训练效率的核心障碍。 专家并行作为MoE模型训练的标准分布式方案,尽管解决了专家参数的存储与计算难题,却…

    大模型训练 1天前
    6000
  • 马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

    月初,OpenAI的两大对手Anthropic和马斯克终于放下分歧,正式结盟。在此之前,双方关系紧张:今年2月,马斯克在X账号上指责Anthropic“觉醒”“邪恶”“反人类”,称其“仇视文明”。 事后看,这次攻击并非马斯克个性使然,而是Anthropic的某些做法触及了他的底线。此前,xAI内部使用Cursor工作,但年初员工发现,Claude模型在xAI…

    1天前
    7800
  • 4个开源AI工具让你本地部署深度研究、金融Agent、编程记忆和神经集群

    OpenAI 的 Deep Research 功能虽然强大,但所有数据都必须经过其服务器处理。对于隐私要求较高的场景,一个能在本地运行、无需联网的替代方案显得尤为重要。 Local Deep Research 正是为此而生。 借助 Qwen3.6-27B 模型,单张 RTX 3090 显卡即可运行,在 SimpleQA 测试中达到了 95.7% 的准确率。这…

    1天前
    17400
  • 6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

    消费级机器人行业,或许即将迎来一次真正的代际变革。 过去几年里,市面上涌现了大量机器狗:它们能跑、能跳、能翻跟头。但一个核心问题始终未被解决。 这些机器人在很多情况下,其实看不清、听不准,也思考不透彻。 行业的主流配置,依然停留在200万像素摄像头、16线激光雷达和单芯片算力架构上。 机器人虽然能“动”,但距离真正“理解”世界,始终差着关键一步。 直到最近,…

    1天前
    18300
  • 告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

    生成模型的偏好对齐,或许正迈入一个全新的阶段。 在过去的几年里,大模型后训练(post-training)的主流方法,是让模型从“成对偏好”中学习。然而,无论是RLHF还是DPO,都面临一个共同的制约:反馈必须以成对形式出现。 但在现实应用场景中,反馈信号大多是针对单个样本的标量分数。 针对这一痛点,新加坡国立大学的研究团队提出了一种更直接的解决方案:Thr…

    1天前
    7600
  • 告别底层算子烦恼:Hugging Face Kernel Hub让CUDA、Metal内核像模型一样即插即用,推理加速触手可及

    在大型模型系统中,性能瓶颈往往并非源自模型架构本身,而是隐藏在那些看似微不足道的底层算子中。激活函数的融合操作、KV Cache的访问、4-bit权重的量化与反量化——这些细节决定了GPU或Apple Silicon能否真正发挥其全部潜力。 过去,这些高性能计算内核分散在vLLM、FlashAttention、bitsandbytes、MLX、Triton等…

    开源项目 1天前
    5800
  • 清华团队提出ViT³:用深度学习革新序列建模,线性复杂度超越Transformer

    序列建模是大语言模型与计算机视觉等领域的核心基础问题。目前广泛采用的Transformer模型,其计算复杂度会随序列长度呈平方级增长,这在处理长序列任务时带来了显著的计算瓶颈。因此,学术界一直在积极探索具备线性计算复杂度的高效序列建模新方法。 测试时训练(Test-Time Training,TTT)模型作为一种新兴的序列建模范式,将注意力操作重新定义为在线…

    1天前
    6600
  • LLM真的理解语言吗?字节跳动揭秘大模型工作机制与能力边界

    我们每天都在与大语言模型(LLM)打交道。一个直观的感受是,它们似乎真的能听懂我们在说什么,尽管偶尔也会出现“幻觉”。更令人惊叹的是,当观察LLM输出的“思维链”(即其推理过程的语言表达)时,我们甚至会感到它们仿佛拥有了类似人类的思考能力。 近期,字节跳动的李航、张少华、林苑发表了一篇研究论文,深入探讨了以下核心问题:LLM所具备的语言理解和思考能力,其本质…

    1天前
    12400
  • Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

    当前,AI Agent 正进入大规模部署阶段,其中应用范围最广、关注度最高的当属 Claude Code、Codex、Cursor 这类编码智能体。过去一年里,这类产品迭代迅猛,在 SWE-bench-verified 基准上的准确率在一年内提升到了 78% 以上。 然而,与简单的代码推理或代码相关的对话任务相比,编码智能体的 Token 消耗量极为惊人。在…

    1天前
    14300
点击查看更多