• 马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

    月初,OpenAI的两大对手Anthropic和马斯克终于放下分歧,正式结盟。在此之前,双方关系紧张:今年2月,马斯克在X账号上指责Anthropic“觉醒”“邪恶”“反人类”,称其“仇视文明”。 事后看,这次攻击并非马斯克个性使然,而是Anthropic的某些做法触及了他的底线。此前,xAI内部使用Cursor工作,但年初员工发现,Claude模型在xAI…

    29分钟前
    300
  • 4个开源AI工具让你本地部署深度研究、金融Agent、编程记忆和神经集群

    OpenAI 的 Deep Research 功能虽然强大,但所有数据都必须经过其服务器处理。对于隐私要求较高的场景,一个能在本地运行、无需联网的替代方案显得尤为重要。 Local Deep Research 正是为此而生。 借助 Qwen3.6-27B 模型,单张 RTX 3090 显卡即可运行,在 SimpleQA 测试中达到了 95.7% 的准确率。这…

    13小时前
    12500
  • 6600万像素、70亿参数端侧运行,这款四足机器人把感知拉到人眼之上

    消费级机器人行业,或许即将迎来一次真正的代际变革。 过去几年里,市面上涌现了大量机器狗:它们能跑、能跳、能翻跟头。但一个核心问题始终未被解决。 这些机器人在很多情况下,其实看不清、听不准,也思考不透彻。 行业的主流配置,依然停留在200万像素摄像头、16线激光雷达和单芯片算力架构上。 机器人虽然能“动”,但距离真正“理解”世界,始终差着关键一步。 直到最近,…

    13小时前
    9300
  • 告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

    生成模型的偏好对齐,或许正迈入一个全新的阶段。 在过去的几年里,大模型后训练(post-training)的主流方法,是让模型从“成对偏好”中学习。然而,无论是RLHF还是DPO,都面临一个共同的制约:反馈必须以成对形式出现。 但在现实应用场景中,反馈信号大多是针对单个样本的标量分数。 针对这一痛点,新加坡国立大学的研究团队提出了一种更直接的解决方案:Thr…

    14小时前
    3900
  • 告别底层算子烦恼:Hugging Face Kernel Hub让CUDA、Metal内核像模型一样即插即用,推理加速触手可及

    在大型模型系统中,性能瓶颈往往并非源自模型架构本身,而是隐藏在那些看似微不足道的底层算子中。激活函数的融合操作、KV Cache的访问、4-bit权重的量化与反量化——这些细节决定了GPU或Apple Silicon能否真正发挥其全部潜力。 过去,这些高性能计算内核分散在vLLM、FlashAttention、bitsandbytes、MLX、Triton等…

    开源项目 14小时前
    3600
  • 清华团队提出ViT³:用深度学习革新序列建模,线性复杂度超越Transformer

    序列建模是大语言模型与计算机视觉等领域的核心基础问题。目前广泛采用的Transformer模型,其计算复杂度会随序列长度呈平方级增长,这在处理长序列任务时带来了显著的计算瓶颈。因此,学术界一直在积极探索具备线性计算复杂度的高效序列建模新方法。 测试时训练(Test-Time Training,TTT)模型作为一种新兴的序列建模范式,将注意力操作重新定义为在线…

    14小时前
    4000
  • LLM真的理解语言吗?字节跳动揭秘大模型工作机制与能力边界

    我们每天都在与大语言模型(LLM)打交道。一个直观的感受是,它们似乎真的能听懂我们在说什么,尽管偶尔也会出现“幻觉”。更令人惊叹的是,当观察LLM输出的“思维链”(即其推理过程的语言表达)时,我们甚至会感到它们仿佛拥有了类似人类的思考能力。 近期,字节跳动的李航、张少华、林苑发表了一篇研究论文,深入探讨了以下核心问题:LLM所具备的语言理解和思考能力,其本质…

    14小时前
    7900
  • Coding Agent烧钱真相:Token消耗暴涨,但花得越多未必做得越好

    当前,AI Agent 正进入大规模部署阶段,其中应用范围最广、关注度最高的当属 Claude Code、Codex、Cursor 这类编码智能体。过去一年里,这类产品迭代迅猛,在 SWE-bench-verified 基准上的准确率在一年内提升到了 78% 以上。 然而,与简单的代码推理或代码相关的对话任务相比,编码智能体的 Token 消耗量极为惊人。在…

    22小时前
    10600
  • 用Claude Code写论文?这个开源项目把整套流水线打包了,学生党狂喜

    用Claude Code写论文?这个开源项目把整套流水线打包了,学生党狂喜 用Claude Code撰写论文的完整工作流,已经有人开源打包了。 这完全戳中了学生群体的核心痛点,GitHub星标数已飙升至6.4k。 项目名为academic-research-skills(以下简称ARS),是一套专门为Claude Code设计的技能包。 它内置了4个核心技能…

    22小时前
    6800
  • 部署时学习:让LLM Agent在真实任务流中持续进化

    当大型语言模型代理(LLM Agent)步入真实世界应用场景时,它面对的已不再是静态的、一次性完成的测试数据集,而是源源不断、持续抵达的任务流。 每一次工具调用、代码执行、网页搜索或任务完成,都会随之产生反馈信号:操作是成功还是失败?收集到的证据是否充足?所选工具是否恰当?这些在部署阶段自然涌现的信号,能否反过来成为代理自我优化的养分? 研究团队的最新成果提…

    22小时前
    5100
点击查看更多