大模型推理
-
颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达
造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …
-
谷歌Gemini 3.1 Pro震撼发布:百万Token上下文、全领域SOTA刷新、SVG生成王者,价格不变性能翻倍
今天凌晨,谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA(State-of-the-Art)记录,实现了推理能力的大幅跃升。 在ARC-AGI-2测试中,Gemini 3.1 Pro得分77.1%,性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中,新模型得分达到98%,超越了GPT-5.2 Pro和C…