颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

造芯片的还有高手?

刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token

这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。

这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下:

但这块一夜之间刷屏硅谷的芯片,并非出自英伟达或AMD之手,而是来自一家成立仅两年、团队仅有24人的初创公司——Taalas。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

该芯片代号为 HC1 ,也是公司的首款产品。

与所有竞争对手不同,Taalas选择了一条迄今为止最极端的技术路线——模型不再加载到内存中,而是直接“刻”在硅片上。换言之,芯片即模型

这一颠覆性设计的结果显而易见:Taalas试图撬动传统芯片的算力护城河。当H100一卡难求时,HC1或许提供了一个新的选择。

速度快10倍,功耗降至十分之一

HC1目前搭载 Llama 3.1 8B 模型,用户每秒最高可生成17000个token,性能远超主流GPU和ASIC芯片。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

在同一模型下进行对比:Cerebras芯片接近每秒2000个token,SambaNova约为每秒900个,Groq约为每秒600个,而英伟达Blackwell架构的B200约为每秒350个。

具体来看,HC1采用台积电N6工艺制造,芯片面积为815mm²,体积小巧且设计开源,单颗芯片即可满足8B模型的需求。

每颗芯片的典型功耗仅为 250W 。如果一个服务器同时装配10颗HC1,总功耗也仅为2.5kW,可以直接使用常规的空气冷却机架进行部署。

那么,如此巨大的性能飞跃是如何实现的?

首先,HC1借鉴了2000年代初期的 结构化ASIC 芯片理念。这类芯片采用门阵列和固化IP,仅通过改变互连层就能使芯片适应特定的工作负载。这使得结构化ASIC芯片比全定制ASIC成本更低,同时比FPGA性能更优。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

HC1采用了类似的思路:不改变底层电路,只通过调整两层掩模,就能低成本、快速地制造出专用的AI推理芯片。

它放弃了大多数可编程功能,将模型连同权重一起,通过基于 掩模ROM 的架构存储在芯片上。同时保留一个可编程的 SRAM ,用于保存微调后的权重(如LoRA)和KV缓存。其余部分则全部通过掩模ROM固化执行。

这一策略能在设计成本相对可控的前提下,实现模型到芯片的快速转化,将芯片生产周期从原先的六个月缩短到两个月。

当然,如此激进的量化方式可能会影响模型性能。研究团队也意识到了这一点,因此通过LoRA适配器进行重新训练,以及可配置的上下文窗口,为芯片保留了最低限度的灵活性。

简而言之,就是将完整的大模型通过物理硬连线的方式集成到芯片中,省去了传统“存算分离”架构带来的开销,用灵活性换取极致的速度和能效。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

除了Llama 3.1,Taalas也在尝试将其他模型集成到HC1上。例如,针对 DeepSeekR1-671B 模型,他们提出了多芯片解决方案。

该方案将SRAM部分拆分到单独的芯片上,从而将每片HC1的存储密度提高到约20位参数,总计需要30颗定制HC1芯片。

整体处理速度可达到每用户每秒12000个token。考虑到30颗芯片的成本为每百万token 7.6美分,该方案的成本仍不到同等吞吐量GPU方案的一半。

即使假设GPU的更新周期为四年,而HC1每年都需要更换,其总成本仍然具备优势。

AMD前高管组成的梦之队

Taalas公司 成立于两年前 ,由三位AMD前高管共同创立:AMD前集成电路设计总监Ljubiša Bajić、AMD/ATI/Altera前技术经理和工程师Leila Bajić,以及AMD前ASIC设计总监Drago Ignjatović。这支团队堪称AMD前高管的“梦之队”。

其中,Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位,负责高性能GPU的研发设计,还是AI芯片公司 Tenstorrent 的创始人兼首任CEO。

新公司致力于开发专为AI推理和训练设计的新架构,强调分层设计和晶格网络,旨在让芯片能像大脑一样根据任务需求动态处理数据。

2020年,芯片界传奇人物 Jim Keller 加入Tenstorrent并接任CEO,Ljubiša Bajić则转任首席技术官(CTO),专注于产品研发。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

随后,Ljubiša Bajić又创立了Taalas,尝试通过类似“硅基编译器”的方式,直接将AI模型转化为定制的硅芯片。

首战告捷:这支 仅有24名成员 的团队,仅投入3000万美元,就创造出能效比远超通用AI芯片数个数量级的产品。

目前,Taalas已筹集2亿美元投资。预计将在春季基于HC1发布第二代变体,届时将集成一款中等规模的推理大模型。随后,计划在冬季部署上线密度更高、运行速度更快的HC2。

然而,对于HC1,业界的评价呈现两极分化。

一方面,有观点认为HC1的超低延迟将有力推动具身智能等领域的发展。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

另一方面,也有网友实测后发现,HC1高速推理的背后,可能存在推理深度不足的问题:

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

此外,对于迭代速度极快的大模型而言,HC1的硬编码方式可能导致芯片很容易过时。这也是当前芯片厂商普遍倾向于推出通用型芯片的原因之一。

颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

参考链接:
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22009

(0)
上一篇 2026年2月21日 下午12:47
下一篇 2026年2月21日 下午1:29

相关推荐

  • 谷歌Aletheia创FirstProof数学挑战新纪录:AI自主解决6道高难度研究问题,超越IMO金牌表现

    去年七月,国际数学奥林匹克竞赛(IMO)见证了人工智能系统首次达到金牌水平。当时,OpenAI与谷歌DeepMind相继宣布其AI模型在此类测试中取得优异成绩,其中DeepMind的Gemini模型更是首个获得IMO官方金牌认证的AI系统。 然而,竞赛解题与真正的数学研究之间,仍存在显著差异。 此后,AI智能体技术飞速发展,其解决数学问题的能力不再仅仅依赖于…

    2026年2月26日
    29700
  • 150美元FPGA平台实现30B MoE大模型边缘推理,18 token/s解码速度突破成本性能极限

    关键词: FPGA 加速器、混合专家模型(MoE)、边缘部署、低成本推理、GEMV 优化 以150美元物料成本和18 token/s的解码速度,FPGA在大语言模型边缘部署领域取得了关键性突破。 在深度学习硬件加速领域,FPGA的定位一直较为特殊。它既不具备GPU那样统治训练市场的极致算力密度,也难以像ASIC那样在特定场景下实现终极能效。长期以来,FPGA…

    2026年3月16日
    39600
  • 昇腾原生支持SGLang:大模型推理系统在金融Agent场景下的高效工程实践

    当Agent应用加速,推理系统如何承接真实负载? 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州举办的SGLang AI 金融 π 对 活动中,被反复提及的核心背景。 在这场聚焦大模型推理效率的活动中,讨论焦点超越了Agent的概念热度,直指推理系统在真实负载下面临的工程挑战:高并发请求、长…

    2025年12月21日
    28700
  • LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

    文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正…

    2025年12月29日
    25900
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    14900