颠覆AI推理：24人团队打造芯片即模型，每秒17000个token硬刚英伟达

造芯片的还有高手？

刚刚推出的一款最新芯片，直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。

这是什么概念？当前公认性能强大的Cerebras芯片，速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ，同时成本骤减20倍、功耗降低10倍。

这使大语言模型（LLM）真正进入了 亚毫秒级 的即时响应时代。实机效果如下：

但这块一夜之间刷屏硅谷的芯片，并非出自英伟达或AMD之手，而是来自一家成立仅两年、团队仅有24人的初创公司——Taalas。

该芯片代号为 HC1 ，也是公司的首款产品。

与所有竞争对手不同，Taalas选择了一条迄今为止最极端的技术路线——模型不再加载到内存中，而是直接“刻”在硅片上。换言之，芯片即模型。

这一颠覆性设计的结果显而易见：Taalas试图撬动传统芯片的算力护城河。当H100一卡难求时，HC1或许提供了一个新的选择。

速度快10倍，功耗降至十分之一

HC1目前搭载 Llama 3.1 8B 模型，用户每秒最高可生成17000个token，性能远超主流GPU和ASIC芯片。

在同一模型下进行对比：Cerebras芯片接近每秒2000个token，SambaNova约为每秒900个，Groq约为每秒600个，而英伟达Blackwell架构的B200约为每秒350个。

具体来看，HC1采用台积电N6工艺制造，芯片面积为815mm²，体积小巧且设计开源，单颗芯片即可满足8B模型的需求。

每颗芯片的典型功耗仅为 250W 。如果一个服务器同时装配10颗HC1，总功耗也仅为2.5kW，可以直接使用常规的空气冷却机架进行部署。

那么，如此巨大的性能飞跃是如何实现的？

首先，HC1借鉴了2000年代初期的 结构化ASIC 芯片理念。这类芯片采用门阵列和固化IP，仅通过改变互连层就能使芯片适应特定的工作负载。这使得结构化ASIC芯片比全定制ASIC成本更低，同时比FPGA性能更优。

HC1采用了类似的思路：不改变底层电路，只通过调整两层掩模，就能低成本、快速地制造出专用的AI推理芯片。

它放弃了大多数可编程功能，将模型连同权重一起，通过基于 掩模ROM 的架构存储在芯片上。同时保留一个可编程的 SRAM ，用于保存微调后的权重（如LoRA）和KV缓存。其余部分则全部通过掩模ROM固化执行。

这一策略能在设计成本相对可控的前提下，实现模型到芯片的快速转化，将芯片生产周期从原先的六个月缩短到两个月。

当然，如此激进的量化方式可能会影响模型性能。研究团队也意识到了这一点，因此通过LoRA适配器进行重新训练，以及可配置的上下文窗口，为芯片保留了最低限度的灵活性。

简而言之，就是将完整的大模型通过物理硬连线的方式集成到芯片中，省去了传统“存算分离”架构带来的开销，用灵活性换取极致的速度和能效。

除了Llama 3.1，Taalas也在尝试将其他模型集成到HC1上。例如，针对 DeepSeekR1-671B 模型，他们提出了多芯片解决方案。

该方案将SRAM部分拆分到单独的芯片上，从而将每片HC1的存储密度提高到约20位参数，总计需要30颗定制HC1芯片。

整体处理速度可达到每用户每秒12000个token。考虑到30颗芯片的成本为每百万token 7.6美分，该方案的成本仍不到同等吞吐量GPU方案的一半。

即使假设GPU的更新周期为四年，而HC1每年都需要更换，其总成本仍然具备优势。

AMD前高管组成的梦之队

Taalas公司 成立于两年前 ，由三位AMD前高管共同创立：AMD前集成电路设计总监Ljubiša Bajić、AMD/ATI/Altera前技术经理和工程师Leila Bajić，以及AMD前ASIC设计总监Drago Ignjatović。这支团队堪称AMD前高管的“梦之队”。

其中，Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位，负责高性能GPU的研发设计，还是AI芯片公司 Tenstorrent 的创始人兼首任CEO。

新公司致力于开发专为AI推理和训练设计的新架构，强调分层设计和晶格网络，旨在让芯片能像大脑一样根据任务需求动态处理数据。

2020年，芯片界传奇人物 Jim Keller 加入Tenstorrent并接任CEO，Ljubiša Bajić则转任首席技术官（CTO），专注于产品研发。

随后，Ljubiša Bajić又创立了Taalas，尝试通过类似“硅基编译器”的方式，直接将AI模型转化为定制的硅芯片。

首战告捷：这支 仅有24名成员 的团队，仅投入3000万美元，就创造出能效比远超通用AI芯片数个数量级的产品。

目前，Taalas已筹集2亿美元投资。预计将在春季基于HC1发布第二代变体，届时将集成一款中等规模的推理大模型。随后，计划在冬季部署上线密度更高、运行速度更快的HC2。

然而，对于HC1，业界的评价呈现两极分化。

一方面，有观点认为HC1的超低延迟将有力推动具身智能等领域的发展。

另一方面，也有网友实测后发现，HC1高速推理的背后，可能存在推理深度不足的问题：

此外，对于迭代速度极快的大模型而言，HC1的硬编码方式可能导致芯片很容易过时。这也是当前芯片厂商普遍倾向于推出通用型芯片的原因之一。

参考链接：
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/22009

颠覆AI推理：24人团队打造芯片即模型，每秒17000个token硬刚英伟达

速度快10倍，功耗降至十分之一

AMD前高管组成的梦之队

相关推荐

谷歌Aletheia创FirstProof数学挑战新纪录：AI自主解决6道高难度研究问题，超越IMO金牌表现

150美元FPGA平台实现30B MoE大模型边缘推理，18 token/s解码速度突破成本性能极限

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

LENS：首个基于强化推理的分割大模型，突破传统SFT能力天花板

从AlphaGo到DeepSeek R1：推理模型如何重塑AI生产力与人类未来