造芯片的还有高手?
刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。
这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。
这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下:
但这块一夜之间刷屏硅谷的芯片,并非出自英伟达或AMD之手,而是来自一家成立仅两年、团队仅有24人的初创公司——Taalas。

该芯片代号为 HC1 ,也是公司的首款产品。
与所有竞争对手不同,Taalas选择了一条迄今为止最极端的技术路线——模型不再加载到内存中,而是直接“刻”在硅片上。换言之,芯片即模型。
这一颠覆性设计的结果显而易见:Taalas试图撬动传统芯片的算力护城河。当H100一卡难求时,HC1或许提供了一个新的选择。
速度快10倍,功耗降至十分之一
HC1目前搭载 Llama 3.1 8B 模型,用户每秒最高可生成17000个token,性能远超主流GPU和ASIC芯片。

在同一模型下进行对比:Cerebras芯片接近每秒2000个token,SambaNova约为每秒900个,Groq约为每秒600个,而英伟达Blackwell架构的B200约为每秒350个。
具体来看,HC1采用台积电N6工艺制造,芯片面积为815mm²,体积小巧且设计开源,单颗芯片即可满足8B模型的需求。
每颗芯片的典型功耗仅为 250W 。如果一个服务器同时装配10颗HC1,总功耗也仅为2.5kW,可以直接使用常规的空气冷却机架进行部署。
那么,如此巨大的性能飞跃是如何实现的?
首先,HC1借鉴了2000年代初期的 结构化ASIC 芯片理念。这类芯片采用门阵列和固化IP,仅通过改变互连层就能使芯片适应特定的工作负载。这使得结构化ASIC芯片比全定制ASIC成本更低,同时比FPGA性能更优。

HC1采用了类似的思路:不改变底层电路,只通过调整两层掩模,就能低成本、快速地制造出专用的AI推理芯片。
它放弃了大多数可编程功能,将模型连同权重一起,通过基于 掩模ROM 的架构存储在芯片上。同时保留一个可编程的 SRAM ,用于保存微调后的权重(如LoRA)和KV缓存。其余部分则全部通过掩模ROM固化执行。
这一策略能在设计成本相对可控的前提下,实现模型到芯片的快速转化,将芯片生产周期从原先的六个月缩短到两个月。
当然,如此激进的量化方式可能会影响模型性能。研究团队也意识到了这一点,因此通过LoRA适配器进行重新训练,以及可配置的上下文窗口,为芯片保留了最低限度的灵活性。
简而言之,就是将完整的大模型通过物理硬连线的方式集成到芯片中,省去了传统“存算分离”架构带来的开销,用灵活性换取极致的速度和能效。

除了Llama 3.1,Taalas也在尝试将其他模型集成到HC1上。例如,针对 DeepSeekR1-671B 模型,他们提出了多芯片解决方案。
该方案将SRAM部分拆分到单独的芯片上,从而将每片HC1的存储密度提高到约20位参数,总计需要30颗定制HC1芯片。
整体处理速度可达到每用户每秒12000个token。考虑到30颗芯片的成本为每百万token 7.6美分,该方案的成本仍不到同等吞吐量GPU方案的一半。
即使假设GPU的更新周期为四年,而HC1每年都需要更换,其总成本仍然具备优势。
AMD前高管组成的梦之队
Taalas公司 成立于两年前 ,由三位AMD前高管共同创立:AMD前集成电路设计总监Ljubiša Bajić、AMD/ATI/Altera前技术经理和工程师Leila Bajić,以及AMD前ASIC设计总监Drago Ignjatović。这支团队堪称AMD前高管的“梦之队”。
其中,Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位,负责高性能GPU的研发设计,还是AI芯片公司 Tenstorrent 的创始人兼首任CEO。
新公司致力于开发专为AI推理和训练设计的新架构,强调分层设计和晶格网络,旨在让芯片能像大脑一样根据任务需求动态处理数据。
2020年,芯片界传奇人物 Jim Keller 加入Tenstorrent并接任CEO,Ljubiša Bajić则转任首席技术官(CTO),专注于产品研发。

随后,Ljubiša Bajić又创立了Taalas,尝试通过类似“硅基编译器”的方式,直接将AI模型转化为定制的硅芯片。
首战告捷:这支 仅有24名成员 的团队,仅投入3000万美元,就创造出能效比远超通用AI芯片数个数量级的产品。
目前,Taalas已筹集2亿美元投资。预计将在春季基于HC1发布第二代变体,届时将集成一款中等规模的推理大模型。随后,计划在冬季部署上线密度更高、运行速度更快的HC2。
然而,对于HC1,业界的评价呈现两极分化。
一方面,有观点认为HC1的超低延迟将有力推动具身智能等领域的发展。

另一方面,也有网友实测后发现,HC1高速推理的背后,可能存在推理深度不足的问题:

此外,对于迭代速度极快的大模型而言,HC1的硬编码方式可能导致芯片很容易过时。这也是当前芯片厂商普遍倾向于推出通用型芯片的原因之一。

参考链接:
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22009
