Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

DeepSeek V4发布仅两周,开源社区已经涌现出首批原生基础设施项目。

这不是那种在现有框架上“套壳”的小修小补——不是通用的GGUF加载器,不是llama.cpp的封装,甚至不支持其他任何模型。

它只做一件事:

让DeepSeek V4 Flash在Mac上跑到极致。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

这条“专属高速公路”名叫ds4.c。而打造它的人,分量非同寻常——

Salvatore Sanfilippo,在程序员圈更广为人知的名字是antirez

他一手创造了Redis(GitHub 7.4万Star),并主导这个全球最流行的内存数据库整整11年。

如今,他的新项目ds4.c,是一个专为DeepSeek V4 Flash打造的本地推理引擎。

时间线上,已经有网友在128GB Mac上成功运行。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

可以说,这一波,Mac库存又被DeepSeek清了一遍。

鲸鱼,确实值得。

专为V4 Flash打造的本地推理引擎

4月24日,DeepSeek发布V4系列。其中V4 Flash是效率型版本:284B总参数、13B激活参数、100万token上下文。

这样的体量,过去几乎默认属于云端。

而antirez想做的,是把它塞进一台Mac。于是,ds4.c诞生了。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

这是一个用C + Metal从头编写的推理引擎。

整个项目只有几个文件:C占55.4%,Objective-C占30.2%,Metal占13.8%。Metal-only,没有运行时,没有框架依赖,没有抽象层。

Metal-only。

Metal是苹果自家的图形和计算API,在Mac、iPhone、iPad上调用GPU都依赖它,相当于苹果生态里的CUDA。

ds4只用Metal意味着,这个引擎只在Apple Silicon上运行,不关心Nvidia显卡,也不关心AMD。

整个项目只有一个目标:

让V4 Flash在本地苹果机器上,不只是“能跑”,而是真正“能用”。

目前测试结果已经相当惊人:

在128GB内存的MacBook Pro M3 Max上,2-bit量化、32K上下文,短prompt预填充58.52 token/s,生成26.68 token/s。

换成512GB的Mac Studio M3 Ultra,长prompt(11709 token)预填充能达到468.03 token/s,生成27.39 token/s。

对一个284B参数的MoE模型来说,这个速度在本地机器上已经可用。

怎么做到的?

关键在三件事。

第一,非对称量化。

ds4并不会把所有参数都压到2-bit,而是只量化路由的MoE专家层——up/gate用IQ2_XXS,down用Q2_K,这些层占据了模型空间的绝大部分。

其他组件,包括共享专家层、投影层、路由层,全部保留Q8精度不变。

antirez在README里写了一句很直接的话:

这些2-bit量化不是开玩笑,它们在coding agent下表现良好,能可靠地调用工具。

第二,KV缓存搬到硬盘上。

现在的LLM agent客户端都是无状态的,每次请求把整段对话重新发送一遍。

通用引擎的做法是每次重新做prefill。

ds4的做法是把KV状态写入磁盘,下次请求匹配token前缀,命中就直接从磁盘加载,跳过prefill。

缓存的key是token ID序列的SHA1哈希值。

这对Claude Code这种每次启动会发送25K token初始prompt的agent场景尤其有用——第一次prefill完成后,后续会话直接从磁盘恢复。

第三,内置OpenAI和Anthropic两套API兼容层。

/v1/chat/completions走OpenAI协议,/v1/messages走Anthropic协议。tool calling也做了适配。README里直接提供了opencode、Pi、Claude Code三种agent客户端的配置示例。

关于为什么要做这件事——

antirez的回答是,本地推理领域有很多优秀项目,但新模型不断发布,注意力立刻被下一个要实现的模型吸走。

通用引擎为了兼容所有模型,必须做抽象。抽象意味着妥协。他想做的是一条刻意的窄路,一次只赌一个模型,用官方logits做验证,做长上下文测试,做足够的agent集成来确认它真的能用。

框架一经发布,就有不少网友反馈,已经在Mac上跑起来了。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

你准备好在本机运行V4了吗?

一个模型一个推理框架

这件事也在开发者圈炸出了一个更大的讨论:

未来会不会变成——一个模型,一个推理框架?

Hacker News上一条高赞评论提出了一个有趣的方向:如果开始针对精确的GPU加模型组合构建超优化推理引擎呢?

GPU越来越贵,如果去掉足够多的抽象层,直接针对精确的硬件和模型编码,可能能优化很多。

这条路的代价也很明显。同一条评论指出,一旦模型过时,一切从头来过。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

antirez自己也承认了这个问题。他说ds4当前赌的是DeepSeek V4 Flash,但模型可能会换。

不变的约束是,本地推理要在高端个人机器或Mac Studio上跑得靠谱,起步128GB内存。

未来会怎样,README里留了个伏笔。

当前是Metal-only,未来可能会做CUDA支持。但他写得很谨慎——也许会,但仅此而已。这个项目刻意保持小、快、专注。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

更值得关注的是他在README里抛出的一个观点:本地推理应该是三件事一起做好,开箱即用。

一个有HTTP API的推理引擎,一份针对这个引擎和这套假设特别打造的GGUF,一套和coding agent对接的测试和验证。

这是一种全栈本地推理的思路——不是把组件拼起来,而是把链路当成一个产品来设计。

如果这条路走通了,它可能改变本地推理的玩法。

模型厂商发布新模型的同时,社区里就会有人跳出来给它做专属引擎,做专属量化,做专属agent接入。每一代模型都有一个自己的“antirez”。

ds4还有一个很坦率的细节。README里有一段声明:这个软件是在GPT 5.5的“强力辅助”下开发的,人类负责想法、测试和调试。

antirez说:如果你不接受AI辅助开发的代码,这个软件不适合你。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

两周时间,从fork llama.cpp做适配,到从头写一个专用引擎,离不开AI辅助。这件事本身可能比ds4还更值得关注。

One more thing

最后说一下antirez这个人。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

真名Salvatore Sanfilippo,1977年出生于西西里岛。2009年创建Redis,主导这个项目十一年,2020年离开。

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

离开时他写过一段话:自己写代码是为了表达自己,代码是一件制品而不只是有用的工具。他宁可被记住为一个糟糕的艺术家,也不愿被记住为一个好程序员。

2024年底他回到Redis,担任evangelist角色。

除了Redis之外,他还写过Kilo(不到1000行C代码的文本编辑器)、dump1090(航空ADS-B信号解码器)、linenoise(readline的微型替代品)。

他还在玩Flipper Zero,写了RF协议分析工具,把Asteroids移植到上面。2022年他出了一本科幻小说《WOHPE》,主题是AI、气候变化、程序员,以及人类和技术的互动。

他个人主页第一行写的是:“我把大部分专业时间花在写代码和写小说上。”

Redis之父antirez专为DeepSeek V4 Flash打造Mac本地推理引擎,速度惊人

关于Redis的诞生,他在个人主页里写了一段:

我妻子曾打趣说,Redis早期的大部分代码,都是我坐在马桶上,用一台11寸的MacBook Air敲出来的。我真希望她能说错,可惜,她说的句句属实。

这种风格贯穿了他所有的作品:小巧、精准、自成一体。

ds4.c也延续了同样的路数。

看看他在ds4的README里,关于macOS bug的那段备注,你立刻就能感受到这个人独特的味道。

ds4有一个CPU推理路径,用于验证正确性。但当前版本的macOS在虚拟内存实现上存在一个bug,运行CPU推理会导致内核崩溃。

他写道:“记住了吗?软件都很烂。我没办法通过修复CPU推理来避免崩溃,因为每次都得重启电脑,一点都不好玩。”

然后他补了一句:“如果你有胆量,来帮我们。”

他在个人主页里还留下过这样一段话:

现代编程正变得复杂、无趣,全是需要粘合的层级。它正在失去大部分美感。大多数程序员既没有面对编程的艺术面,也没有面对编程的高级工程面。

从Redis到ds4.c,十五年过去了,antirez还是那个antirez。

只不过这一次,他开始为AI铺路了。

参考链接

[1]http://invece.org/
[2]https://github.com/antirez/ds4
[3]https://news.ycombinator.com/item?id=48050751


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33789

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • MiroThinker:开源重型研究型AI Agent,让小龙虾帮你完成深度调研

    在处理需要深度搜索、多方对比与交叉验证才能得出体系化结论的复杂任务时,我会使用 MiroThinker。 这是一个开源的重型研究型 AI Agent。与常规的问答式聊天机器人不同,MiroThinker 能够进行持续的长链推理、主动浏览网页、在不确定环境中进行探索,最终生成一份扎实的研究报告。 它已成为我高频使用的 AI 工具之一。此前,我已在飞书中配置了名…

    2026年3月19日
    47700
  • Star-Office-UI:让AI打工人在像素办公室“摸鱼”和“面壁”

    Star-Office-UI:将AI工作状态可视化的像素办公室 Star-Office-UI 是一个为AI团队设计的开源可视化状态看板。它将AI Agent在后台运行的抽象工作状态,具象化为一个复古像素风格办公室中活动的角色,从而实现了工作状态的实时、游戏化监控。 项目概述 该项目本质上是一个面向OpenClaw等多智能体框架的可视化状态面板,其独特之处在于…

    2026年3月8日
    83200
  • MLEvolve:12小时登顶MLE-bench榜首,AI自主设计算法能力获突破

    让AI像顶尖数据科学家一样设计机器学习算法,需要几步? 上海人工智能实验室“书生”科学发现平台最新开源的 MLEvolve 系统给出了答案:在权威的MLE-bench基准测试中,仅用 12小时 便登顶榜单第一。 MLEvolve是一套自进化的机器学习系统。它采用 渐进式蒙特卡洛图搜索 替代传统树搜索,实现不同探索路径间的经验共享;通过 全局记忆层 记录每一次…

    2026年3月10日
    54600
  • 医疗视频AI黑盒被踢爆!全球最大最强开源模型uAI Nexus MedVLM,看懂手术,碾压GPT-5.4

    手术视频的“黑箱”,被彻底砸穿了! 就在近日,GitHub 与 Hugging Face 社区同步上线了一枚医疗大模型领域的重磅武器——全球规模最大、性能最强的医疗视频理解大模型 uAI Nexus MedVLM(中文名:元智医疗视频理解大模型),现已全面开源! 最令人震撼的是,它真的能看懂手术过程。 该模型的论文已被 CVPR 2026 收录,研究团队还同…

    2026年4月26日
    44700
  • AI开发者的效率革命:三款开源神器让终端、浏览器和Claude协同工作

    一个窗口搞定终端、文件和浏览器 在使用 Claude Code 进行开发时,本地往往会积累大量 Markdown 文件。例如,在规划复杂项目或任务时,我通常会要求 AI 先在本地生成一份 Markdown 格式的计划文档。 然而,查看这些文件需要打开编辑器,查阅文档又需切换至浏览器,频繁切换窗口极大地影响了工作效率。WaveTerm 正是为解决这一问题而设计…

    2026年3月20日
    48000