并行计算 - 鲸林向海

开源项目

深入解析NVIDIA CCCL：CUDA并行计算的基石架构与核心组件

在当今 GPU 加速计算生态中，NVIDIA CCCL（CUDA Core Compute Libraries）是一个不可忽视的底层基石。 CCCL 的目标是为 CUDA C++ 开发者提供一套基础组件库，旨在简化高效、安全代码的编写。将这些库整合使用，能够显著降低开发复杂度，并充分发挥 CUDA C++ 的强大性能。从推理框架 SGLang、vLLM，到…

2026年4月10日

263000

大模型推理

斯坦福团队突破大模型推理瓶颈：SSD框架实现草拟验证并行，推理速度提升2倍

在大语言模型推理领域，推测解码（Speculative Decoding，SD）已成为加速生成的主流技术，但其草拟（Drafting）与验证（Verification）阶段必须串行执行，这构成了一个核心的性能瓶颈。近日，来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO，成功实现了草拟与验证的…

2026年4月1日

342000

大模型推理

Parallel-Probe：大模型并行推理效率革命，计算浪费减少35.8%

当大模型推理进入并行思考时代，一个关键问题随之浮现：在并行推理过程中，大量计算资源是否被浪费在了那些已无必要继续的思考路径上？为探究此问题，来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手，而是首先引入 2D Probing 技术，系统性刻画了在线并行推理的全局动态特性…

2026年3月7日

321000

大模型工程

告别并行编程烦恼：Joblib如何让Python多进程变得优雅高效

深夜，当办公室的灯光一盏盏熄灭，总有一块屏幕还在固执地亮着。一位数据科学家靠在椅背上，目光紧盯着那条几乎停滞的进度条。数据集不大，机器也不差，问题在于 Python 正在忠实地、一个接一个地执行任务。许多开发者都经历过这样的时刻。此时，“并行处理”的念头极具诱惑力——直到你真正尝试使用 Python 自带的 multiprocessing 模块，才发现它…

2025年12月2日

403000

大模型工程

解锁Agentic AI并行化：14个核心模式提升系统可靠性与性能

构建高效的智能体（Agentic）系统，离不开扎实的软件工程实践。其核心在于设计能够协调运作、并行执行，并能与外部系统高效交互的组件。例如，推测执行（Speculative Execution）通过预先处理可预测的请求来降低延迟；冗余执行（Redundant Execution）则通过同时运行同一智能体的多个副本来避免单点故障，提升系统韧性。除此之外，还…

2025年11月27日

694000