AI推理优化

  • NVIDIA Blackwell架构微基准深度解析:FP4/FP6赋能LLM推理2.5倍加速,36.3TFLOPS FP64重塑科学计算

    关键词:Blackwell、GPU、 Microbenchmark 、5th-generation Tensor Core 、 TMEM 本文工作量化了张量内存(TMEM)对矩阵密集型负载的影响,评估了硬件解压缩引擎(DE)的吞吐量及最优使用方式,通过新的tcgen05 PTX 指令分析了第五代张量核心的执行特性。 此外,还评估了 FP4 与 FP6 精度的…

    2026年1月13日
    7500
  • 上下文工程:AI长任务性能优化的核心策略

    Prompts 确立意图。Context 选择事实、历史和工具输出,让 AI 在长任务中保持连贯。 在 AI 应用的早期,我们沉迷于字词的斟酌。微调一个动词,增加一条约束,观察模型是否按预期响应。这些技巧常常奏效,足以让人以为这是一门手艺。直到任务变得更长、更复杂、涉及更多步骤时,一条安静的真相才浮出水面:措辞固然重要,但模型看到什么 更为关键。 Promp…

    2025年11月7日
    11600