模型压缩

  • OpenAI发起Model Craft挑战:16MB参数极限压缩,10分钟训练,争夺百万算力与面试机会

    OpenAI 发起了一项名为 Model Craft Challenge 的全新挑战,其核心项目为“Parameter Golf”。这项挑战设定了极为严苛的约束条件。 参与者需要在固定的 FineWeb 数据集上,尽可能降低模型的验证损失。同时,最终的模型产物(包含权重与训练代码)必须控制在 16 MB 以内,并且训练过程必须在 8 张 H100 GPU 上…

    16小时前
    4100
  • 腾讯开源Sherry三元量化方案:1.25bit登顶LLM边缘推理,3:4稀疏榨干硬件性能

    关键词:三元量化、细粒度稀疏、3:4稀疏模式、权重陷阱、退火残余突触 大语言模型(LLM)的部署正面临一个根本性矛盾:模型规模持续扩大与终端硬件资源受限之间的矛盾。云端推理虽然强大,但数据隐私、网络延迟、服务成本等问题日益突出,将LLM推向边缘设备已成为必然趋势。 在众多模型压缩技术中,权重量化因其直接降低模型尺寸和计算开销而备受关注。然而,大多数现有量化方…

    2026年2月16日
    10800
  • 通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

    关键词:通用子空间、深度神经网络、低秩子空间、模型可复用性、权重空间分析 在大模型时代,一个核心矛盾始终困扰着研究者:我们训练的模型规模持续增长(从百亿到万亿参数),但每次为适配新任务都需要从头微调或训练全新模型。这不仅消耗海量算力,还导致严重的参数冗余。例如,排除任务特定的输入/输出层后,存储500个Vision Transformer(ViT)模型约需8…

    2026年1月3日
    21700
  • Nexa SDK:实现手机、PC、边缘设备算力大一统的端侧AI终极形态

    关键词:端侧 AI、Nexa SDK、异构计算 、NexaQuant、模型压缩 、跨平台部署 NexaAI: Ship any AI model to Any Device in Minutes. Production-ready on-device inference across backends. 代码: https://github.com/Nexa…

    2025年12月21日
    40800
  • DragonMemory:序列维度压缩技术革新RAG系统,16倍压缩比突破本地部署瓶颈

    在人工智能快速发展的浪潮中,检索增强生成(RAG)系统已成为连接大语言模型与外部知识库的关键桥梁。然而,随着应用场景的复杂化,上下文长度和内存成本问题日益凸显,成为制约RAG系统在资源受限环境中部署的主要障碍。传统解决方案多采用量化、剪枝等技术,但这些方法往往以牺牲语义精度为代价。近期,GitHub上出现的开源项目DragonMemory,以其创新的序列维度…

    2025年11月25日
    19400
  • REAP框架:稀疏混合专家模型的动态瘦身革命与性能平衡的艺术

    在人工智能模型规模不断膨胀的今天,稀疏混合专家模型(Sparse Mixture of Experts,SMoE)作为一种高效架构,通过动态路由机制将输入分配给少数专家处理,显著降低了计算成本。然而,这种架构面临一个根本性矛盾:虽然每次推理只需激活少量专家,但所有专家的参数都必须常驻内存,导致内存开销居高不下。这就像运营一个拥有数百名专家的咨询公司,每次项目…

    2025年11月16日
    20700
  • QSVD:多模态大模型轻量化革命——联合低秩分解与量化技术突破

    在多模态人工智能的快速发展浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接计算机视觉与自然语言处理的核心桥梁。从图像描述生成、视觉问答到智能教育系统和交互式应用,这些模型让机器具备了“看懂世界、说人话”的能力。然而,这种强大的能力伴随着巨大的计算代价——模型参数动辄达到数百亿级别,导致显存占用巨大、推理速度缓慢,严重制…

    2025年11月15日
    22000
  • 3DGS压缩新范式:基于高斯混合简化的几何结构保持方法

    在三维视觉领域,3D Gaussian Splatting(3DGS)作为近年来兴起的高效三维场景建模技术,通过大量各向异性高斯球的分布与渲染,实现了高质量的新视角合成。然而,其核心挑战在于高斯球的高度冗余性,这直接制约了模型的存储效率与渲染速度。传统压缩方法多采用基于重要性得分的剪枝策略,虽能减少高斯数量,但往往以破坏全局几何结构为代价,导致细节丢失或场景…

    2025年11月14日
    20200
  • 突破模型家族壁垒:Hugging Face GOLD技术实现跨分词器知识蒸馏革命

    在人工智能模型部署与优化的前沿领域,模型压缩技术一直是平衡性能与效率的关键。传统知识蒸馏方法虽然能够将大型“教师”模型的知识迁移到小型“学生”模型中,但长期以来面临一个根本性限制:教师和学生模型必须使用相同的分词器。这一限制严重制约了技术应用的灵活性,使得不同模型家族之间的知识传递几乎不可能实现。 Hugging Face研究团队最新提出的GOLD(Gene…

    2025年10月30日
    19000