PinchBench
-
商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地
商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地端侧 端侧智能面临一个核心矛盾:模型参数太少则能力不足,参数太多又无法部署在车机上。复杂任务需要推理能力,推理能力依赖大参数模型,但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。 近日,商汤绝影正式发布 Sage,一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型,首次将…
-
PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平
一个评估大模型在“养虾”(OpenClaw)任务中表现的基准——PinchBench,现已正式发布。 该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度,综合评估各大模型在OpenClaw实际业务场景中的表现。 需要指出的是,本次评测尚未包含近期发布的新模型,例如谷歌主打性价比…