开源模型 - 鲸林向海

智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

GLM-OCR 模型评测：0.9B 参数下的文本识别与表格解析实战 OCR（光学字符识别）技术正持续演进。近期，智谱 AI 开源了其轻量级模型「GLM-OCR」，尽管参数量仅为 0.9B，但据称在 OmniDocBench V1.5 等基准测试中表现不俗，尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。官方数据显示，该模型在多类文档的识别任…

2026年2月11日

304000

AI产业动态

MOSS-TTS Family：模思智能发布全场景语音生成模型家族，实现高保真音色克隆与实时交互

当一段语音不仅需要“像某个人”、“准确地读出每个字”，还需要在不同内容中自然切换说话方式，在几十分钟的叙述中持续稳定，在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型，往往已经不够用了。模思智能及OpenMOSS团队发布了MOSS-TTS Family，一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。 MOSS-TTS Fa…

2026年2月11日

161000

AI产业动态

阿里达摩院RynnBrain：让机器人长出物理直觉，破解柔性物体操作难题

2026年，众多机器人登上春晚舞台，它们能为大家表演包饺子吗？这或许是许多人好奇的问题。但根据近期的彩排报道，这种可能性并不大。机器人更可能被设计为托着托盘呈上饺子。业内人士深知，如果不依赖预设编程或遥控操作，让机器人自主包饺子远比移动、导航复杂得多。这涉及到“饺子皮”这类堪称机器人“图灵测试”的柔性物体操作，没有一个足够聪明的“大脑”是难以完成的。这也…

2026年2月10日

159000

AI产业动态

AI大模型周报：阿里通义、阶跃星辰、智谱AI、Anthropic、OpenAI等巨头密集发布新模型，涵盖编程、视频生成、文档理解与智能体应用

2月1日【开源】阿里通义发布Qwen3-Coder-Next 这是一个编程智能体模型，采用总参数80B的MoE架构，每次推理仅激活3B参数。在SWE-Bench Verified测试中，问题解决率超过70%，实现了高性能与低算力成本的平衡，适合对算力敏感的本地化开发场景。详情请参见：https://qwen.ai/blog?id=qwen3-coder-…

2026年2月9日

230000

AI产业动态

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40%

清华团队开源Motus：首个统一五大范式的具身世界模型，性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus，在架构上首次将视觉-语言-动作（VLA）、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来，实现了“看-想-动”的完美闭环。项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…

2026年2月6日

171000

AI产业动态

蚂蚁灵波开源四款具身智能模型：从物理交互出发，探索世界模型新路径

大模型的革命行将结束，即将开启的会是物理 AI 时代？上周，图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能（AGI）发表了自己的最新观点。他认为语言并不等同于智能，预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系，而如今的大语言模型（LLM）几乎无法触及这些。 LeCun 认为，真正的智能必须能像人类一样，在脑海中进行推演…

2026年2月5日

134000

AI产业动态

面壁开源全双工全模态大模型MiniCPM-o 4.5：9B参数实现“活人感”交互，开启人机对话新时代

你有没有想过一个问题：为什么和 AI 对话，总觉得少了点「人味儿」？不是它回答得不够准确，也不是它理解不了你的意思，而是每次交互都很机械。你问一句，等它答完，然后突然画面一转，它对现实世界的观察仿佛瞬间「掉线」。那几秒里，AI 仿佛顺手关掉了眼睛和耳朵，陷入一种「间歇性失明失聪」的状态，根本不能根据眼前瞬息万变的画面实时调整自己的反应。这种感觉，就像两个…

2026年2月4日

215000

AI产业动态

阶跃星辰Step-3.5-Flash：300tps极速推理，Agent时代的新答案

核心结论：速度是Agent时代的关键竞争力模型背景：阶跃星辰在去年7月参与国内大模型评测后，一度沉寂。这并非停滞，而是潜心研发。如今，其全新力作Step-3.5-Flash正式发布，集中体现了团队对Agent（智能体）时代模型需求的思考。在核心能力上，该模型实现了显著跨越：其智力水平已从落后梯队跃升至第二梯队，中位表现与体量更大的DeepSeek V3…

2026年2月2日

547000

2026年1月AI大模型前沿速览：通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：方言类（龙嘉怡、龙老铁）、出海营销类、诗词朗诵类（龙飞）、语音助手类（龙小淳、龙小夏、YUMI）、社交陪伴类（龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩）、有声书类（龙三叔、龙媛、龙悦、龙修、龙楠…

AI产业动态 2026年2月2日

547000

AI产业动态

开源音视频生成新突破：MOVA模型实现电影级同步，打破Sora2闭源垄断

今天上午，上海创智学院 OpenMOSS 团队联合初创公司模思智能（MOSI），正式发布了端到端音视频生成模型 MOVA（MOSS-Video-and-Audio）。作为中国首个高性能开源音视频模型，MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段，更在多语言口型同步、环境音效契合度上展现了极高的工业水准…

2026年1月29日

256000