开源模型
-
智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
GLM-OCR 模型评测:0.9B 参数下的文本识别与表格解析实战 OCR(光学字符识别)技术正持续演进。近期,智谱 AI 开源了其轻量级模型「GLM-OCR」,尽管参数量仅为 0.9B,但据称在 OmniDocBench V1.5 等基准测试中表现不俗,尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。 官方数据显示,该模型在多类文档的识别任…
-
MOSS-TTS Family:模思智能发布全场景语音生成模型家族,实现高保真音色克隆与实时交互
当一段语音不仅需要“像某个人”、“准确地读出每个字”,还需要在不同内容中自然切换说话方式,在几十分钟的叙述中持续稳定,在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型,往往已经不够用了。 模思智能及OpenMOSS团队发布了MOSS-TTS Family,一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。 MOSS-TTS Fa…
-
阿里达摩院RynnBrain:让机器人长出物理直觉,破解柔性物体操作难题
2026年,众多机器人登上春晚舞台,它们能为大家表演包饺子吗?这或许是许多人好奇的问题。 但根据近期的彩排报道,这种可能性并不大。机器人更可能被设计为托着托盘呈上饺子。 业内人士深知,如果不依赖预设编程或遥控操作,让机器人自主包饺子远比移动、导航复杂得多。这涉及到“饺子皮”这类堪称机器人“图灵测试”的柔性物体操作,没有一个足够聪明的“大脑”是难以完成的。这也…
-
AI大模型周报:阿里通义、阶跃星辰、智谱AI、Anthropic、OpenAI等巨头密集发布新模型,涵盖编程、视频生成、文档理解与智能体应用
2月1日 【开源】阿里通义发布Qwen3-Coder-Next 这是一个编程智能体模型,采用总参数80B的MoE架构,每次推理仅激活3B参数。在SWE-Bench Verified测试中,问题解决率超过70%,实现了高性能与低算力成本的平衡,适合对算力敏感的本地化开发场景。 详情请参见:https://qwen.ai/blog?id=qwen3-coder-…
-
清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%
清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。 项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…
-
蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径
大模型的革命行将结束,即将开启的会是物理 AI 时代? 上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。 LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演…
-
面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代
你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…
-
阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案
核心结论:速度是Agent时代的关键竞争力 模型背景: 阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。 在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3…
-
2026年1月AI大模型前沿速览:通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破
1月5日 【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:方言类(龙嘉怡、龙老铁)、出海营销类、诗词朗诵类(龙飞)、语音助手类(龙小淳、龙小夏、YUMI)、社交陪伴类(龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩)、有声书类(龙三叔、龙媛、龙悦、龙修、龙楠…
-
开源音视频生成新突破:MOVA模型实现电影级同步,打破Sora2闭源垄断
今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 MOVA(MOSS-Video-and-Audio)。 作为中国首个高性能开源音视频模型,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了极高的工业水准…
