多模态AI

从BERT到Genie：掩码范式如何铺就通往AGI的世界模型之路

从BERT到Genie：掩码范式如何铺就通往AGI的世界模型之路从OpenAI的Sora到Google DeepMind的Genie，2025年无疑是世界模型（World Model）的爆发之年。然而，繁荣的背后是概念的混战：世界模型究竟是什么？是强化学习里用来训练Agent的环境模拟器？是看过所有YouTube视频的预测模型？还是一个能生成无限3D…

2026年1月1日

177000

AI产业动态

AI模型周报：通义千问、MiniMax、智谱AI等巨头齐发新版，图像编辑与编程能力全面升级

12月23日【闭源】通义千问发布图像编辑模型快照通义千问团队发布了 qwen-image-edit-plus-2025-12-15 图像编辑模型的最新快照。该版本在角色一致性、工业设计能力和几何推理能力上相较前代实现显著提升，优化了编辑后图片与原图在空间布局、纹理和风格上的匹配度，编辑效果更为精准细腻，旨在为专业图像处理提供更强大的工具支持。【开源】Mi…

2025年12月29日

245000

大模型工程

Gemini 3 揭示AI研发新范式：从算法灵感转向系统工程，精细化时代如何重塑智能进化？

内容来源 —— “We’re Ahead of Where I Thought We’d Be — Gemini 3 & the Future of AI”观看网址：https://www.youtube.com/watch?v=cNGDAqFXvew 在AI模型性能持续突破的今天，我们或许需要重新审视一个问题：驱动智能进化的，究竟是偶然的算法灵感，…

2025年12月26日

220002

大模型工程

KlingAvatar2.0：时空级联框架与共推理导演系统，让数字人拥有生动灵魂与5分钟长视频生成能力

还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗？现在，它迎来了史诗级进化。近日，快手可灵团队正式发布了 KlingAvatar2.0 技术报告。这一次，数字人不仅能“表演”，更能“生动表达”——它们将拥有更丰富的情感层次、更精准的多角色互动，对复杂文本指令的深度理解能力，以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平…

2025年12月24日

280000

AI产品库

Chandra OCR：重塑文档AI新标杆，以结构感知开启OCR 2.0时代

OCR技术已历经长期发展，关于“文档智能”的愿景也层出不穷。然而，当面对真正复杂的文档材料时，大多数OCR系统的表现往往不尽如人意： 📄 模糊的PDF文件🧮 老旧数学作业纸的扫描件🗂️ 多栏版式的报纸扫描件✍️ 数十年前的手写表格现有的一些OCR方案在页面干净规整时表现尚可，但一旦涉及文档结构、上下文理解或内容意图，就显得力不从心。 Chandra OCR…

2025年12月24日

214001

AI产业动态

揭秘200万奖金背后的AI方案：腾讯广告算法大赛冠军队如何用生成式推荐破解行业难题

在国内，懂技术 —— 尤其是 AI 技术的年轻人，真的不缺崭露头角的机会。前段时间，2025 年腾讯广告算法大赛结果揭晓，前 10 名队伍的全部成员都拿到了腾讯的录用意向书，冠军还拿到了 200 万元巨额奖金。当时，看完选手们的答辩，腾讯公司副总裁蒋杰感慨地说，这届年轻人的知识储备令人惊叹，他们做出来的东西和工业界的实际工作非常接近，没有代差。如果说大…

2025年12月23日

195000

开源项目

AI掌控电脑：9个颠覆性开源项目，让你的终端变身贾维斯

01 通过终端控制电脑把这个开源项目装进电脑，你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。 Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器，支持运行 Python、JavaScript、Shell 等语言，直接运行在你的终端里。通过和它对话，它可以访问互联网，不仅仅是 Bing 搜索，而是完…

2025年12月22日

213000

AI产业动态

AI周报：字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

12月15日【闭源】字节跳动发布豆包 doubao-seed-1-8-251215，在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强；视觉理解基础能力显著提升，支持低帧率理解超长视频，在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级；原生支持智能上下文管理，可配置上下文压缩策略，在任务…

2025年12月22日

203000

AI产业动态

分割一切、3D重建一切还不够，Meta开源SAM Audio分割一切声音

声音的“外科手术刀”：SAM Audio如何用多模态提示重塑音频编辑的未来当Meta在深夜悄然发布SAM Audio时，音频处理领域迎来了一场静默的革命。这不仅仅是一个新的技术模型，而是一个能够理解人类意图、响应自然交互的智能音频编辑系统。在AI技术不断突破边界的今天，SAM Audio的出现标志着音频处理从工具化向智能化的根本性转变。想象一下这样的场景…

2025年12月19日

257000

AI产业动态

Vidu Agent深度评测：AI视频创作从“片段生成”到“专业拍片”的范式革命

2025年，视频生成AI领域正经历着前所未有的技术竞赛。谷歌Veo 3、OpenAI Sora 2、Runway Gen-4.5以及本土的Vidu等模型相继推出，参数规模不断刷新纪录，演示视频一个比一个惊艳。然而，在这场看似繁荣的技术狂欢背后，一个根本性问题逐渐浮出水面：AI能够生成高质量的视频片段，但真正“会拍片”的模型仍然凤毛麟角。创意如何系统化拆解？镜…

2025年12月17日

157000