多模态AI

  • Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 开年第一个月,国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。 例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面: 从画面、台词到音效,都颇具原版日漫的风格。 制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3。 深度体验后,…

    3天前
    1000
  • 从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路

    从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路 从OpenAI的Sora到Google DeepMind的Genie,2025年无疑是世界模型 (World Model) 的爆发之年。 然而,繁荣的背后是概念的混战:世界模型究竟是什么?是强化学习里用来训练Agent的环境模拟器?是看过所有YouTube视频的预测模型?还是一个能生成无限3D…

    2026年1月1日
    7300
  • AI模型周报:通义千问、MiniMax、智谱AI等巨头齐发新版,图像编辑与编程能力全面升级

    12月23日 【闭源】通义千问发布图像编辑模型快照通义千问团队发布了 qwen-image-edit-plus-2025-12-15 图像编辑模型的最新快照。该版本在角色一致性、工业设计能力和几何推理能力上相较前代实现显著提升,优化了编辑后图片与原图在空间布局、纹理和风格上的匹配度,编辑效果更为精准细腻,旨在为专业图像处理提供更强大的工具支持。 【开源】Mi…

    2025年12月29日
    11200
  • Gemini 3 揭示AI研发新范式:从算法灵感转向系统工程,精细化时代如何重塑智能进化?

    内容来源 —— “We’re Ahead of Where I Thought We’d Be — Gemini 3 & the Future of AI”观看网址:https://www.youtube.com/watch?v=cNGDAqFXvew 在AI模型性能持续突破的今天,我们或许需要重新审视一个问题:驱动智能进化的,究竟是偶然的算法灵感,…

    2025年12月26日
    8600
  • KlingAvatar2.0:时空级联框架与共推理导演系统,让数字人拥有生动灵魂与5分钟长视频生成能力

    还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化。 近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告。这一次,数字人不仅能“表演”,更能“生动表达”——它们将拥有更丰富的情感层次、更精准的多角色互动,对复杂文本指令的深度理解能力,以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平…

    2025年12月24日
    16600
  • Chandra OCR:重塑文档AI新标杆,以结构感知开启OCR 2.0时代

    OCR技术已历经长期发展,关于“文档智能”的愿景也层出不穷。然而,当面对真正复杂的文档材料时,大多数OCR系统的表现往往不尽如人意: 📄 模糊的PDF文件🧮 老旧数学作业纸的扫描件🗂️ 多栏版式的报纸扫描件✍️ 数十年前的手写表格 现有的一些OCR方案在页面干净规整时表现尚可,但一旦涉及文档结构、上下文理解或内容意图,就显得力不从心。 Chandra OCR…

    2025年12月24日
    11700
  • 揭秘200万奖金背后的AI方案:腾讯广告算法大赛冠军队如何用生成式推荐破解行业难题

    在国内,懂技术 —— 尤其是 AI 技术的年轻人,真的不缺崭露头角的机会。 前段时间,2025 年腾讯广告算法大赛结果揭晓,前 10 名队伍的全部成员都拿到了腾讯的录用意向书,冠军还拿到了 200 万元巨额奖金。 当时,看完选手们的答辩,腾讯公司副总裁蒋杰感慨地说,这届年轻人的知识储备令人惊叹,他们做出来的东西和工业界的实际工作非常接近,没有代差。 如果说大…

    2025年12月23日
    9400
  • AI掌控电脑:9个颠覆性开源项目,让你的终端变身贾维斯

    01 通过终端控制电脑 把这个开源项目装进电脑,你的终端就成了贾维斯。这个 61K Star 的开源项目通过终端来控制电脑。 Open Interpreter 是一个让 AI 大模型在本地运行代码的解释器,支持运行 Python、JavaScript、Shell 等语言,直接运行在你的终端里。 通过和它对话,它可以访问互联网,不仅仅是 Bing 搜索,而是完…

    2025年12月22日
    6900
  • AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

    12月15日 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务…

    2025年12月22日
    9500
  • 分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

    声音的“外科手术刀”:SAM Audio如何用多模态提示重塑音频编辑的未来 当Meta在深夜悄然发布SAM Audio时,音频处理领域迎来了一场静默的革命。这不仅仅是一个新的技术模型,而是一个能够理解人类意图、响应自然交互的智能音频编辑系统。在AI技术不断突破边界的今天,SAM Audio的出现标志着音频处理从工具化向智能化的根本性转变。 想象一下这样的场景…

    2025年12月19日
    14700