视频生成 - 鲸林向海

AI大模型周报：阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

11月17日【闭源｜语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计，支持最长12小时的录音文件。 11月18日【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

2025年11月24日

200000

AI产业动态

VANS模型：从文本到视频的AI推理革命，开启“视频即答案”新纪元

在人工智能技术日新月异的今天，我们正见证着AI从单纯的信息处理工具向具备深度感知与创造性输出能力的智能体演进。传统AI模型在面对用户查询时，往往局限于生成文本答案，这种交互方式在解释复杂动态过程或视觉化场景时显得力不从心。例如，当用户询问“如何打温莎结”时，文字描述难以精确传达手指的缠绕顺序和力度变化；而面对“电影主角下一秒会做什么”的开放式问题，静态的文字…

2025年11月22日

184000

开源项目

三大前沿AI智能体开源项目深度解析：从工作流编排到交易决策与视频创作

AI 智能体平台 Astron Agent 是科大讯飞开源的一款实用性较高的 AI 智能体平台。与 Coze、n8n 等平台类似，Astron Agent 集成了 AI 工作流编排、模型管理、工具集成、RPA 自动化和团队协作功能，但整体设计更为轻量。它继承了科大讯飞 Astron 平台的核心技术，不仅支持智能体开发的全流程，还创新性地集成了智能 RPA…

2025年11月20日

197000

AI产业动态

Video-As-Prompt：统一语义控制新范式，开启视频生成“克隆”时代

在当前的AI视频生成领域，实现抽象语义的精确控制一直是个技术难题。无论是复刻Labubu特效、重现吉卜力风格，还是模仿希区柯克运镜，这些依赖高层次语义理解的创作任务，往往因缺乏统一的条件表征而难以实现。传统方法通常采用两种路径：一是针对每种语义单独训练LoRA模型，二是为特定语义类别设计专用架构。然而，前者面临语义条件无穷无尽、模型复杂度爆炸、泛化能力缺失的…

2025年11月18日

183000

AI产业动态

InfinityStar：时空金字塔架构革新视频生成，自回归模型挑战DiT主导地位

在人工智能生成内容领域，视频生成技术正经历从扩散模型向自回归架构的范式转移。字节跳动商业化技术团队最新提出的InfinityStar方法，凭借其创新的时空金字塔建模框架，在NeurIPS’25 Oral论文中展示了挑战当前主流Diffusion Transformer（DiT）视频生成方案的潜力。这一突破不仅体现在生成质量上，更关键的是在计算效率方面实现了数…

2025年11月14日

175000