多模态AI

  • 昆仑万维SkyReels:多模态AI视频创作平台的范式革新与全链路布局

    在AI视频生成技术快速迭代的当下,行业竞争已从单一模型性能比拼,转向更全面的创作生态构建。近期,昆仑万维正式推出全新一站式多模态AI视频创作平台SkyReels,并同步发布SkyReels V3视频生成模型,标志着国内AI视频赛道正从“工具化”向“平台化”深度演进。 从技术演进路径来看,AI视频生成经历了三个关键阶段:早期基于扩散模型的单帧生成、中期时序一致…

    2025年11月4日
    44000
  • Pixeltable:以声明式表格重构多模态AI流水线,告别“胶水代码”时代

    在当今多模态AI应用开发中,工程师们常常陷入一个技术困境:为了构建一个完整的处理流水线,需要将数据库、文件存储系统、向量数据库、各类API服务以及任务编排框架通过大量“胶水代码”强行拼接在一起。这种模式不仅开发效率低下,维护成本高昂,更严重的是,数据在不同组件间的流转往往伴随着格式转换的损耗与一致性的风险。而Pixeltable的出现,正是为了解决这一核心痛…

    2025年11月3日
    40400
  • Emu3.5:原生多模态世界模型的范式革命与第三种Scaling路径

    2025年,人工智能领域正经历一场从语言智能向物理世界智能的深刻范式转移。”世界模型”这一概念已从学术构想演变为科技巨头竞逐的核心战场,其目标在于构建能够理解、预测并生成动态物理环境的AI系统。谷歌的Genie 3凭借一句话生成720p实时模拟世界的能力,被业界喻为”游戏引擎2.0″;李飞飞团队推出的RTFM模…

    2025年11月3日
    38500
  • DeepSeek OCR:颠覆传统,用视觉压缩破解AI扩展的“十亿美元级”文档处理难题

    Part I: 文本的“隐形重量” 我们通常认为文本是“轻”的:易于存储、传输和计算。但在大语言模型时代,文本变得非常“重”。 处理一张发票的PDF扫描件,就可能消耗1,000至5,000个tokens。将这个数量级乘以企业日志、法律合同、监管文件和数字化档案,总token量将变得极其庞大——其中大部分是冗余、昂贵且处理缓慢的。虽然OpenAI的GPT-4-…

    2025年10月31日
    35800
  • 悟界·Emu3.5:世界模型基座如何重塑多模态AI的物理认知与时空一致性

    在AI技术快速迭代的浪潮中,多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院(BAAI)最新开源的悟界·Emu3.5,作为一款原生多模态世界模型,不仅在图、文、视频任务上展现出全面能力,更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。 Emu3.5的核心突破在于其作…

    2025年10月30日
    31000
  • 视觉化文本处理:Glyph框架如何通过图像渲染突破长文本计算瓶颈

    在人工智能快速发展的今天,处理长文本输入已成为大语言模型面临的核心挑战之一。传统的token扩展方法虽然在一定程度上缓解了上下文长度限制,但随之而来的算力成本呈指数级增长,使得百万级token的处理在经济和技术上都变得不可持续。当业界普遍在位置编码扩展和注意力机制优化上投入大量资源时,智谱AI推出的Glyph框架却开辟了一条全新的技术路径:将文本转化为图像,…

    2025年10月29日
    44200
  • AI大模型周报:阿里、腾讯、Anthropic等巨头密集发布,多模态与推理能力成焦点

    10月13日 【开源】 阿里开源 Qwen3-VL-8B-Thinking 与 Qwen3-VL-8B-Instruct 模型。作为 Qwen3-VL 系列的 8B Dense 模型,它们显存占用更低,具备多模态理解与推理能力,支持长视频、长文档等超长上下文输入,并集成了视觉 2D/3D 定位、全面空间感知与万物识别功能。 10月14日 【闭源】 腾讯混元发…

    2025年10月20日
    33000