AI前沿速递：长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

2025年11月3日下午12:00 • AI产业动态 • 阅读 181

10月26日

【开源】美团LongCat-Video视频生成模型
美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分，原生支持文生视频、图生视频、视频续写三大核心任务，能够实现分钟级长视频的连贯生成，从根源上保障了跨帧时序一致性与物理运动的合理性。

模型链接：https://modelscope.cn/models/meituan-longcat/LongCat-Video

【开源】清华&智谱AI发布Glyph视觉-文本压缩框架
清华大学CoAI实验室与智谱AI联合发布Glyph框架，通过视觉-文本压缩技术扩展上下文长度。该框架可将24万token的《简·爱》文本渲染为约8万视觉token的图像，实现3倍的压缩比。在MMLongBench-Doc基准测试中，相比基线VLM整体准确率提升13%，在PDF文档理解等真实多模态场景中表现优异。

模型链接：https://modelscope.cn/models/ZhipuAI/Glyph

10月27日

【开源】Minimax发布轻量MoE模型MiniMax-M2
Minimax发布MiniMax-M2，这是一款轻量、快速且极具成本效益的混合专家模型。该模型总参数量为230B，激活参数量仅为10B，专为Max级编码与智能体任务打造。凭借其高效的参数激活机制，在编码和智能体工具使用的基准测试中表现优异，同时更易于部署和扩展。

模型链接：https://modelscope.cn/models/MiniMax/MiniMax-M2

10月31日

【闭源】阿里发布Qwen图像编辑模型升级版
阿里发布qwen-image-edit-plus-2025-10-30，该版本在原有qwen-image-edit模型基础上，重点优化了推理性能与系统稳定性，大幅缩短了图像生成与编辑的响应时间。新版本还新增支持单次请求返回多张图片的功能。

详情链接：https://help.aliyun.com/zh/model-studio/qwen-image-edit-guide

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14663

AI前沿速递：长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

10月26日

10月27日

10月31日

相关推荐

骨折CEO卧床14天，用语音养出24小时AI团队：从零到百万浏览的硬核实验

MonkeyOCR v1.5：多模态文档解析新范式，复杂表格与跨页结构难题的终结者

GPT-5.2突袭Cursor：OpenAI以编程为战场，打响对Gemini 3的反击战

阿里2步生成方案：5秒4张2K图，AI生图速度提升40倍

操作系统级AI融合：夸克浏览器全面集成千问助手，开启PC生产力新纪元