AI前沿速递：长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

2025年11月3日下午12:00 • AI产业动态 • 阅读 364

10月26日

【开源】美团LongCat-Video视频生成模型
美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分，原生支持文生视频、图生视频、视频续写三大核心任务，能够实现分钟级长视频的连贯生成，从根源上保障了跨帧时序一致性与物理运动的合理性。

模型链接：https://modelscope.cn/models/meituan-longcat/LongCat-Video

【开源】清华&智谱AI发布Glyph视觉-文本压缩框架
清华大学CoAI实验室与智谱AI联合发布Glyph框架，通过视觉-文本压缩技术扩展上下文长度。该框架可将24万token的《简·爱》文本渲染为约8万视觉token的图像，实现3倍的压缩比。在MMLongBench-Doc基准测试中，相比基线VLM整体准确率提升13%，在PDF文档理解等真实多模态场景中表现优异。

模型链接：https://modelscope.cn/models/ZhipuAI/Glyph

10月27日

【开源】Minimax发布轻量MoE模型MiniMax-M2
Minimax发布MiniMax-M2，这是一款轻量、快速且极具成本效益的混合专家模型。该模型总参数量为230B，激活参数量仅为10B，专为Max级编码与智能体任务打造。凭借其高效的参数激活机制，在编码和智能体工具使用的基准测试中表现优异，同时更易于部署和扩展。

模型链接：https://modelscope.cn/models/MiniMax/MiniMax-M2

10月31日

【闭源】阿里发布Qwen图像编辑模型升级版
阿里发布qwen-image-edit-plus-2025-10-30，该版本在原有qwen-image-edit模型基础上，重点优化了推理性能与系统稳定性，大幅缩短了图像生成与编辑的响应时间。新版本还新增支持单次请求返回多张图片的功能。

详情链接：https://help.aliyun.com/zh/model-studio/qwen-image-edit-guide

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/14663

AI前沿速递：长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

10月26日

10月27日

10月31日

相关推荐

从Roadster退款到52页备忘录：马斯克与奥特曼的OpenAI恩怨与Ilya证词深度解析

从“内容理解”到“用户角色认知”：快手TagCF框架如何重塑推荐系统的逻辑范式

AI量化科研领导力：中美科学合作格局的算法透视与未来预测

开源多模态推理新突破：MMFineReason框架以4B参数逆袭30B模型，开启数据驱动的高效推理时代

机器人内卷新高度！Gen-1模型成功率99%，效率提升3倍，还能“即兴”处理突发状况