AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

10月26日

【开源】美团LongCat-Video视频生成模型
美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频、视频续写三大核心任务,能够实现分钟级长视频的连贯生成,从根源上保障了跨帧时序一致性与物理运动的合理性。

模型链接:https://modelscope.cn/models/meituan-longcat/LongCat-Video

【开源】清华&智谱AI发布Glyph视觉-文本压缩框架
清华大学CoAI实验室与智谱AI联合发布Glyph框架,通过视觉-文本压缩技术扩展上下文长度。该框架可将24万token的《简·爱》文本渲染为约8万视觉token的图像,实现3倍的压缩比。在MMLongBench-Doc基准测试中,相比基线VLM整体准确率提升13%,在PDF文档理解等真实多模态场景中表现优异。

模型链接:https://modelscope.cn/models/ZhipuAI/Glyph

10月27日

【开源】Minimax发布轻量MoE模型MiniMax-M2
Minimax发布MiniMax-M2,这是一款轻量、快速且极具成本效益的混合专家模型。该模型总参数量为230B,激活参数量仅为10B,专为Max级编码与智能体任务打造。凭借其高效的参数激活机制,在编码和智能体工具使用的基准测试中表现优异,同时更易于部署和扩展。

模型链接:https://modelscope.cn/models/MiniMax/MiniMax-M2

10月31日

【闭源】阿里发布Qwen图像编辑模型升级版
阿里发布qwen-image-edit-plus-2025-10-30,该版本在原有qwen-image-edit模型基础上,重点优化了推理性能与系统稳定性,大幅缩短了图像生成与编辑的响应时间。新版本还新增支持单次请求返回多张图片的功能。

详情链接:https://help.aliyun.com/zh/model-studio/qwen-image-edit-guide


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14663

(0)
上一篇 2025年11月3日 上午11:44
下一篇 2025年11月3日 下午12:04

相关推荐

  • 骨折CEO卧床14天,用语音养出24小时AI团队:从零到百万浏览的硬核实验

    春节滑雪受伤后,一位CEO卧床不起,却仅凭语音和截图,在14天内基于OpenClaw框架培育出一支能够7×24小时不间断工作的AI团队。 一位因髋关节脱臼而卧床的CEO,竟通过语音交互和屏幕截图,在两周内打造出一支由8个智能体(Agent)组成的自动化AI团队。 这支团队实现了全天候自动运转,并取得了多项成果:公众号文章获得10万以上阅读量,Twitter内…

    2026年3月5日
    60400
  • MonkeyOCR v1.5:多模态文档解析新范式,复杂表格与跨页结构难题的终结者

    2025年6月以来,多模态文档解析领域迎来新一轮研究热潮,该方向逐渐成为多模态理解及大模型数据来源的重要前沿课题。在数字化办公与AI技术深度融合的今天,文档智能解析技术已成为信息抽取、检索增强生成和自动化文档分析的核心基石。然而,现实世界中的文档往往布局复杂、表格嵌套、内含图片公式,甚至跨页分布,这让许多现有的OCR(光学字符识别系统,Optical Cha…

    2025年11月18日
    16900
  • GPT-5.2突袭Cursor:OpenAI以编程为战场,打响对Gemini 3的反击战

    在人工智能领域竞争白热化的当下,OpenAI与谷歌之间的技术对决已进入关键阶段。近期,开发者社区流传的截图显示,在Cursor IDE的模型下拉菜单中,赫然出现了gpt-5.2和gpt-5.2-thinking的选项,这标志着GPT-5.2可能已悄然上线,而其首战场并非ChatGPT网页端,而是选择了编程集成开发环境Cursor。这一战略部署意味深长:Ope…

    2025年12月11日
    18800
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    15400
  • 操作系统级AI融合:夸克浏览器全面集成千问助手,开启PC生产力新纪元

    在AI技术快速演进的浪潮中,浏览器作为互联网的核心入口,正经历从信息工具向智能助手的深刻转型。近日,夸克浏览器宣布全面升级为AI浏览器,深度集成阿里千问大模型,实现了操作系统级的全局AI唤起能力,标志着PC端生产力工具正式迈入智能伴随时代。这一变革不仅重塑了用户与浏览器的交互方式,更可能重新定义未来工作与学习的效率边界。 当前,PC场景仍是深度思考、复杂创作…

    2025年11月27日
    16700