AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

10月26日

【开源】美团LongCat-Video视频生成模型
美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频、视频续写三大核心任务,能够实现分钟级长视频的连贯生成,从根源上保障了跨帧时序一致性与物理运动的合理性。

模型链接:https://modelscope.cn/models/meituan-longcat/LongCat-Video

【开源】清华&智谱AI发布Glyph视觉-文本压缩框架
清华大学CoAI实验室与智谱AI联合发布Glyph框架,通过视觉-文本压缩技术扩展上下文长度。该框架可将24万token的《简·爱》文本渲染为约8万视觉token的图像,实现3倍的压缩比。在MMLongBench-Doc基准测试中,相比基线VLM整体准确率提升13%,在PDF文档理解等真实多模态场景中表现优异。

模型链接:https://modelscope.cn/models/ZhipuAI/Glyph

10月27日

【开源】Minimax发布轻量MoE模型MiniMax-M2
Minimax发布MiniMax-M2,这是一款轻量、快速且极具成本效益的混合专家模型。该模型总参数量为230B,激活参数量仅为10B,专为Max级编码与智能体任务打造。凭借其高效的参数激活机制,在编码和智能体工具使用的基准测试中表现优异,同时更易于部署和扩展。

模型链接:https://modelscope.cn/models/MiniMax/MiniMax-M2

10月31日

【闭源】阿里发布Qwen图像编辑模型升级版
阿里发布qwen-image-edit-plus-2025-10-30,该版本在原有qwen-image-edit模型基础上,重点优化了推理性能与系统稳定性,大幅缩短了图像生成与编辑的响应时间。新版本还新增支持单次请求返回多张图片的功能。

详情链接:https://help.aliyun.com/zh/model-studio/qwen-image-edit-guide


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14663

(0)
上一篇 2025年11月3日 上午11:44
下一篇 2025年11月3日 下午12:04

相关推荐

  • 从文本生成到任务执行:AI能力跃迁的三年革命与人类角色的重新定义

    在人工智能发展的历史长河中,过去三年无疑构成了一个独特而关键的转折期。从2022年底ChatGPT引爆全球关注至今,AI技术不仅完成了从实验室到大众应用的跨越,更在功能形态上实现了从被动响应到主动执行的质变。这一进程不仅重塑了技术本身的能力边界,更在深层次上重构了人类与智能系统之间的协作关系。 回顾三年前的技术图景,GPT-3所展现的文本生成能力曾被视为革命…

    2025年11月30日
    7000
  • 智元机器人量产破5000台:具身智能商业化进程加速,三大产线全面落地工业与消费场景

    智元机器人近日宣布第5000台通用具身机器人正式量产下线,这一里程碑事件不仅标志着该公司在短短三年内实现了从创业到规模化生产的跨越,更折射出中国具身智能产业商业化进程的显著提速。作为由“天才少年”彭志辉创立的硬核科技企业,智元以5000台的量产规模,提前触及了行业机构对2025年中国人形机器人商用出货量的预测值,预示着具身智能的量产元年可能比预期更早到来。 …

    2025年12月9日
    9800
  • 华为openPangu-R-7B-Diffusion:扩散语言模型突破32K长文本瓶颈,开启“慢思考”推理新范式

    在人工智能技术快速演进的浪潮中,文本生成领域正经历着从自回归模型到扩散语言模型(Diffusion Language Models)的深刻范式转变。这一转变不仅代表着技术路径的革新,更预示着语言模型在处理复杂认知任务时的能力边界将被重新定义。然而,扩散模型在长序列训练中的不稳定性问题,尤其是上下文窗口的限制,一直是制约其在数学推理、编程任务等需要深度“慢思考…

    2025年12月2日
    7400
  • AI腔调入侵:当人类语言被大模型重塑,我们如何守护交流的真实性?

    近期,OpenAI首席执行官山姆·奥特曼在社交媒体上公开表达了对“AI腔调”(LLM-speak)现象的担忧。他在浏览关于Codex的论坛讨论时,发现大量帖子虽然内容属实,但语言风格高度同质化,充满程序化表达,让人怀疑是AI生成或人类模仿AI的结果。奥特曼指出,这种交流方式让真实的人际互动“感觉很假”,并警示过度依赖和模仿AI可能导致人性特质的流失。这一观察…

    2025年11月3日
    7400
  • 跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

    终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据,在保持对已知数据识别能力的同时,吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行,白天采集的可见光图像和夜晚采集的红外图像数据不断积累,终身行人重识别方法需要持续学习特定模态中的新知识(例如仅适用于红外模态的热辐射…

    2025年12月6日
    7200