多模态生成

开源项目

DeepGen 1.0：5B参数统一多模态生成编辑模型开源，4060ti 10秒出图，多项指标超越大4倍工业模型

DeepGen 1.0：开源统一多模态生成编辑模型近年来，统一多模态生成编辑模型正朝着参数规模庞大的方向发展，动辄数十亿参数，这为普通研究团队的复现和个人本地部署带来了显著挑战。近日，由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B（其中视觉语言模型部分3B，扩散T…

2天前

97000

大模型工程

清华UniCardio：多模态扩散模型革新心血管监测，实现实时全面信号生成

可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰，高质量的心血管信号仍难以长期便捷获取，这是智能健康监测系统始终面临的现实困境。近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardi…

2025年12月30日

295000

AI产业动态

从“搜得到”到“看得懂”：秘塔AI搜索如何用漫画式课件重塑知识获取范式

在AI技术日新月异的今天，知识获取方式正经历着前所未有的变革。近期，秘塔AI搜索推出的漫画式课件生成功能，不仅是对海外Nano Banana 2玩法的快速响应，更是一次对AI辅助学习场景的深度重构。这一功能通过将复杂文本转化为图文并茂、配有语音讲解的生动课件，彻底改变了用户处理学术论文、行业报告等长篇内容的传统模式。从技术实现层面分析，秘塔AI搜索的课件生…

2025年12月9日

178000

AI产业动态

Nano Banana Pro深度解析：时空重构AI的突破与局限

近期，Nano Banana Pro凭借其“时空重现”能力引发广泛关注。这款AI模型只需输入坐标和可选时间参数，就能生成对应时空的拟真影像，从技术角度看，这标志着多模态AI在时空理解与生成领域迈出了重要一步。从技术架构分析，Nano Banana Pro的核心突破在于实现了从“推理”到“创造”的能力跃迁。早期版本已能通过图像反推拍摄坐标，展现出色的地理空间…

2025年11月26日

190000

AI产业动态

Gemini 3 Pro引爆创意革命：从文本到交互式应用的AI生成新范式

在人工智能技术快速迭代的浪潮中，谷歌最新发布的Gemini 3 Pro模型以其惊人的多模态生成能力，正在重新定义创意实现的边界。这款被网友戏称为“与上一代2.5 Pro之间差出一个GPT-5.1”的模型，仅发布一天就催生了大量令人惊叹的应用实例，展现出从简单文本描述到完整交互式应用的跨越式生成能力。从技术架构层面分析，Gemini 3 Pro的核心突破在于…

2025年11月20日

185000

AI产业动态

从AI工具到叙事宇宙：Neural Viz如何用技术革新重塑电影创作边界

在AI技术席卷创意产业的浪潮中，洛杉矶电影人Josh以Neural Viz为名，用一系列AI工具构建了一个名为“格隆人”的科幻伪纪录片宇宙。这个项目不仅挑战了传统影视制作流程，更在AI生成内容普遍被视为“粗制滥造”的舆论环境中，开辟了一条融合技术精度与叙事深度的新路径。本文将从技术实现、叙事建构、行业影响三个维度，深入分析这一案例背后的创新逻辑与产业启示。 …

2025年11月19日

195000