多模态AI
-
GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破
GPT Image 2 惊艳全网:架构重构与核心团队揭秘 GPT Image 2 的出色效果引发广泛关注。研究负责人陈博远透露,其底层架构已实现彻底重构。 对于是否采用扩散模型或自回归技术,他并未直接回应,而是将模型描述为“通用模型”或“图像领域的 GPT”。 陈博远在社交媒体上表示,从去年 12 月底的 GPT Image 1.5 算起,仅用四个月便实现了…
-
阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元
近期,世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH(Alibaba Token Hub)事业群,正式发布了其首个主动式实时交互世界模型产品——HappyOyster(快乐生蚝)。 据官方介绍,HappyOyster基于原生多模态架构,是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开:漫游(Wander)、导演(Dir…
-
字节Seedance 2.0发布:170人团队公开论文,全球铺开却无美国,技术突破AI视频生成瓶颈
字节跳动旗下现象级AI视频生成技术Seedance 2.0的研究论文已在arXiv平台公开发布。 论文中包含了长达26页的基准测试(Benchmark)结果与完整的贡献者名单。 团队公开了全部170名成员的名单,体现了对研究贡献的充分署名与尊重。 论文发布之际,正值Seedance 2.0通过Byteplus平台向全球企业客户开放。全球100多个国家的客户可…
-
无问芯穹发布InfiniClaw Box:端云一体三段式安全脱敏,破解大模型隐私保护难题
在OpenClaw应用热潮中,隐私保护的缺位正成为企业与开发者面临的核心挑战。 用户既希望获得顶级大模型的强大能力,又要求数据在本地享有绝对安全。然而,传统的解决方案往往难以兼顾:本地算力设备难以处理复杂任务,而常见的脱敏方案通常仅支持文本,无法有效处理语音、视频等多模态数据。 这种全模态安全能力的缺失,成为了OpenClaw规模化落地的关键障碍。 针对这一…
-
Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆
Google DeepMind 正式发布 Gemma 4,这是一个包含四个型号的多模态开源模型家族。 四款模型分别为:E2B(2.3B 有效参数)、E4B(4.5B 有效参数)、31B(密集模型)以及 26B A4B(MoE 架构,4B 激活参数)。其中,31B 和 26B A4B 均支持 256K 上下文窗口,并可在单张 H100 GPU 上运行。 从架构…
-
谷歌Gemma 4震撼发布:31B模型击败20倍体量对手,手机离线跑多模态,Apache 2.0协议全面开源
谷歌发布Gemma 4模型家族:31B版本性能超越十倍体量对手,全系列支持多模态并采用Apache 2.0协议 谷歌最新发布的Gemma 4开源模型家族表现强劲。其中,参数量为310亿(31B)的密集模型在性能基准测试中,超越了参数量大10-20倍的对手,例如Qwen3.5-397B和DeepSeek v3.2-671B。 此次发布的Gemma 4系列共包含…
-
OpenClaw 2026.3.31版本泄露:内置QQ Bot、强化多模态、可视化任务流,AI工具向“AI入口”转型
今日,OpenClaw发布了2026.3.31版本。根据官方信息,本次更新包含一系列重要功能,标志着该平台正从单一的AI工具向集成化的“AI入口”演进。 核心更新概览 1. 内置QQ Bot本次更新最受关注的特性之一是内置了对QQ平台的支持。该插件支持多账号管理、凭证安全存储、Slash命令、提醒功能以及多媒体消息收发。这意味着用户可以在QQ的私聊、群聊及频…
-
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力 近年来,视觉语言模型(VLMs)在图文问答、表格理解、数学应用题等多模态任务上取得了显著进展。然而,当面对几何图形问题时,它们的表现往往明显下降。 近日,来自光明实验室与清华大学的研究团队通过深入剖析多个主流模型的错误案例,发现了一个关键问题:当前VLM在几何问题上…
-
TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破
TuriX-CUA:让AI像人类一样操作电脑,跨应用自动化新突破 在浏览GitHub时,一个名为 TuriX-CUA 的开源项目引起了我的注意。这是一个 Computer-Use Agent(电脑使用智能体)框架。 其核心目标是让大型AI模型能够像人类用户一样,直接观察电脑屏幕并执行鼠标、键盘等操作,从而完成跨多个桌面应用程序的复杂任务,而不仅限于在聊天对话…
-
Luma发布Uni-1图像生成模型:统一理解与生成,中文文字渲染能力突出
上周,谷歌推出了 Nano Banana 2 模型,以其快速且经济的特性在社交平台上引发了广泛关注。 与此同时,海外 AI 初创公司 Luma 发布了一款全新的图像生成模型 Uni-1。 Uni-1 是 Luma 首个将“理解”与“生成”功能统一在同一架构下的模型,旨在使 AI 不仅能够生成图像,还能更好地理解指令。 例如,它可以生成极具视觉冲击力的时尚杂志…
