多模态AI

Vision Agents：开源框架革新实时视频AI，构建多模态智能体的终极解决方案

如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统，就会知道其技术栈有多么复杂。视频需要一个 SDK。语音需要另一个。目标检测需要另一个。大语言模型（LLM）还需要一个。之后，你仍需将所有组件集成起来，处理延迟问题，并设法让整个系统实时运行。 Vision Agents 改变了这一切。这是一个开源框架，旨在帮助开发者构建能…

2025年12月17日

207000

开源项目

AI掌控安卓手机：四大开源项目深度解析与实战指南

AI掌控安卓手机：四大开源项目深度解析与实战指南去年11月，一篇盘点GitHub上AI操控手机开源项目的文章引发了广泛关注。文章发布仅五天后，豆包便官宣推出AI手机，紧接着智谱AI开源了AutoGLM模型。这标志着AI与移动设备交互进入了一个新的阶段。本文将整合最新的开源项目，对当前GitHub上主流的AI控制手机方案进行一次全面的梳理和解析。 01 智…

2025年12月15日

287000

AI产业动态

GPT-5.2深度解析：专业生产力工具的进化与多模态能力突破

OpenAI近期正式发布了GPT-5.2系列模型，这一更新标志着人工智能在专业工作场景中的应用迈入新阶段。数据显示，ChatGPT企业版用户平均每日可节省40-60分钟的工作时间，重度用户每周节省超过10小时，这不仅是效率的提升，更是工作模式的根本性变革。GPT-5.2的核心目标在于释放更广泛的经济价值，通过技术优化推动各行业知识工作者的生产力跃升。在专业…

2025年12月12日

179000

AI产业动态

可灵AI年末密集更新：多模态统一引擎与音画同出技术如何重塑生成式AI竞争格局

2024年12月初，可灵AI在短短五天内连续发布五项重要更新，包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能等，这一系列动作不仅展示了其在生成式AI领域的技术突破，更直接推动了行业竞争进入新的高度。本文将从技术架构、产品创新、行业影响三个维度，深入分析可灵AI此次更新的核心价值与未来趋势。 …

2025年12月10日

223000

AI产业动态

AI模型周报：阶跃星辰GUI Agent破纪录，Mistral 3系列开源引领多模态浪潮

12月1日【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero，首次将GUI Agent模型与完整的配套基础设施同步开放，支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录，取得了SOTA成绩。此外，阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily，旨…

2025年12月8日

268000

AI产业动态

谷歌DeepMind掌门人揭示AGI路线图：2030年前需1-2个Transformer级突破，Titans架构或成关键

在人工智能发展的关键节点，谷歌DeepMind首席执行官Demis Hassabis近期对未来技术趋势做出了系统性预测，为行业提供了清晰的路线图。这些预测不仅基于当前技术进展，更反映了全球顶尖研究机构对通用人工智能（AGI）实现路径的深刻思考。 Hassabis提出的五大核心趋势构成了未来AI发展的基本框架。首先是多模态融合的彻底打通，这意味着文本、图像、音…

2025年12月7日

272000

AI产业动态

生成式推荐新纪元：从腾讯广告算法大赛看全模态AI的产业变革

在人工智能技术快速演进的浪潮中，推荐系统正经历一场从“判别式”到“生成式”的范式革命。近期落幕的腾讯广告算法大赛，以“全模态生成式推荐”为核心赛题，吸引了全球30个国家、8400多名技术精英、2800余支战队参与角逐。这场历时四个月的“千团大战”，不仅是一场技术实力的较量，更成为观察下一代推荐技术发展趋势的重要窗口。冠军由来自华中科技大学、北京大学、中国科学…

2025年12月3日

231000

AI产业动态

谷歌Gemini 3逆袭：ChatGPT三周年遭遇技术“斩首”，AI霸权格局重塑

导读 ChatGPT问世三周年之际，其主导地位正面临严峻挑战。谷歌凭借Gemini 3的发布，发起了一场决定性的技术反击，重塑了AI领域的竞争格局。如果将时间拨回2022年12月1日，那是一个相对安静的周三。旧金山的非营利实验室OpenAI，悄无声息地发布了一个名为“ChatGPT”的研究预览版。 ChatGPT三年前的样子没有盛大的发布会，只有一个朴素…

2025年12月1日

178000

AI产业动态

2025年11月AI大模型爆发月报：从美团LongCat到Meta SAM 3，开源与闭源模型全面升级

11月3日【开源】美团发布 LongCat-Flash-Omni-FP8，这是一个拥有560亿参数（激活27B）的开源全模态模型，擅长实时音视频交互。该模型采用高性能捷径连接的混合专家（MoE）架构，结合高效的多模态感知与语音重建模块，并运用课程启发式渐进训练策略，在保持强大单模态能力的同时，实现了全面的多模态能力。 11月7日【开源】 Moonsho…

2025年12月1日

214000

AI产业动态

MEET2026智能未来大会：AI前沿技术与产业落地的全景透视

随着人工智能技术的飞速发展，全球科技产业正迎来新一轮的变革浪潮。MEET2026智能未来大会作为年度重要科技盛会，不仅汇聚了顶尖学者与行业领袖，更成为洞察AI技术趋势与产业融合的关键窗口。本文将从大会主题、嘉宾阵容、技术议题等维度，深入分析当前AI领域的发展动态与未来走向。大会以「共生无界，智启未来」为主题，深刻反映了AI技术正逐步打破传统边界，实现跨学科…

2025年11月27日

178000