多模态 - 鲸林向海

AI产品库

OpenAI前CTO创企发布实时交互模型：200ms微回合，让AI边听边说边想

AI交互告别“回合制”：200ms微回合，让模型边听边说边思考 AI的交互方式终于突破了“回合制”的桎梏。 Thinking Machines Lab（以下简称 TML）近日发布了其首个模型，将实时交互能力直接嵌入模型的原生架构中。联合创始人翁荔亲自出镜演示，展示了这一颠覆性的变化：从传统的“人说完→AI答→人再说→AI再答”，进化为“人和AI可以随时插话…

18小时前

124000

AI产业动态

SIGGRAPH 2026接收！UniVidX统一框架实现多模态视频生成新突破

近日，来自香港科技大学 MMLab 及其合作团队的研究成果——「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」，已被计算机图形学顶级会议 SIGGRAPH 2026 正式收录。论文地址：https://arxiv.org…

1天前

124000

AI产业动态

DeepSeek识图模式实测：推理4分钟却秒错，但HTML复原和OCR惊艳全场

实测 DeepSeek 识图模式：推理耗时4分钟却秒错，但HTML复原与OCR表现惊艳今天，你被DeepSeek识图模式灰度测试覆盖了吗？大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布，惊喜接踵而至。在官方尚未披露更多细节之前，各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。确实有不少发现。例如，Deep…

2026年4月30日

327000

DeepSeek V4视觉功能灰度测试：真实图像理解能力上线，多模态拼图补齐

DeepSeek V4 视觉功能灰度测试：真实图像理解能力上线，多模态拼图补齐 DeepSeek 的视觉能力终于来了！研究员陈小康在社交媒体上发布了一条消息——“Now, we see you.” 随后，另一位研究员陈德里也跟进确认，V4 的视觉模式已开始灰度测试。看来，那条小鲸鱼的多模态拼图，即将完整。已经具备真实图像理解能力过去，用户上传图片后，…

AI产品库 2026年4月29日

346000

商汤SenseNova U1开源模型：本地部署的连续图文生成新霸主

最近GPT Image 2走红后，网络上充斥着大量足以乱真的AI生成图像。大模型在视觉领域的探索不断深入，既令人感到兴奋，也让人心生敬畏。在当前的AI图像生成领域，GPT Image 2几乎毫无争议地占据着领先地位。然而，如果说云端闭源且收费的最强模型是GPT Image 2，那么能够部署在本地、免费且开源的模型，或许就是SenseNova U1。由Sen…

开源项目 2026年4月29日

527000

AI产业动态

DeepSeek突然上线识图模式，AI圈炸了：这只鲸鱼终于睁眼了！

本以为DeepSeek这轮疯狂的AI更新已经暂告段落，但谁也没想到，就在上周刚刚发布V4版本之后，它又猝不及防地抛出了一个更大的惊喜。就在刚刚，DeepSeek正式上线了识图模式，目前正处于灰度测试阶段。这意味着，被业界热议了一整年的DeepSeek多模态能力，终于落地了！目前，DeepSeek网页版和App更新后，部分用户都有可能被灰度到这一新功能。A…

2026年4月29日

333000

大模型工程

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

周四晚间，Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。 Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升，尤其是在处理最复杂的任务方面。根据用户反馈，现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务，精准执行指令，并在返回结果前设…

2026年4月17日

592000

AI产业动态

Jeff Dean预言AI时代工程师革命：管理50个智能体实习生，核心技能从写代码转向“定义问题”

关键词：智能体、Jeff Dean、全栈协同、多模态、定义问题 “未来每个工程师可能会各自管理 50 个智能体‘实习生’，完成大量并行任务，而且沟通效率会比人与人协作更高。未来最重要的技能将会是‘写清楚需求’，因为智能体的输出质量完全取决于你如何定义问题。” 2026年3月，谷歌首席AI科学家、传奇工程师杰夫·迪恩（Jeff Dean）在一次深度访谈中，提…

2026年3月14日

338000

AI产业动态

阿里Qwen3.5小模型震撼发布：0.8B参数即可处理视频，边缘AI时代正式开启！

阿里通义千问发布了Qwen3.5系列的四款小参数规模模型，分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制，此项技术借鉴自其397B参数的大模型。该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算，内存占用保持恒定；全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质…

2026年3月3日

674000

大模型评测

向量检索评估体系大洗牌：IceBerg基准揭示HNSW并非最优，多模态RAG远未标准化

将多模态数据纳入到RAG（检索增强生成）乃至Agent框架，是目前大语言模型（LLM）应用领域最受关注的方向之一。针对多模态数据最自然的召回方式，便是向量检索。然而，我们正在依赖的这一整套“embedding → 向量检索 → 下游任务”的流程，其实存在一个未被正确认知到的陷阱。许多人认为向量检索方法已经标准化，遇到向量检索需求便不假思索地选择HNSW算法…

2025年12月25日

363000