多模态
-
OpenAI前CTO创企发布实时交互模型:200ms微回合,让AI边听边说边想
AI交互告别“回合制”:200ms微回合,让模型边听边说边思考 AI的交互方式终于突破了“回合制”的桎梏。 Thinking Machines Lab(以下简称 TML)近日发布了其首个模型,将实时交互能力直接嵌入模型的原生架构中。 联合创始人翁荔亲自出镜演示,展示了这一颠覆性的变化:从传统的“人说完→AI答→人再说→AI再答”,进化为“人和AI可以随时插话…
-
SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破
近日,来自香港科技大学 MMLab 及其合作团队的研究成果——「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」,已被计算机图形学顶级会议 SIGGRAPH 2026 正式收录。 论文地址:https://arxiv.org…
-
DeepSeek识图模式实测:推理4分钟却秒错,但HTML复原和OCR惊艳全场
实测 DeepSeek 识图模式:推理耗时4分钟却秒错,但HTML复原与OCR表现惊艳 今天,你被DeepSeek识图模式灰度测试覆盖了吗? 大家对DeepSeek多模态功能的期待已经持续了相当长的时间。随着V4版本的发布,惊喜接踵而至。在官方尚未披露更多细节之前,各路技术爱好者已从不同角度挖掘出关于“识图”能力的诸多线索。 确实有不少发现。 例如,Deep…
-
DeepSeek V4视觉功能灰度测试:真实图像理解能力上线,多模态拼图补齐
DeepSeek V4 视觉功能灰度测试:真实图像理解能力上线,多模态拼图补齐 DeepSeek 的视觉能力终于来了! 研究员陈小康在社交媒体上发布了一条消息——“Now, we see you.” 随后,另一位研究员陈德里也跟进确认,V4 的视觉模式已开始灰度测试。 看来,那条小鲸鱼的多模态拼图,即将完整。 已经具备真实图像理解能力 过去,用户上传图片后,…
-
商汤SenseNova U1开源模型:本地部署的连续图文生成新霸主
最近GPT Image 2走红后,网络上充斥着大量足以乱真的AI生成图像。大模型在视觉领域的探索不断深入,既令人感到兴奋,也让人心生敬畏。在当前的AI图像生成领域,GPT Image 2几乎毫无争议地占据着领先地位。然而,如果说云端闭源且收费的最强模型是GPT Image 2,那么能够部署在本地、免费且开源的模型,或许就是SenseNova U1。 由Sen…
-
DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!
本以为DeepSeek这轮疯狂的AI更新已经暂告段落,但谁也没想到,就在上周刚刚发布V4版本之后,它又猝不及防地抛出了一个更大的惊喜。 就在刚刚,DeepSeek正式上线了识图模式,目前正处于灰度测试阶段。这意味着,被业界热议了一整年的DeepSeek多模态能力,终于落地了! 目前,DeepSeek网页版和App更新后,部分用户都有可能被灰度到这一新功能。A…
-
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
周四晚间,Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。 Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升,尤其是在处理最复杂的任务方面。根据用户反馈,现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务,精准执行指令,并在返回结果前设…
-
Jeff Dean预言AI时代工程师革命:管理50个智能体实习生,核心技能从写代码转向“定义问题”
关键词: 智能体、Jeff Dean、全栈协同、多模态、定义问题 “未来每个工程师可能会各自管理 50 个智能体‘实习生’,完成大量并行任务,而且沟通效率会比人与人协作更高。未来最重要的技能将会是‘写清楚需求’,因为智能体的输出质量完全取决于你如何定义问题。” 2026年3月,谷歌首席AI科学家、传奇工程师杰夫·迪恩(Jeff Dean)在一次深度访谈中,提…
-
阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!
阿里通义千问发布了Qwen3.5系列的四款小参数规模模型,分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制,此项技术借鉴自其397B参数的大模型。 该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算,内存占用保持恒定;全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质…
-
向量检索评估体系大洗牌:IceBerg基准揭示HNSW并非最优,多模态RAG远未标准化
将多模态数据纳入到RAG(检索增强生成)乃至Agent框架,是目前大语言模型(LLM)应用领域最受关注的方向之一。针对多模态数据最自然的召回方式,便是向量检索。 然而,我们正在依赖的这一整套“embedding → 向量检索 → 下游任务”的流程,其实存在一个未被正确认知到的陷阱。许多人认为向量检索方法已经标准化,遇到向量检索需求便不假思索地选择HNSW算法…
