AI产业动态
-
DeepSeek开源视觉压缩模型引爆业界,单GPU实现高效长文本处理
DeepSeek-OCR创新性地提出“视觉压缩文本”范式,通过将文本信息转化为图像表征,有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构,实现用少量视觉token高效表示海量文本内容。实验表明,在10倍压缩率下解码准确率达97%,20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据,在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”,更为统一视觉与语言处理、构建类人记忆机制提供了新路径。
-
AI大模型周报:阿里、腾讯、Anthropic等巨头密集发布,多模态与推理能力成焦点
10月13日 【开源】 阿里开源 Qwen3-VL-8B-Thinking 与 Qwen3-VL-8B-Instruct 模型。作为 Qwen3-VL 系列的 8B Dense 模型,它们显存占用更低,具备多模态理解与推理能力,支持长视频、长文档等超长上下文输入,并集成了视觉 2D/3D 定位、全面空间感知与万物识别功能。 10月14日 【闭源】 腾讯混元发…
-
开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人
“很多模型在模拟器里完美运行,但一到现实就彻底失灵。” 在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。 唐文斌是旷视科技联合创始人兼CTO,原力灵机(Dexmal)CEO、清华大学“姚班”出身、首届“Yao Award”金牌得主。 针对当前痛点,他和团队联合Hugg…
-
DreamOmni2:字节跳动开源多模态图像编辑工具,开启自然语言驱动的视觉创作新时代
近日,字节跳动推出了一款名为DreamOmni2的开源免费图像编辑工具,它并非传统的图像生成器,而是一款能够理解文字与图片复合指令的智能编辑器。这一创新标志着多模态AI技术在图像处理领域的重大突破,将专业级图像编辑能力转化为自然语言操作,极大地降低了技术门槛。 DreamOmni2的核心优势在于其强大的多模态理解能力。用户可以通过自然语言指令结合参考图片,实…
-
内容主权与AI爬取博弈:Cloudflare内容信号政策如何重塑互联网契约
在AI技术浪潮席卷全球的当下,互联网内容生态正面临前所未有的结构性挑战。传统模式下,网站运营者陷入两难困境:完全开放内容意味着数据被无偿爬取、流量被平台虹吸;而设置登录墙或严格屏蔽爬虫则会导致用户触达率骤降,商业价值受损。这种矛盾在生成式AI和大模型训练需求爆炸性增长的背景下被急剧放大——AI公司需要海量高质量数据训练模型,而内容创作者却难以从数据价值中分得…
-
HeyGen ARR破亿背后的AI时代运营哲学:从“稳定地基”到“驾驭浪潮”的范式革命
近日,AI视频生成领域的明星公司HeyGen宣布其年化经常性收入(ARR)已突破1亿美元大关。这一里程碑尤为引人注目的是,该公司在短短29个月前才刚刚达到100万美元ARR,实现了百倍级的指数增长。这一成就不仅彰显了HeyGen在商业上的成功,更揭示了AI技术快速迭代时代下,一种全新的企业运营范式正在崛起。 HeyGen创始人兼CEO Joshua Xu近期…
-
李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙
“AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”
-
REFRAG:突破RAG性能瓶颈,利用注意力稀疏性实现30倍加速
随着大语言模型在检索增强生成(RAG)系统中的广泛应用,一个日益突出的性能问题浮出水面:上下文窗口的持续扩展导致首个token生成延迟呈二次方增长,严重制约了系统的实时响应能力。传统RAG流程虽然简单直接——将查询编码为向量,从向量数据库中检索相似文本块,然后完整输入给LLM处理——但这种方法存在显著效率缺陷。大多数检索到的文本块包含大量无关内容,迫使LLM…
-
具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集
近日,RoboChallenge 重磅推出!这是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试。 通过科学的评估体系构建一个开放、公正、可复现的「真实考场」,克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等关键挑战,RoboChallenge 可为视觉-语言-动作模型(VLAs)在机器人的实际应用提供更加可…
-
谷歌Veo 3.1震撼发布,全面迎战Sora 2:AI视频的“专业级”战争正式打响
2025年10月16日,谷歌发布AI视频生成模型Veo 3.1,正面迎战OpenAI的Sora 2。新版本主打电影级画质、原生音频同步、精准对象编辑与首尾帧插值,支持最长148秒视频生成,全面接入Flow、Gemini API与Vertex AI平台。与Sora 2的“生活化、社交化”路线不同,Veo 3.1定位专业创作与商业应用,标志着AI视频生成进入可控、可编辑、可商用的工业化阶段。