2025-12-21 AI日报：Meta开源PE-AV引擎 / Mistral发布OCR 3 / 今日AI动态平稳

模型与开源

● Meta开源PE-AV：SAM Audio的核心引擎
Meta开源了PE-AV（Perception Engine for Audio-Visual），这是其SAM Audio多模态音频分离模型的核心引擎。该技术能结合音频和视频，实现声音检测和视频理解，为音频编辑提供了强大的基座能力。🔗 原文

● Mistral发布Mistral OCR 3，提升识别准确率
Mistral发布新版OCR模型Mistral OCR 3，显著提升了识别准确率，并新增支持识别手写内容和扫描文件。该模型目前未开源，需通过API使用。🔗 原文

行业动态与融资

● 今日AI行业动态相对平稳，无重大融资或产品发布
根据多个资讯源汇总，2025年12月21日全球AI行业未出现大规模融资、重磅产品发布或重大政策变动，市场处于平稳发展期。🔗 原文

工具与框架

● 开发者工具生态持续完善，关注模型集成与工作流优化
行业焦点仍集中在开发者工具的易用性与集成能力上，如AI编程IDE、模型API对接和自动化工作流构建，旨在降低AI应用开发门槛。🔗 原文

研究与技术突破

● 多模态与音频处理成为近期技术热点
继前几日Meta开源SAM Audio后，其核心引擎PE-AV的开源标志着多模态音频-视频理解技术进入新阶段，为实时音视频编辑、内容生成等应用铺平道路。🔗 原文

市场与趋势

● AI技术向垂直领域渗透加速，OCR、音频处理需求增长
Mistral OCR 3的发布反映了市场对高精度文档数字化、手写识别需求的提升。同时，开源音频-视频引擎的出现，预示着AI在多媒体内容创作与处理领域的应用将更加深入。🔗 原文

● 巨头持续加码基础设施与底层技术开源
Meta等科技公司通过开源核心引擎（如PE-AV）构建生态，降低开发者使用先进AI技术的门槛，同时巩固自身在特定技术领域的领导地位。🔗 原文