大模型爆料

  • DeepSeek开源视觉压缩模型引爆业界,单GPU实现高效长文本处理

    DeepSeek-OCR创新性地提出“视觉压缩文本”范式,通过将文本信息转化为图像表征,有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构,实现用少量视觉token高效表示海量文本内容。实验表明,在10倍压缩率下解码准确率达97%,20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据,在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”,更为统一视觉与语言处理、构建类人记忆机制提供了新路径。

    2025年10月21日
    6000
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线

    谷歌Gemini 3.0 Pro即将上线,实测表现惊艳。新一代模型在编程、视觉生成和多模态能力上大幅提升,不仅轻松通过“小球六边形重力摩擦”等经典测试,更被开发者盛赞为“有史以来最强前端开发模型”。与此同时,谷歌正全面整合Gemini生态系统,从即将推出的轻量级Gemma 3到全新的视觉化界面设计,预示着AI竞赛将进入全新阶段。

    2025年10月4日
    11302
  • Sora 2 来袭:生成20秒逼真视频,正面碾压谷歌Veo 3?

    OpenAI 正式推出新一代 AI 视频模型 Sora 2,能直接生成长达 20 秒的 1080p 高清视频,在物理真实感、可控性和音画同步方面显著提升。实测显示,其生成效果逼真,但在复杂动作和中文理解上仍有瑕疵。与竞争对手谷歌 Veo 3 相比,双方在各场景下互有胜负。同时,OpenAI 推出了类似 TikTok 的 Sora 应用,旨在建立产品生态,但其“全 AI 视频流”模式能否成功,仍有待观察。

    2025年10月1日
    10600
  • 【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

    Claude 4.5与Gemini 3即将发布,但焦点在DeepSeek。其V3.2版本疑似官方预热,而十月将至的V4版本则被曝将实现1M上下文长度、GRPO Turbo多步思考及更高推理效率等重大升级。

    2025年10月1日
    11501