
10月21日
【闭源】阿里发布Qwen3-VL-32B系列模型
阿里发布了Qwen3-VL-32B-Thinking和Qwen3-VL-32B-Instruct两款32B参数的Dense模型。该系列在文档识别与理解、空间感知与万物识别、视觉2D检测与空间推理等能力上表现优异,适用于通用场景下的复杂感知任务。
详情链接:https://help.aliyun.com/zh/model-studio/vision
【开源】DeepSeek发布DeepSeek-OCR
DeepSeek提出“上下文光学压缩”新范式,将长文本渲染成图像后,利用视觉编码器将其压缩为极少量视觉token。在≤10×压缩比下,其OCR精度可达97%,仅用100个token即可超越GOT-OCR2.0。该模型支持近百种语言及图表解析,单台A100可日处理20万页文档。
详情链接:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR
【开源】科大讯飞发布Spark-Scilit-X1-13B
科大讯飞发布了为学术研究场景量身定制的大规模语言模型Spark-Scilit-X1-13B。该模型在论文辅助阅读、学术翻译、英文润色和评论生成方面表现出色,其设计结合了长链思维推理和双过程理论的统一框架,支持快速和慢速两种思考模式。
详情链接:https://modelscope.cn/models/iflytek/Spark-Scilit-X1-13B
10月22日
【开源】腾讯混元发布世界模型1.1版本
腾讯混元发布了世界模型1.1版本HunyuanWorld-Mirror。新版本新增支持多视图及视频输入,可实现单卡部署,并能在秒级内创造3D世界。该模型在单次前向传递中可同时生成点云、多视图深度、相机参数、表面法线、3D高斯等多种3D表示。
详情链接:https://modelscope.cn/models/Tencent-Hunyuan/HunyuanWorld-Mirror
- Qwen3-Max-Preview实测:非思考模型新王者诞生
- LLM文本摘要评测实战指南
- 姚顺雨成名作“智能体评测集τ-bench”上手指南
- DeepSeek-V3.2-Exp非思考模式实测
- DeepSeek-V3.2-Exp思考模式实测:开源模型王者
- 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
- 每月AI大模型更新速递(25年9月)
- 每周AI大模型更新速递10.1~10.12
- 大模型智能体评测综述【Benchmarks解读】
- 智谱GLM-4.6硬刚豆包、DeepSeek:速度快40%,为何还是输了?
- 腾讯混元turbos实测:Agent能力暴跌25.7%,2元成本却让全行业沉默了
- 做好AI Agent最重要的是什么?Uber等大厂600人现场揭秘:95%失败的真相!
- LLM应用评测全指南:核心指标、基准测试与实践方法
- 省掉90%标注成本!DeepEval开源合成数据完整方案

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14683
