开源模型
-
DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型
DeepGen 1.0:开源统一多模态生成编辑模型 近年来,统一多模态生成编辑模型正朝着参数规模庞大的方向发展,动辄数十亿参数,这为普通研究团队的复现和个人本地部署带来了显著挑战。 近日,由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B(其中视觉语言模型部分3B,扩散T…
-
英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升
英伟达发布开源混合专家模型Nemotron-3-Super,120B参数支持百万上下文 英伟达正式发布并开源了其最新的混合专家模型Nemotron-3-Super,该模型拥有1200亿参数,在多项基准测试中表现卓越。 在评估智能体控制能力的PinchBench测试中,Nemotron-3-Super取得了85.6%的高分,位列同类开源模型榜首。此外,在Art…
-
英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6
全球市值领先的英伟达,正式进军OpenClaw领域。其最新发布的开源模型Nemotron 3 Super,专为大规模AI智能体打造。 该模型拥有1200亿参数,采用120亿激活参数,支持100万token的上下文长度。据称,其推理速度提升高达3倍,吞吐量提升达5倍。 Nemotron 3 Super采用了创新的Mamba-MoE混合架构,旨在解决多智能体协同…
-
3B小模型逆袭万亿巨头:Nanbeige4.1-3B如何以“小而全”颠覆大模型军备竞赛?
近年来,大模型领域的竞争日趋白热化,无论是开源还是闭源阵营,都陷入了对 Scaling Law、算力与参数量的极致追求,其规模膨胀的速度已近乎“军备竞赛”。 过去,拥有约15亿参数的GPT-2在如今看来已属“小模型”。而GPT-4的参数规模据业内估计已达万亿级别,GPT-5等后续模型的体量更是难以估量。开源模型同样在向超大参数迈进,超过6000亿参数的模型已…
-
30B参数开源模型UniScientist:实现自主科研闭环,将开放式问题转化为可验证单元测试
30B参数开源模型UniScientist:实现自主科研闭环,将开放式问题转化为可验证单元测试(1/2) 当前许多大语言模型能够生成看似专业的论文,但其“科研能力”往往停留在表面——它们擅长模仿格式、排列逻辑和引用文献,却难以进行严谨、可验证的科学推理。模型常陷入“叙事推理”的陷阱,结论缺乏稳固的证据支撑,可复现性弱。 近期,UniPat AI团队发布了一个…
-
UniScientist:30B参数开源模型实现科研闭环,匹敌百亿级闭源模型
多数大模型能够生成“看起来像”学术研究的文本,但极少能真正执行研究过程——即提出假设、收集证据、执行可复现的推导,并通过迭代验证形成可靠结论。 近期,发布了BabyVision评测基准(该基准已被多个重要模型采纳)的UniPat AI,在其最新博客《UniScientist: Advancing Universal Scientific Research I…
-
字节携手北大开源Helios视频模型:14B参数实现19.5FPS,登顶Hugging Face!
春节期间,Seedance 2.0 的爆火将视频生成技术再次推向风口。紧随其后,字节跳动联合北京大学、安努智能及 Canva 共同开源了具备实时生成能力的视频模型系列——Helios。该系列包含 Helios-Base、Helios-Mid 与 Helios-Distilled 三个版本,全面支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V…
-
阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!
阿里通义千问发布了Qwen3.5系列的四款小参数规模模型,分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制,此项技术借鉴自其397B参数的大模型。 该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算,内存占用保持恒定;全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质…
-
AI大模型2月重磅更新盘点:阿里、阶跃星辰、智谱AI等巨头竞相发布,编程、视频、文档处理全面突破
2月1日 【开源】阿里通义千问发布 Qwen3-Coder-Next 阿里发布了编程智能体模型 Qwen3-Coder-Next。该模型采用总参数为 800 亿的混合专家架构,每次推理仅激活 30 亿参数。在 SWE-Bench Verified 测试中,其问题解决率超过 70%,在保证高性能的同时有效控制了算力成本,适合对算力敏感的本地化开发场景。 技术博…
-
阿里Qwen3.5-27B深度评测:理科思维突出,文档处理与逻辑推理是亮点,艺术创作待提升
阿里近期推出了Qwen3.5-27B模型,作为Qwen3.5系列中的中型主力版本,它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何?以下是本次评测的核心结论。 核心结论: 三大亮点: OCR与文档理解能力出色: 在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准,效果优于部分更大参数的模型。 空间逻辑与数学推理能力强: 在立体…
