Deepseek
-
DeepSeek拟以100亿美元估值融资3亿美元,AI独角兽首度寻求外部投资
本周五,AI领域传出重要动态。 据The Information、路透社等媒体援引知情人士消息,中国人工智能初创公司DeepSeek正与投资者洽谈,计划以约100亿美元的估值筹集至少3亿美元资金。据悉,DeepSeek确实在与部分机构接触,但具体融资金额与估值等信息仍有待进一步核实。 DeepSeek脱胎于国内顶尖量化对冲基金幻方量化,其早期庞大的算力储备与…
-
DeepSeek发布Mega MoE:将MoE流水线焊死,GPU利用率飙升的底层重构
昨天下午,DeepSeek 对其开源代码库 DeepGEMM 进行了一次重要更新。此次更新的核心是引入了一个名为 Mega MoE 的新项目。 Mega MoE 由 DeepSeek 基础设施团队的 Chenggang Zhao 等人贡献,相关代码已提交至 GitHub(链接:https://github.com/deepseek-ai/DeepGEMM/p…
-
深夜重磅!Claude Mythos预览版官宣不开放,DeepSeek网页端静默上线专家模式,实测能力差异显著
北京时间深夜,AI领域接连发生两起重要事件: Anthropic正式发布Claude Mythos预览版,但因其能力过强,该模型将不会向公众开放。 DeepSeek网页端迎来重大更新,静默上线“专家模式”。此次更新没有发布会,没有官方博客,甚至没有推文公告。 在DeepSeek网页端的输入框上方,悄然出现了两个新图标:一个闪电和一个钻石,分别对应 “快速模式…
-
DeepSeek深夜上线快速/专家模式,V4模型真的要来了?
DeepSeek深夜上线快速与专家模式,V4模型引猜测 DeepSeek网页端近期进行了一次重要更新,推出了“快速模式”和“专家模式”两项新功能。此外,一项带有图片图标的“视觉模型”功能也已开启灰度测试。 尽管官方未对两种新模式背后的具体模型进行说明,但用户通过测试发现了一些线索。 在交互中,模型自身透露了其版本信息,引发了关于其是否为V4模型的广泛讨论。 …
-
DeepSeek宕机8小时竟是升级前兆?模型能力突变引发全网热议
DeepSeek宕机8小时竟是升级前兆?模型能力突变引发全网热议 DeepSeek服务中断超过8小时,引发用户广泛讨论。此次宕机并非普通的服务器故障,而被许多用户解读为模型重大升级的前兆。 在服务中断前,已有大量用户报告DeepSeek网页版出现显著变化,模型能力大幅提升。例如,在经典的“用SVG画鹈鹕骑自行车”任务中,3月29日版本的构图与色彩表现明显优于…
-
DeepSeek核心工程师郭达雅离职:V2、V3、R1模型核心作者,从“中山大学雷军”到百万奖金天才
DeepSeek核心工程师郭达雅离职:V2、V3、R1模型核心作者 DeepSeek核心工程师郭达雅被曝离职。作为公司V2、V3、R1等一系列模型的核心作者,他的动向备受关注。 这位曾被导师寄予厚望成为“中山大学雷军”的技术天才,在学术与竞赛领域有着近乎传奇的履历:自述在博士入学第三天便完成了毕业所需的论文发表要求;多次在腾讯广告算法大赛中蝉联冠军,并在AT…
-
DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升
DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升 当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外…
-
DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍
DeepSeek 联合北大清华发布 DualPath 框架:利用闲置网卡突破 Agent 推理 I/O 瓶颈,性能提升近 2 倍 当业界广泛关注 DeepSeek 的 GitHub 仓库,期待其下一代模型发布时,DeepSeek 与北京大学、清华大学的研究团队在 arXiv 上悄然发布了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架的核…
-
DeepSeek GitHub仓库突现密集更新,华尔街警惕“DeepSeek第二时刻”来临
DeepSeek员工节后开工,美国AI圈神经再绷紧 DeepSeek员工节后一上班,美国AI圈又要抖三抖了。 就从十几个小时前开始,DeepSeek的GitHub仓库突然一阵猛更新,Merge了一堆PR: 维护者主要是 mowentian ——DeepSeekMoE等论文的署名作者之一Huang Panpan。他这一干活不要紧,大洋彼岸“V4来了???”的紧…
-
LingoEDU:结构化预处理新突破,让大模型生成可溯源,DeepSeek准确率飙升51%
LingoEDU:结构化预处理新突破,让大模型生成可溯源,DeepSeek准确率飙升51% 一种名为LingoEDU(简称EDU,即基本话语单元技术)的新方法,能够零成本降低大模型幻觉,让DeepSeek的准确率相对提升51%。 LingoEDU是一个在大模型正式生成前执行的专用「预处理」模型。其核心在于对输入文本进行精准切分,为每一个最小信息单元(EDU)…
