大语言模型
-
大模型内部竟藏着“情绪树”:模型越大,情感理解越像人类
随着语音、视频和多模态能力不断融入大语言模型(LLM),人与AI的交互正日益趋近于自然对话。如今的LLM已不仅是回答问题的工具,而是越来越多地应用于教育、客服、陪伴、心理健康等高度依赖情绪理解的场景。 那么,大语言模型究竟如何理解人类情绪? 过去,关于LLM情绪能力的研究多集中于情绪分类任务:给定一句话,模型需判断其中包含快乐、悲伤、愤怒还是恐惧。然而,在人…
-
AutoPPA:让机器自主发现RTL优化知识,性能超越人类工程师19%
好的,作为专业技术编辑,我已经根据您的要求对原始片段进行了重写。以下是清洗了广告/二维码等干扰信息,并保留了 [[IMAGE_X]] 占位符的 Markdown 格式内容。 关键词:AutoPPA、PPA 优化、RTL 设计、大语言模型、规则归纳、对比学习、自动化 EDA 在芯片设计的浩瀚流程中,RTL 代码的质量直接决定了芯片最终的命运。一个冗余的 if-…
-
大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷
大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷(1/4) 关键词:大语言模型、随机采样、智能体、分布偏差、伪随机幻觉 本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中,直指大模型智能体一项被长期掩盖的致命…
-
In-Place Test-Time Training:让大语言模型在推理时原地进化,长上下文任务准确率显著提升
关键词:测试时训练、原位更新、大语言模型、长上下文 “静态的‘训练后部署’范式,从根本上限制了大语言模型在推理时根据新信息动态调整权重的能力。”这是来自字节跳动 Seed 团队与北京大学联合发表的论文《In-Place Test-Time Training》中的核心论断。 当 GPT-4、Llama 3 等大模型在部署后就“凝固”为静态的知识库,它们便无法像…
-
SkipOPU:突破动态推理瓶颈,FPGA加速大语言模型效率革命
关键词:大语言模型、动态推理、FPGA 加速、混合精度计算、KV 缓存管理 大语言模型的推理效率面临一个根本性矛盾:模型对所有词元执行相同的计算,但不同词元对语义的贡献差异巨大。正如人类阅读时会自动略过虚词,聚焦实词,大模型也应具备“选择性计算”的能力——这正是动态计算分配方法(如 SkipGPT)的核心思想。 然而,算法层面宣称的计算量减少,往往难以在实际…
-
PF-LLM:大语言模型破解硬件预取困境,静态代码分析实现智能内存访问优化
关键词:硬件预取、内存墙、大语言模型、CPU 微架构、硬件-软件协同设计 在追求单核性能的征途上,CPU 设计师们正面临一道难以逾越的天堑——“内存墙”。这道墙的另一边,是主存(DRAM)动辄数百个周期的访问延迟,而 CPU 核心的运算速度却已逼近物理极限。为了填平这道墙,现代处理器普遍采用了一项关键技术:硬件数据预取。它像一个未卜先知的预言家,提前将程序未…
-
自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力?
自我蒸馏的陷阱:为何AI“抄袭”自己思考反而损害数学推理能力? 当 AI 试图通过“抄袭”自己的思考过程来变得更高效时,它可能无意中丢掉了最宝贵的品质——承认“我可能错了”。 在人工智能领域,一种名为“自我蒸馏”(Self-Distillation)的后训练范式正迅速崛起。其核心思想极具吸引力:让模型自己充当老师,利用更丰富的上下文信息(如标准答案)来指导学…
-
AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距
关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…
-
从科幻到现实:Karpathy的autoresearch项目如何让AI自主研究成为可能
关键词:自主 AI 研究、大语言模型、自我进化、自动化机器学习、程序优化 想象这样一个场景:曾经,前沿的 AI 研究是由那些被称为“肉计算机”的人类完成的——他们需要吃饭、睡觉、享受生活,偶尔通过一种叫做“组会”的声音波互联方式进行同步。那个时代早已远去。 如今,研究完全由在天空中计算集群巨型结构上运行的自主 AI 智能体群完成。这些智能体声称我们正处于代码…
-
ArchAgent:AI仅用两天设计出性能提升5.3%的缓存策略,颠覆传统硬件设计
关键词:AI 驱动硬件设计、缓存替换策略、大语言模型、进化算法、计算机架构 一个完全由 AI 驱动的系统,在没有任何人类干预的情况下,仅用两天时间就设计出了一款比现有最优方案性能提升 5.3% 的缓存替换策略——而人类专家团队完成同样的工作通常需要数月之久。 ArchAgent: Agentic AI-driven Computer Architecture…
