信息论

  • 大模型语义向量化的信号处理原理:从信息论到Transformer的深度解析

    引言 本文将从信号处理的角度,解读大模型语义向量化背后的信息论原理,并从时间序列的视角分析 Transformer 架构及其与 Granger 因果性的关联。 我们首先提出一个核心观点:大模型的输入是 Token 的语义嵌入(即语义向量),这一过程本质上是将自然语言处理问题转换为信号处理问题。因此,向量化对于大模型至关重要,它与信号处理、信息论有着深刻的联系…

    3天前
    1000
  • 信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境

    在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…

    2025年12月19日
    8600