Skip to content

大语言模型 (LLM) 基础导论

大语言模型(Large Language Models, LLM)是基于深度学习的人工智能系统,旨在理解、生成和处理人类语言。

1. 核心架构:Transformer

目前几乎所有主流的 LLM(如 GPT-4, Llama 3)都基于 Transformer 架构。其核心机制是 自注意力机制 (Self-Attention)

注意力机制公式

自注意力计算通过将输入转换为查询(Query)、键(Key)和值(Value)向量来实现:

💡 提示: 这里的 是缩放因子,用于防止点积过大导致梯度消失。

2. 它是如何工作的?

LLM 的本质是一个“概率预测机器”。当我们输入一段文字时,模型会根据上下文预测下一个最可能出现的 Token(字符或词片段)。

  • 分词 (Tokenization): 将文本切分为数字序列。
  • 嵌入 (Embedding): 将数字转换为高维空间的向量。
  • 推理 (Inference): 通过层层神经网络计算概率分布。