大语言模型 (LLM) 基础导论

大语言模型（Large Language Models, LLM）是基于深度学习的人工智能系统，旨在理解、生成和处理人类语言。

1. 核心架构：Transformer

目前几乎所有主流的 LLM（如 GPT-4, Llama 3）都基于 Transformer 架构。其核心机制是 自注意力机制 (Self-Attention)。

注意力机制公式

自注意力计算通过将输入转换为查询（Query）、键（Key）和值（Value）向量来实现：

💡 提示： 这里的是缩放因子，用于防止点积过大导致梯度消失。

2. 它是如何工作的？

LLM 的本质是一个“概率预测机器”。当我们输入一段文字时，模型会根据上下文预测下一个最可能出现的 Token（字符或词片段）。

分词 (Tokenization): 将文本切分为数字序列。
嵌入 (Embedding): 将数字转换为高维空间的向量。
推理 (Inference): 通过层层神经网络计算概率分布。