大语言模型 (LLM) 基础导论
大语言模型(Large Language Models, LLM)是基于深度学习的人工智能系统,旨在理解、生成和处理人类语言。
1. 核心架构:Transformer
目前几乎所有主流的 LLM(如 GPT-4, Llama 3)都基于 Transformer 架构。其核心机制是 自注意力机制 (Self-Attention)。
注意力机制公式
自注意力计算通过将输入转换为查询(Query)、键(Key)和值(Value)向量来实现:
💡 提示: 这里的 是缩放因子,用于防止点积过大导致梯度消失。
2. 它是如何工作的?
LLM 的本质是一个“概率预测机器”。当我们输入一段文字时,模型会根据上下文预测下一个最可能出现的 Token(字符或词片段)。
- 分词 (Tokenization): 将文本切分为数字序列。
- 嵌入 (Embedding): 将数字转换为高维空间的向量。
- 推理 (Inference): 通过层层神经网络计算概率分布。
