微调指南
介绍如何使用 LoRA/QLoRA 微调大模型。
LoRA (Low-Rank Adaptation)
LoRA 通过低秩矩阵分解来减少可训练参数:
- 冻结原始权重
- 注入可训练的秩分解矩阵
- 显著降低显存需求
QLoRA
在 LoRA 基础上引入量化:
- 4-bit 量化
- 使用 nf4 数据类型
- 进一步降低显存占用
实践步骤
- 准备数据集(JSON/CSV)
- 配置 LoRA 参数(r=8, alpha=16)
- 运行训练脚本
- 合并权重并推理
示例代码
python
from peft import LoraConfig, get_peft_model
config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["q_proj", "v_proj"]
)