LLM 模型评测与对比(2024 最新)
本文基于最新公开数据和基准测试,对比主流开源和闭源大语言模型的性能。
评测基准
核心基准(LLM Leaderboard)
Hugging Face Open LLM Leaderboard 使用以下核心基准:
| 基准 | 类型 | 样本数 | 评估方式 |
|---|---|---|---|
| MMLU | 多学科选择题 | 14099 | 57 个学科,四选一 |
| HellaSwag | 常识推理 | 10042 | 选择最合理的结尾 |
| GSM8K | 数学应用题 | 1319 | 8年级数学,需逐步推理 |
| MATH | 竞赛数学 | 5000 | 高中数学竞赛题 |
| TruthfulQA | 真实性评估 | 817 | 避免常见误解 |
评分方式:Normalized score (0-100),标准化计算。
人类偏好基准
- MT-Bench:多轮对话质量评估(GPT-4 打分)
- AlpacaEval:基于 GPT-4 偏好的自动评估
- Chatbot Arena:人类盲测(Elo 分数)
综合性能排名(2024 年初)
国际模型
| 模型 | 参数规模 | MMLU | GSM8K | MATH | MT-Bench | 开源 |
|---|---|---|---|---|---|---|
| GPT-4 | ~1.8T (MoE) | 86.4 | 92.0 | 52.9 | 9.32 | ❌ |
| Claude 3 Opus | ~1.5T (MoE) | 86.8 | 95.1 | 60.1 | 9.33 | ❌ |
| GPT-4 Turbo | ~1.8T (MoE) | 86.4 | 90.8 | 52.9 | 9.15 | ❌ |
| Claude 3 Sonnet | ~700B (MoE) | 80.7 | 92.1 | 48.2 | 8.54 | ❌ |
| Gemini 1.5 Pro | ~? (MoE) | 83.7 | 91.8 | 54.6 | 8.93 | ❌ |
| GPT-3.5 Turbo | ~175B | 70.0 | 57.1 | 19.5 | 7.88 | ❌ |
开源模型
| 模型 | 参数规模 | MMLU | GSM8K | MATH | 许可 | 上下文长度 |
|---|---|---|---|---|---|---|
| LLaMA 3 70B | 70B | 79.5 | 80.0 | 41.0 | llama3 | 8K |
| LLaMA 3 8B | 8B | 68.4 | 41.6 | 15.8 | llama3 | 8K |
| Mixtral 8x7B | 45B (激活 13B) | 77.6 | 72.7 | 34.1 | Apache 2.0 | 32K |
| Qwen 1.5 72B | 72B | 79.0 | 79.5 | 38.2 | 免费商用 | 32K |
| Qwen 1.5 14B | 14B | 71.3 | 59.0 | 23.7 | 免费商用 | 32K |
| Gemma 2 27B | 27B | 73.4 | 66.5 | 29.3 | Google TOS | 8K |
| Yi 34B | 34B | 76.3 | 72.2 | 31.0 | 免费商用 | 200K |
| DeepSeek-V2 | 236B (MoE) | 78.5 | 80.7 | 39.8 | - | 128K |
| CodeLlama 34B | 34B | 65.8 | 53.8 | 18.8 | llama2 | 16K |
| ChatGLM3 6B | 6B | 63.4 | 32.2 | 12.5 | Apache 2.0 | 8K (128K 版本) |
分领域详细对比
1. 代码能力
基准:HumanEval(通过率 @1)、MBPP(基础 Python 编程)
| 模型 | HumanEval | MBPP |
|---|---|---|
| GPT-4 | 67.0% | 71.0% |
| Claude 3 Opus | 74.4% | 73.5% |
| Gemini 1.5 Pro | 71.9% | 70.4% |
| CodeLlama 34B | 53.0% | 55.0% |
| StarCoder2 15B | 41.8% | 48.8% |
| CodeQwen 1.5 7B | 42.7% | 49.8% |
结论:闭源模型代码能力领先,但 CodeLlama 和 CodeQwen 在开源模型中表现不错。
2. 数学推理
基准:GSM8K(8年级数学)、MATH(竞赛数学)
| 模型 | GSM8K (8-shot) | MATH (4-shot) |
|---|---|---|
| GPT-4 | 92.0% | 52.9% |
| Claude 3 Opus | 95.1% | 60.1% |
| Gemini 1.5 Pro | 91.8% | 54.6% |
| Mixtral 8x7B | 72.7% | 34.1% |
| Qwen 1.5 72B | 79.5% | 38.2% |
| DeepSeek-V2 | 80.7% | 39.8% |
| Yi 34B | 72.2% | 31.0% |
特点:Claude 3 Opus 数学最强,DeepSeek-V2 在开源模型中领先。
3. 常识推理
基准:HellaSwag, ARC-Challenge
| 模型 | HellaSwag | ARC-Challenge |
|---|---|---|
| GPT-4 | 95.3% | 85.2% |
| Claude 3 Opus | 94.9% | 85.7% |
| LLaMA 3 70B | 86.5% | 79.0% |
| Qwen 1.5 72B | 86.4% | 77.8% |
| Yi 34B | 84.4% | 76.8% |
4. 指令遵循
基准:IFEval(指令遵循评测)、AlpacaEval 2.0(GPT-4 judge)
| 模型 | IFEval | AlpacaEval 2.0 (Win Rate) |
|---|---|---|
| GPT-4 Turbo | 86.5% | 57.5% |
| Claude 3 Opus | 85.3% | 60.3% |
| LLaMA 3 70B (Instruct) | 74.5% | 50.0% |
| Qwen 1.5 72B Chat | 73.2% | 49.8% |
| Mixtral 8x7B Instruct | 71.6% | 48.5% |
结论:闭源模型指令遵循能力更强,但 LLaMA 3 差距已缩小。
成本效益分析
推理成本对比(API 定价)
| 模型 | 输入价格 ($/1M tokens) | 输出价格 ($/1M tokens) |
|---|---|---|
| GPT-4 Turbo | 10.00 | 30.00 |
| Claude 3 Opus | 15.00 | 75.00 |
| Claude 3 Sonnet | 3.00 | 15.00 |
| GPT-3.5 Turbo | 0.50 | 1.50 |
| 自托管 LLaMA 3 70B | 硬件成本 ≈ 1.0-2.0 | 硬件成本 ≈ 1.0-2.0 |
硬件需求(推理):
- LLaMA 3 70B:2× A100 80GB(FP16),或 4× H100(量化 INT4)
- Mixtral 8x7B:1× A100 80GB(约激活 13B)
- Qwen 1.5 72B:2× A100 80GB
成本计算示例:
每月 1 亿 tokens:
- GPT-4 Turbo:输入 $1000 + 输出 $3000 = $4000
- 自托管 LLaMA 3 70B(2×A100 3年折旧约 $2.5/小时):
每小时约处理 200 万 tokens → 月成本 ≈ $900结论:当用量足够大时(>5000万 tokens/月),自托管更划算。
多模态能力对比
| 模型 | 图像理解 | 视频理解 | OCR | 数学公式 | 开源 |
|---|---|---|---|---|---|
| GPT-4V | ✅ 极强 | ❌ | ✅ | ✅ | ❌ |
| Claude 3 Sonnet/Opus | ✅ 极强 | ❌ | ✅ | ✅ | ❌ |
| Gemini 1.5 Pro | ✅ 极强 | ✅ | ✅ | ✅ | ❌ |
| LLaVA 1.6 | ✅ 不错 | ❌ | ✅ | ❌ | ✅ |
| CogVLM 2 | ✅ 不错 | ❌ | ✅ | ❌ | ✅ |
| Qwen-VL | ✅ 不错 | ❌ | ✅ | ❌ | ✅ |
多模态基准(MMMU, TextVQA):
- GPT-4V: MMMU 71.6%
- Claude 3 Opus: MMMU 70.0%
- Gemini 1.5 Pro: MMMU 71.2%
- LLaVA 1.6: MMMU 56.5%
上下文长度对比
| 模型 | 原生上下文 | 实际可用 | RoPE 扩展 |
|---|---|---|---|
| GPT-4 Turbo | 128K | ~100K | ✅ |
| Claude 3 系列 | 200K | ~150K | ✅ |
| Yi 34B | 200K | 200K | ✅ |
| Qwen 1.5 | 32K/128K | 32K/128K | ✅ |
| LLaMA 3 | 8K | 8K | ❌(未扩展) |
| Mixtral 8x7B | 32K | 32K | ✅ |
| ChatGLM3 | 8K/128K | 版本相关 | ✅ |
RoPE 扩展技术(让短上下文模型支持长文本):
- YARN(YaRN):YaRN: Efficient Context Window Extension
- NTK-aware:动态调整 RoPE 频率
- LongLoRA:训练时扩展上下文,推理时无需修改
微调效果对比
使用相同指令微调数据集(如 UltraChat, ShareGPT)微调后:
| 基础模型 | AlpacaEval 2.0 Win Rate vs GPT-4 |
|---|---|
| LLaMA 3 70B | 50.0% (打平 GPT-4) |
| Qwen 1.5 32B | 48.5% |
| Yi 34B | 47.8% |
| Mixtral 8x7B | 48.0% |
| Llama 2 70B | 43.2% |
结论:LLaMA 3 指令微调后已能与 GPT-4 打平,这是开源模型的重大突破。
选择建议
按场景选择
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 通用对话 (国内) | Qwen 1.5 / ChatGLM3 | 中文能力强,免费商用,合规 |
| 代码生成 | Claude 3 / CodeLlama | Claude 代码能力最强,CodeLlama 开源可用 |
| 数学推理 | Claude 3 Opus / DeepSeek-V2 | Claude 数学 SOTA,DeepSeek 性价比高 |
| 长文档分析 | Yi 34B / Claude 200K | 超长上下文,Yi 免费商用 |
| 成本敏感 (B 端) | Mixtral 8x7B | MoE 架构,成本低,质量高 |
| 数据隐私 (部署) | LLaMA 3 70B | 性能靠拢 GPT-4,完全自主控制 |
按预算选择
- 无预算/研究:LLaMA 3 70B / Mixtral 8x7B / Qwen 1.5 72B
- 每月 100-500 API 费用:Claude 3 Sonnet / GPT-4 Turbo
- 每月 >$1000 API 费用:考虑自托管 LLaMA 3 70B
- 企业级(隐私+性能):混合方案:敏感数据自托管,普通请求 API
评测局限性
- Benchmark Overfitting:模型可能在特定基准上过拟合
- 领域偏差:学术基准 vs 真实场景有差距
- 人类偏好难以量化:MT-Bench 仍是 GPT-4 打分,有偏差
- Prompt 敏感:不同提示工程导致得分差异大
建议:
- 不要只看总分,要看具体任务
- 用你实际业务场景的测试集评估
- A/B 测试真实用户体验
资源链接
- Hugging Face Open LLM Leaderboard: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- Chatbot Arena(人类盲测): https://chat.lmsys.org
- Stanford CRFM 模型卡片: https://crfm.stanford.edu/helm/latest
模型迭代非常快,建议每月查看一次最新评测数据!
