LLM 模型评测与对比（2024 最新）

本文基于最新公开数据和基准测试，对比主流开源和闭源大语言模型的性能。

评测基准

核心基准（LLM Leaderboard）

Hugging Face Open LLM Leaderboard 使用以下核心基准：

基准	类型	样本数	评估方式
MMLU	多学科选择题	14099	57 个学科，四选一
HellaSwag	常识推理	10042	选择最合理的结尾
GSM8K	数学应用题	1319	8年级数学，需逐步推理
MATH	竞赛数学	5000	高中数学竞赛题
TruthfulQA	真实性评估	817	避免常见误解

评分方式：Normalized score (0-100)，标准化计算。

人类偏好基准

MT-Bench：多轮对话质量评估（GPT-4 打分）
AlpacaEval：基于 GPT-4 偏好的自动评估
Chatbot Arena：人类盲测（Elo 分数）

综合性能排名（2024 年初）

国际模型

模型	参数规模	MMLU	GSM8K	MATH	MT-Bench	开源
GPT-4	~1.8T (MoE)	86.4	92.0	52.9	9.32	❌
Claude 3 Opus	~1.5T (MoE)	86.8	95.1	60.1	9.33	❌
GPT-4 Turbo	~1.8T (MoE)	86.4	90.8	52.9	9.15	❌
Claude 3 Sonnet	~700B (MoE)	80.7	92.1	48.2	8.54	❌
Gemini 1.5 Pro	~？ (MoE)	83.7	91.8	54.6	8.93	❌
GPT-3.5 Turbo	~175B	70.0	57.1	19.5	7.88	❌

开源模型

模型	参数规模	MMLU	GSM8K	MATH	许可	上下文长度
LLaMA 3 70B	70B	79.5	80.0	41.0	llama3	8K
LLaMA 3 8B	8B	68.4	41.6	15.8	llama3	8K
Mixtral 8x7B	45B (激活 13B)	77.6	72.7	34.1	Apache 2.0	32K
Qwen 1.5 72B	72B	79.0	79.5	38.2	免费商用	32K
Qwen 1.5 14B	14B	71.3	59.0	23.7	免费商用	32K
Gemma 2 27B	27B	73.4	66.5	29.3	Google TOS	8K
Yi 34B	34B	76.3	72.2	31.0	免费商用	200K
DeepSeek-V2	236B (MoE)	78.5	80.7	39.8	-	128K
CodeLlama 34B	34B	65.8	53.8	18.8	llama2	16K
ChatGLM3 6B	6B	63.4	32.2	12.5	Apache 2.0	8K (128K 版本)

分领域详细对比

1. 代码能力

基准：HumanEval（通过率 @1）、MBPP（基础 Python 编程）

模型	HumanEval	MBPP
GPT-4	67.0%	71.0%
Claude 3 Opus	74.4%	73.5%
Gemini 1.5 Pro	71.9%	70.4%
CodeLlama 34B	53.0%	55.0%
StarCoder2 15B	41.8%	48.8%
CodeQwen 1.5 7B	42.7%	49.8%

结论：闭源模型代码能力领先，但 CodeLlama 和 CodeQwen 在开源模型中表现不错。

2. 数学推理

基准：GSM8K（8年级数学）、MATH（竞赛数学）

模型	GSM8K (8-shot)	MATH (4-shot)
GPT-4	92.0%	52.9%
Claude 3 Opus	95.1%	60.1%
Gemini 1.5 Pro	91.8%	54.6%
Mixtral 8x7B	72.7%	34.1%
Qwen 1.5 72B	79.5%	38.2%
DeepSeek-V2	80.7%	39.8%
Yi 34B	72.2%	31.0%

特点：Claude 3 Opus 数学最强，DeepSeek-V2 在开源模型中领先。

3. 常识推理

基准：HellaSwag, ARC-Challenge

模型	HellaSwag	ARC-Challenge
GPT-4	95.3%	85.2%
Claude 3 Opus	94.9%	85.7%
LLaMA 3 70B	86.5%	79.0%
Qwen 1.5 72B	86.4%	77.8%
Yi 34B	84.4%	76.8%

4. 指令遵循

基准：IFEval（指令遵循评测）、AlpacaEval 2.0（GPT-4 judge）

模型	IFEval	AlpacaEval 2.0 (Win Rate)
GPT-4 Turbo	86.5%	57.5%
Claude 3 Opus	85.3%	60.3%
LLaMA 3 70B (Instruct)	74.5%	50.0%
Qwen 1.5 72B Chat	73.2%	49.8%
Mixtral 8x7B Instruct	71.6%	48.5%

结论：闭源模型指令遵循能力更强，但 LLaMA 3 差距已缩小。

成本效益分析

推理成本对比（API 定价）

模型	输入价格 ($/1M tokens)	输出价格 ($/1M tokens)
GPT-4 Turbo	10.00	30.00
Claude 3 Opus	15.00	75.00
Claude 3 Sonnet	3.00	15.00
GPT-3.5 Turbo	0.50	1.50
自托管 LLaMA 3 70B	硬件成本 ≈ 1.0-2.0	硬件成本 ≈ 1.0-2.0

硬件需求（推理）：

LLaMA 3 70B：2× A100 80GB（FP16），或 4× H100（量化 INT4）
Mixtral 8x7B：1× A100 80GB（约激活 13B）
Qwen 1.5 72B：2× A100 80GB

成本计算示例：

每月 1 亿 tokens：
- GPT-4 Turbo：输入 $1000 + 输出 $3000 = $4000
- 自托管 LLaMA 3 70B（2×A100 3年折旧约 $2.5/小时）：
  每小时约处理 200 万 tokens → 月成本 ≈ $900

结论：当用量足够大时（>5000万 tokens/月），自托管更划算。

多模态能力对比

模型	图像理解	视频理解	OCR	数学公式	开源
GPT-4V	✅ 极强	❌	✅	✅	❌
Claude 3 Sonnet/Opus	✅ 极强	❌	✅	✅	❌
Gemini 1.5 Pro	✅ 极强	✅	✅	✅	❌
LLaVA 1.6	✅ 不错	❌	✅	❌	✅
CogVLM 2	✅ 不错	❌	✅	❌	✅
Qwen-VL	✅ 不错	❌	✅	❌	✅

多模态基准（MMMU, TextVQA）：

GPT-4V: MMMU 71.6%
Claude 3 Opus: MMMU 70.0%
Gemini 1.5 Pro: MMMU 71.2%
LLaVA 1.6: MMMU 56.5%

上下文长度对比

模型	原生上下文	实际可用	RoPE 扩展
GPT-4 Turbo	128K	~100K	✅
Claude 3 系列	200K	~150K	✅
Yi 34B	200K	200K	✅
Qwen 1.5	32K/128K	32K/128K	✅
LLaMA 3	8K	8K	❌（未扩展）
Mixtral 8x7B	32K	32K	✅
ChatGLM3	8K/128K	版本相关	✅

RoPE 扩展技术（让短上下文模型支持长文本）：

YARN（YaRN）：YaRN: Efficient Context Window Extension
NTK-aware：动态调整 RoPE 频率
LongLoRA：训练时扩展上下文，推理时无需修改

微调效果对比

使用相同指令微调数据集（如 UltraChat, ShareGPT）微调后：

基础模型	AlpacaEval 2.0 Win Rate vs GPT-4
LLaMA 3 70B	50.0% (打平 GPT-4)
Qwen 1.5 32B	48.5%
Yi 34B	47.8%
Mixtral 8x7B	48.0%
Llama 2 70B	43.2%

结论：LLaMA 3 指令微调后已能与 GPT-4 打平，这是开源模型的重大突破。

选择建议

按场景选择

场景	推荐模型	理由
通用对话 (国内)	Qwen 1.5 / ChatGLM3	中文能力强，免费商用，合规
代码生成	Claude 3 / CodeLlama	Claude 代码能力最强，CodeLlama 开源可用
数学推理	Claude 3 Opus / DeepSeek-V2	Claude 数学 SOTA，DeepSeek 性价比高
长文档分析	Yi 34B / Claude 200K	超长上下文，Yi 免费商用
成本敏感 (B 端)	Mixtral 8x7B	MoE 架构，成本低，质量高
数据隐私 (部署)	LLaMA 3 70B	性能靠拢 GPT-4，完全自主控制

按预算选择

无预算/研究：LLaMA 3 70B / Mixtral 8x7B / Qwen 1.5 72B
每月 100-500 API 费用：Claude 3 Sonnet / GPT-4 Turbo
每月 >$1000 API 费用：考虑自托管 LLaMA 3 70B
企业级（隐私+性能）：混合方案：敏感数据自托管，普通请求 API

评测局限性

Benchmark Overfitting：模型可能在特定基准上过拟合
领域偏差：学术基准 vs 真实场景有差距
人类偏好难以量化：MT-Bench 仍是 GPT-4 打分，有偏差
Prompt 敏感：不同提示工程导致得分差异大

建议：

不要只看总分，要看具体任务
用你实际业务场景的测试集评估
A/B 测试真实用户体验

资源链接

Hugging Face Open LLM Leaderboard: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Chatbot Arena（人类盲测）: https://chat.lmsys.org
Stanford CRFM 模型卡片: https://crfm.stanford.edu/helm/latest

模型迭代非常快，建议每月查看一次最新评测数据！

LLM 模型评测与对比（2024 最新） ​

评测基准 ​

核心基准（LLM Leaderboard） ​

人类偏好基准 ​

综合性能排名（2024 年初） ​

国际模型 ​

开源模型 ​

分领域详细对比 ​

1. 代码能力 ​

2. 数学推理 ​

3. 常识推理 ​

4. 指令遵循 ​

成本效益分析 ​

推理成本对比（API 定价） ​

多模态能力对比 ​

上下文长度对比 ​

微调效果对比 ​

选择建议 ​

按场景选择 ​

按预算选择 ​

评测局限性 ​

资源链接 ​