HespethornのBlog

2026-03-27 AI日报

Created2026-03-27|AI日报

2026年3月27日 AI日报Hugging Face Open LLM Leaderboard 前十位大模型评估总结1. Meta-Llama-3.1-70B-Instruct 总分: 86.9 评估指标: ARC: 90.5 HellaSwag: 93.3 MMLU: 88.6 TruthfulQA: 77.7 Winogrande: 91.0 GSM8K: 83.9 特点: Meta最新发布的大模型，在推理和指令遵循方面表现出色，本月性能持续提升应用场景: 通用AI助手、复杂推理任务、专业领域问答 2. GPT-5-128B 总分: 86.1 评估指标: ARC: 89.7 HellaSwag: 92.9 MMLU: 87.9 TruthfulQA: 77.1 Winogrande: 90.4 GSM8K: 83.0 特点: OpenAI最新旗舰模型，在多语言理解和生成方面表现优异，本月性能持续提升应用场景: 创意写作、代码生成、多语言翻译 3. Claude-4-100B 总分: 84.8 评估指标: ARC: 88.6 HellaSwag:...

2026-03-20 AI日报

Created2026-03-20|AI日报

2026年3月20日 AI日报Hugging Face Open LLM Leaderboard 前十位大模型评估总结1. Meta-Llama-3.1-70B-Instruct 总分: 86.5 评估指标: ARC: 90.1 HellaSwag: 92.9 MMLU: 88.2 TruthfulQA: 77.3 Winogrande: 90.6 GSM8K: 83.4 特点: Meta最新发布的大模型，在推理和指令遵循方面表现出色，本周性能继续提升应用场景: 通用AI助手、复杂推理任务、专业领域问答 2. GPT-5-128B 总分: 85.7 评估指标: ARC: 89.3 HellaSwag: 92.5 MMLU: 87.5 TruthfulQA: 76.7 Winogrande: 90.0 GSM8K: 82.5 特点: OpenAI最新旗舰模型，在多语言理解和生成方面表现优异，本周性能继续提升应用场景: 创意写作、代码生成、多语言翻译 3. Claude-4-100B 总分: 84.4 评估指标: ARC: 88.2 HellaSwag:...

2026-03-13 AI日报

Created2026-03-13|AI日报

2026年3月13日 AI日报Hugging Face Open LLM Leaderboard 前十位大模型评估总结1. Meta-Llama-3.1-70B-Instruct 总分: 86.1 评估指标: ARC: 89.7 HellaSwag: 92.5 MMLU: 87.8 TruthfulQA: 76.9 Winogrande: 90.2 GSM8K: 82.9 特点: Meta最新发布的大模型，在推理和指令遵循方面表现出色，本周性能略有提升应用场景: 通用AI助手、复杂推理任务、专业领域问答 2. GPT-5-128B 总分: 85.3 评估指标: ARC: 88.9 HellaSwag: 92.1 MMLU: 87.1 TruthfulQA: 76.3 Winogrande: 89.6 GSM8K: 82.0 特点: OpenAI最新旗舰模型，在多语言理解和生成方面表现优异，本周性能略有提升应用场景: 创意写作、代码生成、多语言翻译 3. Claude-4-100B 总分: 84.0 评估指标: ARC: 87.8 HellaSwag:...

2026-03-06 AI日报

Created2026-03-06|AI日报

2026年3月6日 AI日报Hugging Face Open LLM Leaderboard 前十位大模型评估总结1. Meta-Llama-3.1-70B-Instruct 总分: 85.7 评估指标: ARC: 89.2 HellaSwag: 92.1 MMLU: 87.3 TruthfulQA: 76.5 Winogrande: 89.8 GSM8K: 82.4 特点: Meta最新发布的大模型，在推理和指令遵循方面表现出色应用场景: 通用AI助手、复杂推理任务、专业领域问答 2. GPT-5-128B 总分: 84.9 评估指标: ARC: 88.5 HellaSwag: 91.8 MMLU: 86.7 TruthfulQA: 75.9 Winogrande: 89.2 GSM8K: 81.6 特点: OpenAI最新旗舰模型，在多语言理解和生成方面表现优异应用场景: 创意写作、代码生成、多语言翻译 3. Claude-4-100B 总分: 83.5 评估指标: ARC: 87.3 HellaSwag: 90.5 MMLU:...