字节跳动豆包团队推出新一代推理模型Seed-Thinking-v1.5,采用混合专家架构(MoE),总参数200B,每次激活20B参数。
Seed-Thinking-v1.5在多个关键测试中取得优异成绩:
• AIME 2024数学竞赛:86.7分
• Codeforces编程测试:55.0分(pass@8指标)
• GPQA科学测试:77.3分
Seed-Thinking-v1.5 模型采用三项关键技术:
1、数据优化:整合STEM问题、代码任务和逻辑推理数据,构建新的BeyondAIME数学基准,包含100道高难度题目。
2、强化学习算法:
提出VAPO和DAPO框架解决训练不稳定性问题
开发Seed-Thinking-Verifier验证系统,减少奖励欺骗和边界情况处理失败
3、基础设施创新:
流式推演架构使迭代速度提升3倍
三层并行架构(TP/EP/SP)优化MoE系统token分配
自动微调系统AutoTuner优化内存使用
团队开发了两个新评估工具:
• BeyondAIME:更高难度的数学推理测试集
• Codeforces:基于实际编程竞赛的评估方案
任务 | Seed-Thinking-v1.5 | DeepSeek R1 | OpenAI o3-mini | Grok 3 Beta | Gemini 2.5 pro |
---|---|---|---|---|---|
数学 | AIME 2025 | 74.0% | 65.0% | 86.5% | 77.3% |
AIME 2024 | 86.7% | 79.8% | 87.3% | 83.9% | |
科学 | GPQA diamond | 77.3% | 71.5% | 79.7% | 80.2% |
SuperGPQA | 62.1% | 60.5% | 52.2% | 62.8% | |
MMLU-PRO | 87.0% | 85.6% | 82.4% | 84.6% | |
编程 | Codeforces avg@8 | 36.3% | 32.0% | 50.9% | - |
Codeforces pass@8 | 55.0% | 45.0% | 67.5% | - | |
LiveCodeBench v5 | 64.9% | 64.3% | 74.1% | 70.6% | |
Aider Polyglot | 54.2% | 56.9% | 68.6% | - | |
Agentic Coding SWE-bench verified | 47.0% | 49.2% | 49.3% | - | |
SWE-bench verified* | 47.0% | 46.2% | 44.5% | - | |
逻辑推理 | ARC-AGI | 39.9% | 18.3% | 25.8% | 31.9% |
事实性 | SimpleQA | 12.9% | 30.1% | 13.8% | 43.6% |
指令 | Collie | 73.1% | 34.2% | 87.6% | 33.6% |
IFEval | 87.4% | 86.1% | 93.7% | 83.4% |