- 官方论文: QwQ-32B: 领略强化学习之力
- 从模型参数量上来看,应该不是使用的MoE 架构。
- 从性能上来看,非常不错。基本上可以和满血版 R1 差不多。由于模型参数小,部署成本会低很多。估计江湖上会掀起一波新的热度,毕竟 671B 的R1 巨高的使用成本,会吓退很多人。
- 从文章上来看,非常强调 RL,这一点上很 deepseek R1 是差不多的。但是有意思的一点是分成 2 阶段来搞:
- 阶段 1:奖励信号来自outcome-based rewards; 任务是:math and coding tasks。
- 阶段 2:奖励信号来自奖励模型【model-based and rule-based】;任务是:其他通用能力
- 有意思的是:由于有阶段 1 的训练,阶段 2 只需要少量步骤就可以获得不错的性能。哈哈,是不是也说明了 math and coding tasks 更有逻辑性。