文章

CoT-Self-Instruct​​:高质量数据合成

CoT-Self-Instruct​​:高质量数据合成

COT-SELF-INSTRUCT: BUILDING HIGH-QUALITY SYNTHETIC PROMPTS FOR REASONING AND NON-REASONING TASKS

Paper:https://arxiv.org/pdf/2507.23751

1. 摘要(ABSTRACT)

  • 核心方法:提出 CoT-Self-Instruct,一种通过思维链(Chain-of-Thought, CoT)引导大语言模型(LLM)生成高质量合成指令的框架。

  • 创新点:
    • 推理任务:首先生成带逐步推理的指令,再通过答案一致性过滤(Answer-Consistency) 筛选数据。
    • 非推理任务:使用拒绝指令偏好(RIP) 过滤低质量指令。
  • 成果:
    • 在 MATH500、AMC23 等推理任务中,性能显著超越现有数据集(如s1k、OpenMathReasoning)。
    • 在 AlpacaEval 2.0、Arena-Hard 非推理任务中,超越人类标注数据和传统自指令方法。

2. 引言(INTRODUCTION)

  • 背景:
    • 高质量训练数据稀缺且成本高,人类数据存在偏差问题。
    • 现有自指令方法(如Self-Instruct)难以保证合成数据的质量和复杂性。
  • 问题定义:
    • 传统方法直接生成指令,缺乏规划步骤,导致数据质量不稳定。
  • 解决方案:
    • CoT-Self-Instruct引入推理规划阶段,让LLM分析种子指令的属性(领域、复杂度),再生成新指令。

3. 相关工作(RELATED WORK)

  • 合成数据生成:
    • Self-Instruct:利用种子指令引导LLM生成新数据。
    • Evol-Instruct:通过重写增加指令复杂度。
    • 其他方法:多跳问答、工具使用等场景的合成数据生成。
  • 数据筛选方法:
    • 传统方法:去重、聚类(如ROUGE-L)。
    • 新方法:LLM作为质量评判器、偏好优化(如RIP、Self-Consistency)。

4. 方法(COT-SELF-INSTRUCT)

4.1 指令生成(Synthetic Instruction Creation)

  • 推理任务:
    LLM生成指令+可验证答案,要求答案格式明确(如数值/选项)。

  • 非推理任务:
    LLM仅生成开放式指令(如写作、编程),响应质量通过奖励模型评估。

4.2 指令筛选(Synthetic Instruction Curation)

  • 推理任务:
    Answer-Consistency过滤:若LLM多次生成的答案与CoT生成的目标答案不一致,则丢弃该指令。
  • 非推理任务:
    RIP过滤:基于奖励模型分数分布,保留高分指令(如最低分≥50%分位数)。

4.3 自训练(Self-training)

  • 推理任务:使用GRPO(基于可验证奖励的强化学习)。
  • 非推理任务:采用DPO(直接偏好优化),结合长度归一化避免响应膨胀。

5. 实验(EXPERIMENTAL RESULTS)

5.1 推理任务

  • 数据集:s1k种子指令 → 生成5000条合成指令。
  • 关键结果:
    • CoT-Self-Instruct(53.0%)> Self-Instruct(49.5%)。
    • 过滤后:Answer-Consistency进一步提升至57.2%。
    • 对比基线:超越s1k(44.6%)和OpenMathReasoning(47.5%)。

5.2 非推理任务

  • 数据集:WildChat种子指令 → 按8类领域生成指令。
  • 关键结果:
    • CoT-Self-Instruct(53.9%)> Self-Instruct(47.4%)。
    • RIP过滤后:性能达54.7%(表2)。
    • 在线DPO训练:最高达67.1%,显著超越人类数据(63.1%)。

6. 结论(CONCLUSION)

  • 贡献:
    CoT-Self-Instruct通过推理规划+严格过滤,在合成数据质量上实现突破。
  • 影响:
    为LLM训练提供高效、低成本的数据生成方案,适用于复杂推理和开放指令任务。

附录(APPENDIX)

  • 消融实验:
    • 推理任务:验证不同模板效果,证明CoT生成优于直接生成。
    • 非推理任务:长链CoT显著优于短链。
  • 规模控制:
    在相同训练量下(893条),CoT方法仍领先基线。

总结:该论文通过将思维链引入自指令框架,结合针对性过滤机制,显著提升了合成数据的质量和模型性能,为LLM训练提供了新范式。

本文由作者按照 CC BY 4.0 进行授权