CoT-Self-Instruct：高质量数据合成

发表于 2025/08/12 更新于 2025/08/12

作者

5 分钟阅读

CoT-Self-Instruct：高质量数据合成

COT-SELF-INSTRUCT: BUILDING HIGH-QUALITY SYNTHETIC PROMPTS FOR REASONING AND NON-REASONING TASKS

Paper：https://arxiv.org/pdf/2507.23751

1. 摘要（ABSTRACT）

核心方法：提出 CoT-Self-Instruct，一种通过思维链（Chain-of-Thought, CoT）引导大语言模型（LLM）生成高质量合成指令的框架。
创新点：
- 推理任务：首先生成带逐步推理的指令，再通过答案一致性过滤（Answer-Consistency）筛选数据。
- 非推理任务：使用拒绝指令偏好（RIP）过滤低质量指令。
成果：
- 在 MATH500、AMC23 等推理任务中，性能显著超越现有数据集（如s1k、OpenMathReasoning）。
- 在 AlpacaEval 2.0、Arena-Hard 非推理任务中，超越人类标注数据和传统自指令方法。

2. 引言（INTRODUCTION）

背景：
- 高质量训练数据稀缺且成本高，人类数据存在偏差问题。
- 现有自指令方法（如Self-Instruct）难以保证合成数据的质量和复杂性。
问题定义：
- 传统方法直接生成指令，缺乏规划步骤，导致数据质量不稳定。
解决方案：
- CoT-Self-Instruct引入推理规划阶段，让LLM分析种子指令的属性（领域、复杂度），再生成新指令。

3. 相关工作（RELATED WORK）

合成数据生成：
- Self-Instruct：利用种子指令引导LLM生成新数据。
- Evol-Instruct：通过重写增加指令复杂度。
- 其他方法：多跳问答、工具使用等场景的合成数据生成。
数据筛选方法：
- 传统方法：去重、聚类（如ROUGE-L）。
- 新方法：LLM作为质量评判器、偏好优化（如RIP、Self-Consistency）。

4. 方法（COT-SELF-INSTRUCT）

4.1 指令生成（Synthetic Instruction Creation）

推理任务：
LLM生成指令+可验证答案，要求答案格式明确（如数值/选项）。
非推理任务：
LLM仅生成开放式指令（如写作、编程），响应质量通过奖励模型评估。

4.2 指令筛选（Synthetic Instruction Curation）

推理任务：
Answer-Consistency过滤：若LLM多次生成的答案与CoT生成的目标答案不一致，则丢弃该指令。
非推理任务：
RIP过滤：基于奖励模型分数分布，保留高分指令（如最低分≥50%分位数）。

4.3 自训练（Self-training）

推理任务：使用GRPO（基于可验证奖励的强化学习）。
非推理任务：采用DPO（直接偏好优化），结合长度归一化避免响应膨胀。

5. 实验（EXPERIMENTAL RESULTS）

5.1 推理任务

数据集：s1k种子指令 → 生成5000条合成指令。
关键结果：
- CoT-Self-Instruct（53.0%）> Self-Instruct（49.5%）。
- 过滤后：Answer-Consistency进一步提升至57.2%。
- 对比基线：超越s1k（44.6%）和OpenMathReasoning（47.5%）。

5.2 非推理任务

数据集：WildChat种子指令 → 按8类领域生成指令。
关键结果：
- CoT-Self-Instruct（53.9%）> Self-Instruct（47.4%）。
- RIP过滤后：性能达54.7%（表2）。
- 在线DPO训练：最高达67.1%，显著超越人类数据（63.1%）。

6. 结论（CONCLUSION）

贡献：
CoT-Self-Instruct通过推理规划+严格过滤，在合成数据质量上实现突破。
影响：
为LLM训练提供高效、低成本的数据生成方案，适用于复杂推理和开放指令任务。

附录（APPENDIX）

消融实验：
- 推理任务：验证不同模板效果，证明CoT生成优于直接生成。
- 非推理任务：长链CoT显著优于短链。
规模控制：
在相同训练量下（893条），CoT方法仍领先基线。

总结：该论文通过将思维链引入自指令框架，结合针对性过滤机制，显著提升了合成数据的质量和模型性能，为LLM训练提供了新范式。

本文由作者按照 CC BY 4.0 进行授权