大模型与训练 14
- 语言模型训练中的熵指标:如何理解模型预测的不确定性
- CoT-Self-Instruct:思维链引导的高质量数据合成方法
- 图提示学习综述:Graph Prompting 最新进展与未来方向
- SCOTT:自洽思维链蒸馏 - 让小型模型学会忠实推理
- DC-CoT:数据为中心的思维链蒸馏基准研究
- llama1 技术报告
- Encoder-Decoder、Encoder-Only、Decoder-Only和Prefix-LM
- Transformer源码-位置编码(PositionalEncoder)
- LLM 从训练到部署
- DeepSeek系列
- LLM 微调框架
- 大语言模型(LLM)技术框架详解
- Transformer系列
- 大规模数据集加载解决方案