Wang1997

语言模型训练中的熵指标:如何理解模型预测的不确定性

一句话总结 在语言模型训练中,entropy 衡量的是模型对下一个 token 概率分布的“不确定性”:熵越高,说明概率越分散、模型越犹豫;熵越低,说明概率越集中、模型越自信。 什么是熵 熵(Entropy)来自信息论,用来衡量一个概率分布的不确定性。 放到语言模型里,它描述的是:模型在预测“下一个 token”时,到底是很确定地把概率压在少数 token 上,还是把概率分散给了...