Wang1997

语言模型训练中的熵指标:如何理解模型预测的不确定性

一句话总结 在语言模型训练中,entropy 衡量的是模型对下一个 token 概率分布的“不确定性”:熵越高,说明概率越分散、模型越犹豫;熵越低,说明概率越集中、模型越自信。 什么是熵 熵(Entropy)来自信息论,用来衡量一个概率分布的不确定性。 放到语言模型里,它描述的是:模型在预测“下一个 token”时,到底是很确定地把概率压在少数 token 上,还是把概率分散给了...

Encoder-Decoder、Encoder-Only、Decoder-Only和Prefix-LM

以下是四种主要模型架构的详细中文解析: 1. 编码器-解码器架构(Encoder-Decoder) 结构:包含编码器(处理输入)和解码器(生成输出)。 典型任务:序列到序列(seq2seq)任务,如机器翻译、文本摘要。 代表模型:T5、BART、原始Transformer。 工作原理: 编码器:通过双向注意力(能看到全部上下文)将输入转换为稠密的...