MultipleNegativesRankingLoss

发表于 2025/02/24 更新于 2025/03/20

作者

3 分钟阅读

MultipleNegativesRankingLoss

MultipleNegativesRankingLoss（多负样本排序损失）总结

1. 定义

MultipleNegativesRankingLoss（多负样本排序损失）是一种用于训练嵌入模型的损失函数，特别适用于只有正样本对（如相似文本对、查询与相关文档对）的场景。它通过将一个批次中的所有非正样本作为负样本，来增强模型对正负样本的区分能力。

2. 工作原理

输入为正样本对 (a_i, p_i)，其中 a_i 是锚点，p_i 是正样本。
对于每个锚点 a_i，其他所有正样本 p_j (j ≠ i) 被视为负样本，形成 n-1 个负样本。
损失函数通过最小化正样本与锚点的相似度，同时最大化负样本与锚点的相似度来优化模型。
可以通过余弦相似度或点积来计算样本之间的相似度。

3. 优点

无需手动构造负样本：负样本直接从批次中选取，减少了数据准备的工作量。
增强区分能力：通过对比多个负样本，模型能够更好地学习正负样本之间的差异。
适合大规模数据：随着批次大小的增加，模型性能通常会提升。

4. 应用场景

语义检索：训练查询与文档之间的嵌入，使相关文档的嵌入更接近查询。
自然语言处理：如问答系统、推荐系统、信息检索等，帮助模型更好地理解文本的相似性和相关性。

5. 局限性

对负样本选择敏感：负样本的质量和多样性会影响模型的训练效果。
训练时间较长：由于需要计算多个负样本的损失，训练过程可能较为耗时。

6. 相关变体

CachedMultipleNegativesRankingLoss：通过缓存机制支持更大的批次大小，但训练速度稍慢。
MultipleNegativesSymmetricRankingLoss：在原有基础上增加了对称损失项。

7. 使用建议

使用 BatchSamplers.NO_DUPLICATES 以避免批次内负样本与锚点或正样本重复。
可以结合其他损失函数（如 SoftmaxLoss 或 CoSENTLoss）进行多任务学习，以进一步提升模型性能。

总之，MultipleNegativesRankingLoss 是一种强大的损失函数，特别适用于需要区分正负样本的嵌入学习任务。

Information Retrieval

SentenceTransformers Loss

本文由作者按照 CC BY 4.0 进行授权