排序学习(LTR)

发表于 2025/03/11 更新于 2025/03/20

作者

7 分钟阅读

排序学习(LTR)

在信息检索和机器学习排序（LTR）中，Point-wise、Pair-wise和List-wise是三种主要的方法，各自针对不同粒度的排序优化。其中，三种方法并不是特定的算法，而是排序学习模型的设计思路，主要区别体现在损失函数（Loss Function）、以及相应的标签标注方式和优化方法的不同。以下是它们的详细对比： —

1. Point-wise（单点排序）

核心思想：将排序任务转化为对单个文档的评分或分类问题，独立处理每个文档与查询的相关性。
示例：
- 可以使用二分类训练模型，数据之间没有影响关系。
实现方式：
- 回归：预测文档的绝对相关性分数（如使用MSE损失）。
- 分类：将相关性分为多个等级（如使用交叉熵损失）。
优点：
- 实现简单，可直接复用传统分类/回归模型（如线性回归、神经网络）。
- 计算效率高，适合大规模数据。
缺点：
- Pointwise 只考虑单个文档同 query 的相关性，没有考虑文档间的关系，然而排序追求的是排序结果，并不要求精确打分，只要有相对打分即可；
- 通过分类只是把不同的文档做了一个简单的区分，同一个类别里的文档则无法深入区别，虽然我们可以根据预测的概率来区别，但实际上，这个概率只是准确度概率，并不是真正的排序靠前的预测概率；
- Pointwise 方法并没有考虑同一个 query 对应的文档间的内部依赖性。一方面，导致输入空间内的样本不是 IID 的，违反了 ML 的基本假设，另一方面，没有充分利用这种样本间的结构性。其次，当不同 query 对应不同数量的文档时，整体 loss 将容易被对应文档数量大的 query 组所支配，应该每组 query 都是等价的才合理。
- 很多时候，排序结果的 Top N 条的顺序重要性远比剩下全部顺序重要性要高，因为损失函数没有相对排序位置信息，这样会使损失函数可能无意的过多强调那些不重要的 docs，即那些排序在后面对用户体验影响小的 doc，所以对于位置靠前但是排序错误的文档应该加大惩罚。
典型算法：线性回归、逻辑回归、GBDT等。

2. Pair-wise（成对排序）

核心思想：通过比较文档对的相对顺序进行学习，判断两个文档中哪个更相关。
示例:
- 假设有三个文档：A、B 和 C。完美的排序是 “A>B>C”。我们希望通过学习两两关系 “A>C”、“B>C” 和 “A>B” 的到我们的目标A>B>C。
实现方式：
- 损失函数优化文档对的顺序（如RankNet的交叉熵、RankSVM的Hinge Loss）。
- 输入为文档对（A, B），输出A是否应排在B前面。
优点：
- 关注文档间的局部相对关系，更符合排序需求。
- 对噪声标注的鲁棒性较强（通过比较降低绝对标注依赖）。
缺点：
- 文档对数量呈平方增长，计算复杂度高。
- 难以全局优化列表顺序（如循环比较问题）。
典型算法：RankSVM、RankNet、GBRank等。

3. List-wise（列表排序）

核心思想：直接优化整个文档列表的排序质量，关注列表级别的指标。
实现方式：
- 损失函数近似优化排序指标（如NDCG、MAP），常通过替代函数（如ListNet的排列概率损失）或梯度调整（如LambdaRank）。
- 输入为完整文档列表，输出全局最优排序。
优点：
- 直接优化排序目标，理论效果更优。
- 能捕捉文档间的全局依赖关系。
缺点：
- 计算复杂度高，尤其对长列表。
- 需要完整的标注数据，标注成本较高。
典型算法：ListNet、LambdaRank、LambdaMART（基于决策树的List-wise方法）等。

对比总结

维度	Point-wise	Pair-wise	List-wise
处理单元	单个文档	文档对	完整文档列表
优化目标	绝对相关性（分类/回归）	文档对相对顺序	列表级排序指标（如NDCG）
复杂度	低（线性）	中（平方级文档对）	高（列表排列组合）
优点	简单高效	捕捉局部相对关系	全局最优，直接优化目标指标
缺点	忽略文档间关系	全局优化困难，计算量大	计算复杂，依赖完整标注
适用场景	大规模数据，粗排阶段	需要局部比较的场景	精准排序，标注充足时

选择建议

Point-wise：适用于标注为绝对相关性分数且需快速处理的场景（如召回阶段）。
Pair-wise：适合标注包含偏好对（如点击数据）或需强调两两比较的任务。
List-wise：在标注充足且追求高排序质量时优先使用（如搜索引擎精排）。

通过结合问题需求、数据特性和资源限制，合理选择方法可显著提升排序效果。

Information Retrieval

Reranking

本文由作者按照 CC BY 4.0 进行授权