Reranker基础知识

发表于 2025/03/07 更新于 2025/03/19

作者

6 分钟阅读

Reranker基础知识

Rerank 相关基础知识

定义：Rerank 即重排序，是指在检索出一组与查询相关的候选文档后，使用更精确的模型或方法对这些文档进行重新排序，以提高检索结果的准确性和相关性。
常见模型：
- Cross-encoders：能够更好地理解文档与查询之间的上下文关联，提供更高的排序精度。但计算上更为密集，通常不适合处理大规模数据集。
- Bi-encoders：将文档和查询独立地转换为向量表示，计算它们之间的相似度。这种方法更快更可扩展，适合处理大规模数据集。
目的：
- 提高检索结果的准确性和相关性：通过重新排列候选文档，使更相关、更准确的文档排名更靠前。
- 弥补初排模型的不足：嵌入模型在压缩文本信息时会丢失部分上下文信息，而 rerank 模型可以纠正这种偏差。
应用场景：
- 在 RAG（检索增强生成）架构中：在检索出输入问题相关的多个 Chunk 后，在交给 LLM 合成答案之前，通过 Rerank 筛选出更相关的 Chunk，提高 LLM 生成答案的准确性和相关性。
- 混合检索场景：当使用多种检索技术获取更多相关知识时，对来自不同源、不同检索算法的 chunks 进行整合和重排。
- 向量检索数据库中：对近似近邻算法检索出的结果进行进一步的精确排序。
评测指标：
- 命中率（Hit rate）：计算在前 k 个检索文档中找到正确答案的查询比例。
- 平均倒数排名（MRR）：对于每个查询，查看排名最高的相关文档的排名，计算这些秩的倒数的平均值。

Rerank 常见面试知识

问题与答案：
- 为何需要 rerank？
  - 答案：因为初排模型如嵌入模型会丢失部分上下文信息，或者在混合检索时需要对来自不同源、不同检索算法的 chunks 进行整合，以及向量检索数据库中近似近邻算法检索出的结果相关性不稳定，所以需要 rerank 来提高检索结果的准确性和相关性。
- 常见的 rerank 算法有哪些？
  - 答案：
    - 基于向量索引与语义相似度的 Rerank：利用向量索引技术，将文本表示为向量形式，并通过计算向量之间的相似度来评估文本之间的相关性。
    - 基于机器学习模型的 Rerank：训练一个独立的 Rerank 模型，根据用户输入问题和检索出来的 Chunk 来评估它们之间的相关性并进行重排序。
    - 使用 LLM 作为 ranker：LLM 自主改进文档重排序，策略分为逐点方法、逐列表方法和成对方法。
- 大模型 token 长度有限的情况下如何进行 rerank？
  - 答案：可以使用更准确的方式对 chunks 与 query 的关系进行 rerank，例如使用 cross encoder 模型，但要考虑到其耗资源和推理时间；也可以使用 embedding 方式或者 openai gpt 等大语言模型方式，或者其它简单算法模型进行重排。
- 在 rerank 过程中，如何选择合适的模型？
  - 答案：
    - 当需要捕获查询和文档之间交互时：选择 Cross-encoders，它们更准确，适合在计算资源允许且需要高精度排序时使用。
    - 当拥有大规模数据集且计算资源有限时：Bi-encoders 更适合，它们速度更快，可扩展性更强。
- 有哪些常见的 rerank 方法及其优缺点？
  - 答案：
    - 基于特征的方法：提取文档的特征，如语义相关性、词频、TF-IDF 值等，并利用这些特征对文档进行排序。优点是可以充分利用各种特征，缺点是需要大量的特征工程。
    - 学习型方法：使用机器学习算法，如 SVM、神经网络等，根据历史数据和标注样本学习文档与输入问题之间的相关性，并利用学习到的模型对文档进行再排序。优点是可以自动学习，缺点是需要大量的训练数据。
    - 混合方法：结合基于特征的方法和学习型方法的优点，既能充分利用特征提取，又能自动学习相关性。

Information Retrieval

Reranking

本文由作者按照 CC BY 4.0 进行授权

Rerank 相关基础知识

Rerank 常见面试知识

热门标签