Reranker基础知识

Rerank 相关基础知识定义：Rerank 即重排序，是指在检索出一组与查询相关的候选文档后，使用更精确的模型或方法对这些文档进行重新排序，以提高检索结果的准确性和相关性。常见模型： Cross-encoders：能够更好地理解文档与查询之间的上下文关联，提供更高的排序精度。但计算上更为密集，通常不适合处理大规模数据集。 Bi-encoder...

2025/03/07 Information Retrieval

摘要级和句子级检索

在信息检索系统中，摘要级检索与句子级检索模型的训练存在显著差异，主要体现在数据构造、模型架构、训练目标和应用场景等方面。以下是两者的核心区别及对应的技术方案设计： 1. 训练数据构造差异维度摘要级检索模型句子级检索模型文本长度处理200-1000词的长文本（文档摘要...

2025/03/05 Information Retrieval

Langchain-FAISS

class FAISS(VectorStore): def __init__( self, embedding_function: Union[ Callable[[str], List[float]], Embeddings, ], index: Any, ...

2025/03/04 Langchain

InformationRetrievalEvaluator源码

InformationRetrievalEvaluator类解析与总结简介 InformationRetrievalEvaluator类是UKPLab/sentence-transformers库中的一部分，用于在信息检索（IR）设置中评估模型的性能。该类通过给定的一组查询，从大型语料库中检索每个查询最相似的前k个文档，并测量多种IR指标如平均互惠排名（MRR）、召回率@k和归一化折扣...

2025/02/27 Information Retrieval

SentenceTransformerTrainingArguments

SentenceTransformerTrainingArguments 是用于配置 Sentence Transformers 模型训练的参数类，继承自 TrainingArguments 并添加了一些特定于 Sentence Transformers 的参数。以下是其主要参数的解析：训练和评估相关参数参数作用 ...

2025/02/25 Information Retrieval

MultipleNegativesRankingLoss

MultipleNegativesRankingLoss（多负样本排序损失）总结 1. 定义 MultipleNegativesRankingLoss（多负样本排序损失）是一种用于训练嵌入模型的损失函数，特别适用于只有正样本对（如相似文本对、查询与相关文档对）的场景。它通过将一个批次中的所有非正样本作为负样本，来增强模型对正负样本的区分能力。 2. 工作原理输入为正样本对 (a_...

2025/02/24 Information Retrieval

认识SentenceTransformers

SentenceTransformers 1. 简介 SentenceTransformers 是一个基于 Python 的自然语言处理库，专注于将句子、段落和图像转换为高质量的嵌入向量。它基于 Hugging Face 的 Transformers 库，利用预训练的 Transformer 模型（如 BERT、RoBERTa、XLM-R 等）生成语义嵌入。 2. 核心功能生成句...

2025/02/24 Information Retrieval

Transformer源码-位置编码(PositionalEncoder)

Transformer模型自2017年提出以来，已经成为自然语言处理（NLP）领域的主流模型。与传统的循环神经网络（RNN）不同，Transformer模型完全基于自注意力机制，因此在处理长距离依赖关系方面有显著优势。然而，由于Transformer模型缺乏内置的序列顺序信息，必须通过位置编码（Positional Encoding）显式引入位置信息，以便模型能够区分序列中的不同位置。位置...

2025/02/22 LLM

LLM 从训练到部署

LLM 从训练到部署大型语言模型（LLM）从训练到部署涉及多个阶段，每个阶段都有对应的库或框架支持。以下是关键流程及常用工具： 1. 数据预处理文本处理与清洗： Hugging Face Datasets：加载和管理大规模文本数据集。 NLTK/spaCy：分词、词性标注、句法分析等基础NLP处理。 Apache Beam/Spa...

2025/02/12 LLM

DeepSeek系列

DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-V3-Base 之间的关系如下： DeepSeek-V3-Base 基础模型：DeepSeek-V3-Base 是 DeepSeek 系列模型的基础版本，具有 6710 亿参数，每次推理激活 370 亿参数。它在 14.8 万亿 tokens 上进行了预训练，采用混合专家（MoE）架构。作用：作为 DeepS...