CoT-Self-Instruct：高质量数据合成

COT-SELF-INSTRUCT: BUILDING HIGH-QUALITY SYNTHETIC PROMPTS FOR REASONING AND NON-REASONING TASKS Paper：https://arxiv.org/pdf/2507.23751 1. 摘要（ABSTRACT）核心方法：提出 CoT-Self-Instruct，一种通过思维链（...

2025/08/12 论文阅读

数组与链表

数组和链表的理论基础与对比一、数组（Array）基本概念连续的内存空间，存储相同类型元素。通过索引直接访问元素（时间复杂度 O(1)）。大小固定，需预分配内存；扩容需重新分配内存并拷贝数据。核心操作复杂度访问：O(1)（随机访问）插入/删除：O(n)（需移动元素） ...

2025/03/29 数据结构

Encoder-Decoder、Encoder-Only、Decoder-Only和Prefix-LM

以下是四种主要模型架构的详细中文解析： 1. 编码器-解码器架构（Encoder-Decoder）结构：包含编码器（处理输入）和解码器（生成输出）。典型任务：序列到序列（seq2seq）任务，如机器翻译、文本摘要。代表模型：T5、BART、原始Transformer。工作原理：编码器：通过双向注意力（能看到全部上下文）将输入转换为稠密的...

2025/03/25 LLM

Dense Retrieval

原理：通过深度学习模型将文本映射为向量，基于向量相似度检索。代表模型： DPR（Dense Passage Retrieval）：双塔模型，分别编码查询与文档。 Sentence-BERT：预训练模型生成句向量。 ColBERT：交互式模型，保留token级交互信息。优点：捕捉语义相似性，解决词汇不匹配问题。缺点：...

2025/03/24 Information Retrieval

MRR@k 与 NDCG@k 详解

在信息检索和推荐系统中，MRR@k（Mean Reciprocal Rank at k）和NDCG@k（Normalized Discounted Cumulative Gain at k）是两个核心评估指标，用于衡量排序结果的质量。以下是它们的详细对比与应用说明： 1. MRR@k（平均倒数排名@k）定义目标：衡量系统返回的排序列表中第一个相关结果的位置。公式： \(...

2025/03/20 Information Retrieval

Bi-Encoder与Cross-Encoder对比分析

Bi-Encoder和Cross-Encoder是自然语言处理中用于文本匹配的两种主要模型架构，它们在处理方式、效率和应用场景上存在显著差异。以下是它们的详细对比： 1. 核心区别 Bi-Encoder（双编码器）处理方式：分别对两个输入文本进行独立编码，生成各自的向量表示，再通过相似度计算（如点积、余弦相似度）进行比较。结构：通常共享参数（...

2025/03/20 Information Retrieval

排序学习的损失函数选取

在重排序（Reranking）任务中，损失函数的选择对于模型的性能至关重要。不同的损失函数适用于不同的场景和模型架构。以下是一些常见的用于重排序任务的损失函数： 1. Point-wise 损失函数 Point-wise 损失函数将每个文档视为独立的样本，对每个文档的相关性进行打分，然后根据这些得分进行排序。常见的 Point-wise 损失函数括：均方误差（Mean...

2025/03/19 Information Retrieval

排序学习(LTR)

在信息检索和机器学习排序（LTR）中，Point-wise、Pair-wise和List-wise是三种主要的方法，各自针对不同粒度的排序优化。其中，三种方法并不是特定的算法，而是排序学习模型的设计思路，主要区别体现在损失函数（Loss Function）、以及相应的标签标注方式和优化方法的不同。以下是它们的详细对比： — 1. Point-wise（单点排序）核心思想：将排...

2025/03/11 Information Retrieval

正负样本构建技巧

在信息检索和对比学习任务中，正负样本的构建质量直接影响模型性能。以下是针对科学文献检索场景的正负样本构建高级技巧，结合sciFact数据集特点的详细说明：一、基础构建原则 1. 显式正样本（Positive Samples）定义：与声明（claim）存在明确支持关系的摘要 sciFact处理技巧： # 从标注数据中提取SUPPORT标签的证据 positives ...

2025/03/10 Information Retrieval

Python常见数据类型

Python 提供了许多内置的数据类型，这些数据类型在处理不同类型的数据时非常有用。以下是 Python 中常用数据类型的介绍： 1. 列表（List）列表是 Python 中最常用的数据类型之一，它是一个有序的可变序列，可以存储不同类型的元素。列表中的元素可以通过索引访问，支持正向索引和负向索引。特点：可变：列表的大小和内容可以动态改变。有序：列表中的元素按照插入顺序...

2025/03/08 数据结构