SentenceTransformerTrainingArguments

发表于 2025/02/25 更新于 2025/03/20

作者

3 分钟阅读

SentenceTransformerTrainingArguments 是用于配置 Sentence Transformers 模型训练的参数类，继承自 TrainingArguments 并添加了一些特定于 Sentence Transformers 的参数。以下是其主要参数的解析：

参数	作用
`output_dir`	模型检查点的输出目录。
`overwrite_output_dir`	是否覆盖输出目录中的现有内容。
`do_train`	是否执行训练过程。
`do_eval`	是否执行评估过程。
`eval_strategy`	评估策略，可选值为 `"no"`（不评估）、`"steps"`（按步评估）或 `"epoch"`（按轮评估）。
`eval_steps`	若 `eval_strategy` 为 `"steps"`，则每多少步进行一次评估。
`per_device_train_batch_size`	每个设备（GPU/TPU/CPU）的训练批次大小。
`per_device_eval_batch_size`	每个设备的评估批次大小。
`gradient_accumulation_steps`	梯度累积步数，用于模拟更大的批次大小。
`num_train_epochs`	总训练轮数。
`max_steps`	总训练步数，若设置为正数，则会覆盖 `num_train_epochs`。

参数	作用
`batch_sampler`	批次采样器的类型，例如 `BatchSamplers.NO_DUPLICATES`。
`multi_dataset_batch_sampler`	多数据集采样策略，例如 `MultiDatasetBatchSamplers.PROPORTIONAL`。

这些参数提供了灵活的配置选项，以适应不同的训练需求和硬件环境。

本文由作者按照 CC BY 4.0 进行授权

热门标签