论文翻译

RoBERTa：一种稳健优化的BERT预训练方法

ladydd

22 Sep 2025 — 5 min read

https://arxiv.org/pdf/1907.11692

RoBERTa：一种稳健优化的BERT预训练方法

摘要

语言模型预训练已经带来了显著的性能提升，但对不同方法进行仔细比较具有挑战性。训练在计算上成本高昂，通常在不同大小的私有数据集上进行，并且，正如我们将展示的，超参数选择对最终结果有重大影响。我们提出了一项BERT预训练（Devlin等人，2019）的复制研究，该研究仔细测量了许多关键超参数和训练数据大小的影响。我们发现BERT的训练明显不足，并且可以匹配或超过其后发布的每个模型的性能。我们的最佳模型在GLUE、RACE和SQuAD上取得了最先进的结果。这些结果强调了先前被忽视的设计选择的重要性，并对最近报告的改进来源提出了质疑。我们发布了我们的模型和代码。

1 引言

ELMo（Peters等人，2018）、GPT（Radford等人，2018）、BERT（Devlin等人，2019）、XLM（Lample和Conneau，2019）和XLNet（Yang等人，2019）等自训练方法带来了显著的性能提升，但确定这些方法中哪些方面贡献最大可能具有挑战性。训练在计算上成本高昂，限制了可以进行的调整量，并且通常在不同大小的私有训练数据上进行，这限制了我们衡量建模进展效果的能力。

我们提出了一项BERT预训练（Devlin等人，2019）的复制研究，其中包括对超参数调整和训练集大小效果的仔细评估。我们发现BERT的训练明显不足，并提出了一种改进的BERT模型训练方法，我们称之为RoBERTa，它可以匹配或超过所有BERT后续方法的性能。我们的修改很简单，包括：（1）使用更大的批次、更多的数据对模型进行更长时间的训练；（2）移除下一句预测目标；（3）训练更长的序列；以及（4）动态改变应用于训练数据的掩码模式。我们还收集了一个大型新数据集（CC-NEWS），其大小与其他私有使用的数据集相当，以更好地控制训练集大小的影响。

在控制训练数据的条件下，我们改进的训练程序在GLUE和SQuAD上都优于已发表的BERT结果。当在更多数据上进行更长时间的训练时，我们的模型在公共GLUE排行榜上获得了88.5的分数，与Yang等人（2019）报告的88.4相匹配。我们的模型在GLUE的9个任务中的4个上建立了新的最先进水平：MNLI、QNLI、RTE和STS-B。我们还在SQuAD和RACE上达到了最先进的结果。总体而言，我们重新确立了BERT的掩码语言模型训练目标与其他最近提出的训练目标（如扰动自回归语言建模（Yang等人，2019））相比具有竞争力。

总而言之，本文的贡献在于：（1）我们提出了一系列重要的BERT设计选择和训练策略，并引入了能够带来更好下游任务性能的替代方案；（2）我们使用了一个新的数据集CC-NEWS，并确认使用更多数据进行预训练能够进一步提高下游任务的性能；（3）我们的训练改进表明，在正确的设计选择下，掩码语言模型预训练与所有其他最近发布的方法具有竞争力。我们发布了我们的模型，以及在PyTorch（Paszke等人，2017）中实现的预训练和微调代码。

2 背景

在本节中，我们简要概述BERT（Devlin等人，2019）预训练方法以及我们将在下一节中实验性地检验的一些训练选择。

2.1 设置

BERT以两个片段（标记序列）的连接作为输入，x1, ..., xN和y1, ..., yM。片段通常由多个自然句组成。这两个片段以单一输入序列的形式呈现给BERT，并用特殊标记来分隔它们：[CLS], x1, ..., xN, [SEP], y1, ..., yM, [EOS]。M和N受到约束，使得M + N < T，其中T是控制训练期间最大序列长度的参数。

该模型首先在大型未标记文本语料库上进行预训练，随后使用终端任务标记数据进行微调。

2.2 架构

BERT使用现在无处不在的transformer架构（Vaswani等人，2017），我们在这里不会详细回顾。我们使用一个有L层的transformer架构。每个块使用A个自注意力头和隐藏维度H。

2.3 训练目标

在预训练期间，BERT使用两个目标：掩码语言建模和下一句预测。

2.3.1 掩码语言模型（MLM）

输入序列中的标记被随机抽样，并替换为特殊标记[MASK]。MLM目标是关于预测被掩码标记的交叉熵损失。BERT统一选择15%的输入标记进行可能的替换。在被选中的标记中，80%被替换为[MASK]，10%保持不变，10%被替换为随机选择的词汇表标记。

在原始实现中，随机掩码和替换在训练开始时执行一次，并在整个训练期间保存，尽管在实践中，数据会被复制，因此对于每个训练句子，掩码并不总是相同的（参见第4.1节）。

把 Codex CLI 的登录态"搬"到一台新服务器

场景:你在一台老机器上早就登录好了 Codex CLI,现在开了台新服务器、装好了 codex,但它没登录。你不想在新机上重新走一遍 OAuth 网页授权(有时候服务器上根本打不开浏览器),只想把老机器上那份"已经登录好的身份"复制过去。这篇讲的就是这个搬运动作的完整方法论——为什么能搬、怎么搬、有哪些坑。命令里所有隐私都用占位符,照着换成你自己的即可。一、先理解一件事:Codex 的登录就是一个文件这是整个操作的地基。Codex CLI(ChatGPT OAuth 登录模式下)的登录状态,不在什么系统钥匙串里,也不在环境变量里,就是家目录下一个单独的 JSON 文件: ~/.codex/auth.json 它长这样(字段名是真的,值我打码了): { "auth_mode": "

哨兵机制:让 Agent 一触即醒

0. 一句话点破本质 **让"等"发生在便宜的子进程里,让贵的 agent 只在有事时醒。**心跳解决"最迟多久必有人查岗",探针解决"事情一发生几乎立刻有人到场"——两个机制回答的是两个不同的问题,谁也替代不了谁。 1. 机制全貌:会自杀的轮询进程 + 宿主的"尸体通知" 我的实现只有两块积木: 积木一:一个有明确死法的后台循环 # 放行任务的同时,后台挂上(run_in_background) for i in $(seq 1 20); do 信号=$(ssh data "tmux capture-pane -t dna

Agent 心跳机制·设计与实现

0. 一句话点破本质 **心跳不是闹钟,是"带着完整世界快照的自我唤醒"。**闹钟只解决"什么时候醒";心跳真正要解决的是你点出的那个问题——醒来的那个瞬间,清楚自己是谁、任务到哪了、这一跳该干什么。我所有跑得好的心跳,提示词都写得像给一个失忆的陌生人看的;所有出过事的心跳,都是因为假设"我还记得"。 1. 第一性原理:为什么"醒来知道干啥"这么难一个长期任务里的 agent 面临三重失忆: 1. 上下文会被压缩——多轮之后早期细节只剩摘要,心跳打进来时,那条心跳提示词可能是上下文里唯一高保真的任务描述 2. 世界在你睡着时变了——下属可能干完了、卡死了、跑偏了,你脑子里的"进度"从睡着那刻就开始过期 3. 任务本身会变—

我没手动映射 3000，公网为什么还能访问？一次 UPnP 误开孔复盘

写在前面：标题里的“自己打开”只是当时的主观感受。路由器没有失控，也不存在神秘穿透。真正发生的是：排障自动化从局域网主动调用了 UPnP AddPortMapping，路由器按协议新增了公网映射。 1. 原本的设计边界家里的 Open WebUI 跑在一台 Ubuntu 主机的 Docker 中：内网主机 192.168.x.x:3000 路由器上手动配置的入口是：公网 TCP 13000 → 内网主机:3000 外部用户不直接访问家宽端口，而是先到云端 Caddy：用户浏览器 → https://ai.example.com （云端 Caddy） → http://home.example.com:13000 （DDNS → 家宽公网

RoBERTa：一种稳健优化的BERT预训练方法

1 引言

2 背景

2.1 设置

2.2 架构

2.3 训练目标

2.3.1 掩码语言模型（MLM）

Read more

把 Codex CLI 的登录态"搬"到一台新服务器

哨兵机制:让 Agent 一触即醒

Agent 心跳机制·设计与实现

我没手动映射 3000，公网为什么还能访问？一次 UPnP 误开孔复盘