论文翻译

GEO: 生成式引擎优化

ladydd

14 Sep 2025 — 41 min read

GEO: 生成式引擎优化

摘要

大型语言模型(LLM)的出现开创了一种新的搜索引擎范式,这种搜索引擎使用生成模型来收集和总结信息以回答用户查询。我们将这项新兴技术在生成引擎(GE)的统一框架下进行形式化,它能够生成准确且个性化的响应,正在迅速取代像Google和Bing这样的传统搜索引擎。生成引擎通常通过综合来自多个来源的信息并使用LLM对其进行总结来满足查询需求。虽然这一转变显著提高了用户效用和生成搜索引擎的流量,但它给第三方利益相关者——网站和内容创作者——带来了巨大挑战。鉴于生成引擎的黑盒性质和快速发展特性,内容创作者几乎无法控制其内容何时以及如何被展示。随着生成引擎的持续存在,我们必须确保创作者经济不会处于不利地位。为了解决这个问题,我们引入了生成引擎优化(GEO),这是第一个帮助内容创作者通过灵活的黑盒优化框架来提高其内容在生成引擎响应中可见性的新颖范式,用于优化和定义可见性指标。我们通过引入GEO-bench来促进系统化评估,这是一个大规模的基准测试,包含跨多个领域的多样化用户查询,以及回答这些查询的相关网络来源。通过严格的评估,我们证明GEO可以将生成引擎响应中的可见性提高多达40%。此外,我们展示了这些策略的有效性在不同领域之间存在差异,强调了特定领域优化方法的必要性。我们的工作在信息发现系统中开辟了一个新领域,对生成引擎的开发者和内容创作者都具有深远的影响。

计算方法 → 自然语言处理;机器学习;• 信息系统 → 网络搜索和信息发现。

关键词

生成式模型,搜索引擎,数据集和基准测试

1 引言

三十年前传统搜索引擎的发明彻底改变了全球信息访问和传播方式[4]。虽然它们功能强大,并催生了学术研究和电子商务等一系列应用,但它们仅限于为用户查询提供相关网站列表。然而,大型语言模型[5, 21]的最新成功为更好的系统铺平了道路,如BingChat、Google的SGE和perplexity.ai,这些系统将传统搜索引擎与生成模型相结合。我们将这些系统称为生成引擎(GE),因为它们搜索信息并通过使用多个来源生成多模态响应。从技术上讲,生成引擎(图2)从数据库(如互联网)中检索相关文档,并使用大型神经模型生成基于来源的响应,确保归属和用户验证信息的方式。

生成引擎对开发者和用户的有用性是显而易见的——用户可以更快、更准确地访问信息,而开发者可以制作精确和个性化的响应,提高用户满意度和收入。然而,生成引擎使第三方利益相关者——网站和内容创作者——处于不利地位。与传统搜索引擎相比,生成引擎通过直接提供精确和全面的响应消除了导航到网站的需要,可能会减少网站的有机流量并影响其可见性[16]。数百万小企业和个人依赖在线流量和可见性谋生,生成引擎将显著扰乱创作者经济。此外,生成引擎的黑盒和专有性质使内容创作者难以控制和理解其内容是如何被提取和呈现的。

图1: 我们提出的生成式引擎优化(GEO)方法优化网站以提升其在生成引擎响应中的可见性。GEO的黑盒优化框架使得原本缺乏可见性的披萨网站的所有者能够优化其网站,从而提高在生成引擎下的可见性。此外,GEO的通用框架允许内容创作者定义和优化他们自定义的可见性指标,在这个新兴范式中赋予他们更大的控制权。

在这项工作中,我们提出了第一个以创作者为中心的通用框架来优化生成引擎的内容,我们将其称为生成式引擎优化(GEO),以赋能内容创作者驾驭这一新的搜索范式。GEO是一个灵活的黑盒优化框架,用于优化专有和闭源生成引擎的网络内容可见性(图1)。GEO接收源网站并输出优化版本,通过定制和调整呈现方式、文本风格和内容来提高在生成引擎中的可见性。

此外,GEO引入了一个灵活的框架来定义为生成引擎量身定制的可见性指标,因为生成引擎中的可见性概念比传统搜索引擎更加微妙和多面化(图3)。虽然响应页面上的平均排名是传统搜索引擎(呈现线性网站列表)中可见性的良好衡量标准,但这并不适用于生成引擎。生成引擎提供丰富的结构化响应,并将网站作为内联引用嵌入响应中,通常以不同的长度、不同的位置和多样的风格嵌入它们。这需要为生成引擎量身定制的可见性指标,这些指标从多个维度衡量归属来源的可见性,例如引用与查询的相关性和影响力,通过客观和主观两个视角进行测量。

为了促进对GEO方法的忠实和广泛评估,我们提出了GEO-bench,这是一个由来自不同领域和来源的10000个查询组成的基准测试,专门为生成引擎改编。通过系统化评估,我们证明我们提出的生成式引擎优化方法可以在不同查询上将可见性提高多达40%,为内容创作者提供有益的策略。除其他发现外,我们发现包含引用、相关来源的引文和统计数据可以显著提升来源可见性,在各种查询中增加超过40%。我们还在Perplexity.ai这一真实世界的生成引擎上展示了生成式引擎优化的有效性,并证明了可见性提升高达37%。

总而言之,我们的贡献有三方面:

(1) 我们提出了生成式引擎优化,这是第一个为网站所有者优化其网站以适应生成引擎的通用优化框架。生成式引擎优化可以在广泛的查询、领域和真实世界黑盒生成引擎上将网站的可见性提高多达40%。

(2) 我们的框架提出了一套专门为生成引擎设计的综合可见性指标,并使内容创作者能够通过定制的可见性指标灵活地优化其内容。

(3) 为了促进生成引擎中GEO方法的忠实评估,我们提出了第一个大规模基准测试,包含来自广泛领域和数据集的多样化搜索查询,专门为生成引擎量身定制。

图2: 生成引擎概览。生成引擎主要由一组生成模型和一个搜索引擎组成,用于检索相关文档。生成引擎以用户查询作为输入,通过一系列步骤生成最终响应,该响应基于检索到的来源并带有内联归属。

2 公式化与方法论

2.1 生成引擎的公式化

尽管已有众多生成引擎部署给数百万用户使用,但目前还没有标准框架。我们提供了一个可以容纳其设计中各种模块化组件的公式化方案。我们描述了一个生成引擎,它包括几个后端生成模型和一个用于来源检索的搜索引擎。

生成引擎(GE)接收用户查询 q 并返回一个自然语言响应 r,其中 u 表示个性化的用户信息。GE可以表示为一个函数:

GE := (q, u) → r (1)

生成引擎包含两个关键组件:a.) 一组生成模型 G = {g₁, g₂...},每个模型服务于特定目的,如查询重构或摘要生成,以及 b.) 一个搜索引擎 S,给定查询 q 返回一组来源 D = {d₁, d₂...}。我们在图2中展示了一个代表性的工作流程,在撰写本文时,它与BingChat的设计非常相似。该工作流程将输入查询分解为一组更简单的查询,这些查询更容易被搜索引擎使用。

给定一个查询,查询重构生成模型 g₁ = gᵣₑ𝑓ₒᵣₘ 生成一组查询 Q = {q₁, q₂...},然后这些查询被传递给搜索引擎 S 以检索一组排名的来源 D = {d₁, d₂, ..., dₙ}。来源集合 D 被传递给摘要模型 g₂ = gₛᵤₘₘₐᵣᵧ,该模型为 D 中的每个来源生成摘要 sᵢ,产生摘要集 S = {s₁, s₂, ..., sₙ}。摘要集被传递给响应生成模型 g₃ = gᵣₑₛₚₒₙₛₑ,该模型生成由来源 D 支持的累积响应 r。在这项工作中,我们专注于单轮生成引擎,但该公式化可以扩展到多轮对话式生成引擎(附录A)。

响应通常是一个包含嵌入式引用的结构化文本。鉴于大型语言模型(LLM)倾向于产生幻觉信息[10],引用显得尤为重要。具体来说,考虑一个由句子 {r₁, r₂...} 组成的响应 r。每个句子可能由一组引用支持,这些引用是检索到的文档集 D 的一部分,记为 Dᵣᵢ ⊂ D。理想的生成引擎应确保响应中的所有陈述都有相关引用支持(高引用召回率),并且所有引用都准确支持其关联的陈述(高引用精确度)[14]。我们建议读者参考图3以了解代表性的生成引擎响应示例。

2.2 生成式引擎优化

搜索引擎的出现催生了搜索引擎优化(SEO),这是一个帮助网站创建者优化其内容以提高搜索引擎排名的过程。更高的排名与更高的可见性和网站流量相关。然而,传统的SEO方法并不直接适用于生成引擎。这是因为,与传统搜索引擎不同,生成引擎中的生成模型不限于关键词匹配,而且在摄取源文档和响应生成中使用语言模型会导致对文本文档和用户查询更加细致的理解。随着生成引擎迅速成为主要的信息传递范式,而SEO并不直接适用;需要新的技术。为此,我们提出了生成式引擎优化,这是一种新的范式,内容创作者旨在提高其在生成引擎响应中的可见性(或展示次数)。我们通过函数 V(c, r) 定义网站(也称为引用)c 在被引用响应 r 中的可见性,网站创建者希望最大化该函数。

从生成引擎的角度来看,目标是最大化与用户查询最相关的引用的可见性,即最大化 Σc V((c, r), R(c, q, r)),其中 R(c, q, r) 测量引用 c 在响应 r 的上下文中与查询 q 的相关性,而 V 由生成引擎的确切算法设计决定,对最终用户来说是一个黑盒函数。此外,函数 V 和 R 都是主观的,对于生成引擎来说尚未明确定义,我们接下来将定义它们。

2.2.1 生成引擎的展示次数

在SEO中,网站的展示次数(或可见性)由其在一系列查询中的平均排名决定。然而,生成引擎的输出性质需要不同的展示次数指标。与搜索引擎不同,生成引擎在单个响应中结合来自多个来源的信息。被引用网站的长度、独特性和呈现方式等因素决定了引用的真实可见性。因此,如图3所示,虽然响应页面上的简单排名可以作为传统搜索引擎中展示次数和可见性的有效指标,但这些指标不适用于生成引擎响应。

为了应对这一挑战,我们提出了一套展示次数指标,设计时考虑了三个关键原则:1.) 这些指标应与创作者相关,2.) 它们应该是可解释的,3.) 它们应该易于被广泛的内容创作者理解。这些指标中的第一个是"词数"指标,即与引用相关的句子的标准化词数。从数学上讲,这定义为:

V(c, r) = (Σ(rᵢ ∈ Dᵣc) |rᵢ|) / (Σ(rᵢ ∈ r) |rᵢ|)

其中 Dᵣc 是引用来源 c 的句子集合,r 是响应中的句子集合,|rᵢ| 是句子 rᵢ 中的词数。在一个句子被多个来源引用的情况下,我们将词数平均分配给所有引用。直观地说,更高的词数与来源在答案中扮演更重要的角色相关,因此用户对该来源有更高的曝光度。

然而,由于"词数"指标不受引用排名的影响(例如,它是否出现在第一位),我们提出了一个位置调整计数,通过引用位置的指数衰减函数来降低权重:

图3:排名和可见性指标在传统搜索引擎中很简单明了,它们按排名顺序列出网站来源并显示原始内容。然而,生成引擎会生成丰富的结构化响应,通常将引用嵌入到单个块中并相互交错。这使得排名和可见性变得细致入微且多方面。此外,与搜索引擎不同——在搜索引擎中已经进行了大量关于提高可见性的研究——如何优化生成引擎响应中的可见性仍不明确。为了应对这些挑战,我们的黑盒优化框架提出了一系列精心设计的展示次数指标,创作者可以使用这些指标来衡量和优化其网站的性能,同时也允许创作者定义自己的展示次数指标。

直观地说,响应中首先出现的句子更有可能被阅读,定义中的指数项赋予此类引用更高的权重。因此,即使在响应中间或末尾引用的网站词数更高,在顶部引用的网站也可能具有更高的展示次数。此外,选择指数衰减函数的动机来自几项研究,这些研究表明点击率作为搜索引擎排名的函数遵循幂律[7, 8]。虽然上述展示次数指标是客观且有充分依据的,但它们忽略了引用对用户注意力影响的主观方面。为了解决这个问题,我们提出了"主观展示次数"指标,该指标纳入了诸如引用材料与用户查询的相关性、引用的影响力、引用呈现材料的独特性、主观位置、主观计数、点击引用的概率以及呈现材料的多样性等方面。我们使用G-Eval[15]——当前使用LLM进行评估的最先进技术——来测量这些子指标中的每一个。

2.2.2 网站的生成式引擎优化方法

为了提高展示次数指标,内容创作者必须对其网站内容进行更改。我们提出了几种生成引擎无关的策略,称为生成式引擎优化方法(GEO)。从数学上讲,每种GEO方法都是一个函数 f : c → c',其中 c 是初始网络内容,c' 是应用GEO方法后的修改内容。修改范围可以从简单的风格改变到以结构化格式整合新内容。一个设计良好的GEO等同于一种黑盒优化方法,在不知道生成引擎确切算法设计的情况下,可以提高网站的可见性并对 c 实施文本修改,独立于确切的查询。

在我们的实验中,我们使用大型语言模型对网站内容应用生成式引擎优化方法,提示其对网站进行特定的风格和内容更改。特别是,基于GEO方法定义的一组特定期望特征,相应地修改源内容。我们提出并评估了几种这样的方法:

1. 权威性(Authoritative): 修改源内容的文本风格,使其更具说服力和权威性。2. 统计数据添加(Statistics Addition): 修改内容以尽可能包含定量统计数据而不是定性讨论。3. 关键词填充(Keyword Stuffing): 修改内容以包含更多来自查询的关键词,正如经典SEO优化中所期望的那样。4. 引用来源(Cite Sources)和5. 引语添加(Quotation Addition): 分别添加来自可信来源的相关引用和引语。6. 易于理解(Easy-to-Understand): 简化网站语言,而7. 流畅性优化(Fluency Optimization) 则提高网站文本的流畅性。8. 独特词汇(Unique Words)和9. 技术术语(Technical Terms): 涉及尽可能添加独特和技术术语。

这些方法涵盖了网站所有者可以快速实施且无论网站内容如何都可以使用的各种通用策略。此外,除了方法3、4和5之外,其余方法通过增强现有内容的呈现来提高其说服力或对生成引擎的吸引力,而无需额外的内容。另一方面,方法3、4和5可能需要某种形式的额外内容。为了分析我们方法的性能增益,对于每个输入的用户查询,我们随机选择一个源网站进行优化,并在同一来源上分别应用每种GEO方法。我们建议读者参阅附录B.4以获取有关GEO方法的更多详细信息。

3 实验设置

3.1 评估的生成引擎

根据先前的工作[14],我们使用2步设置来进行生成引擎设计。第一步涉及获取与输入查询相关的来源,然后在第二步中,LLM根据获取的来源生成响应。与之前的工作类似,我们不使用摘要,而是为每个来源提供完整的响应。由于上下文长度限制和基于transformer模型上下文大小的二次缩放成本,每个查询仅从Google搜索引擎获取前5个来源。该设置密切模仿了先前工作中使用的工作流程以及商业生成引擎(如you.com和perplexity.ai)采用的通用设计。然后由gpt3.5-turbo模型[20]使用与先前工作[14]相同的提示生成答案。我们在temperature=0.7时采样5个不同的响应,以减少统计偏差。

此外,在第C.1节中,我们在Perplexity.ai上评估相同的生成式引擎优化方法,这是一个商业部署的生成引擎,突显了我们提出的生成式引擎优化方法的通用性。

3.2 基准测试:GEO-bench

由于目前没有公开可用的包含生成引擎相关查询的数据集,我们策划了GEO-bench,这是一个基准测试,包含来自多个来源的10K查询,为生成引擎重新调整用途,以及合成生成的查询。该基准测试包括来自九个不同来源的查询,每个来源根据其目标领域、难度、查询意图和其他维度进一步分类。

数据集: 1. MS Macro, 2. ORCAS-1, 和 3. Natural Questions: [1, 6, 13] 这些数据集包含来自Bing和Google搜索引擎的真实匿名用户查询。这三个数据集共同代表了搜索引擎相关研究中使用的常见数据集集合。然而,生成引擎将面临更加困难和具体的查询,其意图是从多个来源综合答案而不是搜索它们。为此,我们重新调整了几个其他公开可用的数据集的用途:4. AllSouls: 该数据集包含来自"牛津大学万灵学院"的论文问题。该数据集中的查询要求生成引擎执行适当的推理以聚合来自多个来源的信息。5. LIMA: [25] 包含具有挑战性的问题,要求生成引擎不仅聚合信息,还要执行适当的推理来回答问题(例如,编写一首短诗、python代码)。6. Davinci-Debate [14] 包含为测试生成引擎而生成的辩论问题。7. Perplexity.ai Discover²: 这些查询来自Perplexity.ai的Discover部分,这是平台上趋势查询的更新列表。8. ELI-5³: 该数据集包含来自ELI5 subreddit的问题,用户在其中提出复杂问题并期望得到简单、通俗易懂的答案。9. GPT-4生成的查询: 为了补充查询分布的多样性,我们提示GPT-4 [21]生成来自各个领域(例如,科学、历史)的查询,并基于查询意图(例如,导航型、交易型)以及生成响应的难度和范围(例如,开放式、基于事实)。

我们的基准测试包含10K查询,分别划分为8K、1K和1K用于训练、验证和测试分割。我们保留了真实世界的查询分布,我们的基准测试包含80%的信息型查询,以及各10%的交易型和导航型查询。每个查询都通过来自Google搜索引擎的前5个搜索结果的清理文本内容进行增强。

标签: 优化网站内容通常需要基于任务领域进行针对性更改。此外,生成式引擎优化的用户可能需要仅针对查询的子集识别适当的方法,考虑多个因素,如领域、用户意图和查询性质。为了促进这一点,我们为每个查询标记七个不同类别之一。对于标记,我们使用GPT-4模型,并在测试分割上手动验证高召回率和精确度。

总体而言,GEO-bench包含来自25个不同领域(如艺术、健康和游戏)的查询;它具有从简单到多方面的各种查询难度;包括9种不同类型的查询,如信息型和交易型;并涵盖7种不同的分类。由于其特别设计的高度多样性、基准测试的规模及其真实世界性质,GEO-bench是评估生成引擎的综合基准测试,并作为在本工作和未来工作中出于各种目的评估它们的标准测试平台。我们在附录B.2中提供了有关GEO-bench的更多详细信息。

3.3 GEO方法

我们评估了第2.2.2节中描述的9种不同的提议GEO方法。我们将它们与基线进行比较,基线测量未修改网站来源的印象指标。我们在完整的GEO-bench测试分割上评估这些方法。此外,为了减少结果的方差,我们在五个不同的随机种子上运行实验并报告平均值。

3.4 评估指标

我们使用第2.2.1节中定义的印象指标。具体来说,我们采用两个印象指标:1. 位置调整词数,它结合了词数和位置数。为了分析各个组成部分的影响,我们还分别报告了这两个子指标的分数。2. 主观印象,这是一个主观指标,涵盖七个不同方面:1)被引用句子与用户查询的相关性,2)引用的影响力,评估生成响应对引用的依赖程度,3)引用呈现材料的独特性,4)主观位置,从用户角度衡量来源定位的显著性,5)主观计数,测量从用户感知的引用中呈现的内容量,6)用户点击引用的可能性,以及7)呈现材料的多样性。这些子指标评估内容创作者可以针对的不同方面,以有效改善一个或多个领域。每个子指标都使用GPT-3.5进行评估,遵循类似于G-Eval [15]中描述的方法。在G-Eval中,向语言模型提供基于表单的评估模板,以及带有引用的GE生成响应。模型为每个引用输出一个分数(通过多次采样计算)。然而,由于G-Eval分数校准不佳,我们将它们归一化为与位置调整词数具有相同的均值和方差,以实现公平且有意义的比较。我们在附录B.3中提供了使用的确切模板。

**表1:GEO方法在GEO-bench上的绝对印象指标。**在两个指标及其子指标上测量的性能。与基线相比,传统上用于SEO的简单方法如关键词堆砌效果不佳。然而,我们提出的方法,如统计数据添加和引用添加,在所有指标上都显示出强劲的性能提升。最佳方法在位置调整词数和主观印象上分别比基线提高了41%和28%。为了可读性,主观印象分数相对于位置调整词数进行了归一化,从而产生相似的基线分数。

此外,所有印象指标都通过乘以一个常数因子进行归一化,使得响应中所有引用的印象总和等于1。在我们的分析中,我们通过计算印象的相对改进来比较方法。对于来自来源 ∈ {1, . . . , } 的初始生成响应,以及修改后的响应 ′,每个来源的印象相对改进测量为:

修改后的响应 ′ 是通过将正在评估的GEO方法应用于其中一个来源而产生的。选择用于优化的来源是随机选择的,但对于特定查询在所有GEO方法中保持不变。

4 结果

我们评估了各种生成式引擎优化方法,这些方法旨在优化网站内容以提高在生成引擎响应中的可见性,并与未进行优化的基线进行比较。我们的评估使用了GEO-bench,这是一个来自多个领域和场景的多样化用户查询基准测试。使用两个指标测量性能:位置调整词数和主观印象。前者考虑了生成引擎响应中的词数和引用位置,而后者计算多个主观因素,给出总体印象分数。

表1详细说明了不同方法在多个指标上的绝对印象指标。结果表明,我们的GEO方法在GEO-bench的所有指标上始终优于基线。这显示了这些方法对不同查询的鲁棒性,尽管查询具有多样性,但仍能产生显著的改进。

具体而言,我们表现最佳的方法——引用来源、引文添加和统计数据添加——在位置调整词数指标上实现了30-40%的相对改进,在主观印象指标上实现了15-30%的改进。这些方法涉及在网站内容中添加相关统计数据(统计数据添加)、纳入可信的引文(引文添加)以及包含来自可靠来源的引用(引用来源),只需进行最小的更改,但显著提高了在生成引擎响应中的可见性,同时增强了内容的可信度和丰富性。

有趣的是,诸如改善源文本的流畅性和可读性(流畅性优化和易于理解)等风格变化也导致了15-30%的显著可见性提升。这表明生成引擎不仅重视内容,还重视信息的呈现方式。

**表2:不同搜索引擎排名来源通过GEO方法的可见性变化。**GEO对排名较低的网站特别有帮助

**表3:每种GEO方法表现最佳的类别。**网站所有者可以根据其目标领域选择相关的GEO策略。

**图4:使用GEO策略组合的相对改进。**联合使用流畅性优化和统计数据添加可获得最佳性能。最右侧列显示将流畅性优化与其他策略结合使用最为有益。

此外,鉴于生成式模型通常被设计为遵循指令,人们会期望网站内容中更具说服力和权威性的语气能够提高可见性。然而,我们发现没有显著改进,这表明生成引擎对此类变化已经具有一定的鲁棒性。这突显了网站所有者需要专注于改善内容呈现和可信度。

最后,我们评估了关键词堆砌,即在网站内容中添加更多相关关键词。虽然这种方法广泛用于搜索引擎优化,但我们发现这些方法对生成引擎的响应几乎没有改进或根本没有改进。这强调了网站所有者需要重新思考生成引擎的优化策略,因为在搜索引擎中有效的技术可能无法在这个新范式中取得成功。

5 分析

5.1 特定领域的生成式引擎优化

在第4节中,我们展示了GEO在整个GEO-bench基准测试中实现的改进。然而,在现实世界的SEO场景中,通常会应用特定领域的优化。考虑到这一点,并且考虑到我们为GEO-bench中的每个查询提供了类别,我们深入研究了各种GEO方法在这些类别中的性能。

表3详细列出了我们的GEO方法被证明最有效的类别。仔细分析这些结果揭示了几个有趣的观察结果。例如,权威性方法在辩论式问题和与"历史"领域相关的查询中显著提高了性能。这符合我们的直觉,因为更具说服力的写作形式在辩论中可能具有更大的价值。

同样,通过引用来源添加引文对事实性问题特别有益,这可能是因为引文为所呈现的事实提供了验证来源,从而增强了响应的可信度。不同GEO方法的有效性在各个领域之间存在差异。例如,如表3第5行所示,"法律与政府"等领域和"观点"等问题类型从网站内容中添加相关统计数据(通过统计数据添加实现)中获益匪浅。这表明数据驱动的证据可以在特定情况下提高网站的可见性。引用添加方法在"人类与社会"、"解释"和"历史"领域最为有效。这可能是因为这些领域通常涉及个人叙事或历史事件,其中直接引用可以为内容增加真实性和深度。总体而言,我们的分析表明,网站所有者应该努力对其网站进行特定领域的针对性调整,以获得更高的可见性。

5.2 多个网站的优化

在生成引擎不断演变的环境中,GEO方法预计将被广泛采用,从而导致所有来源内容都使用GEO进行优化的情况。为了理解其影响,我们通过同时优化所有来源内容来评估GEO方法,结果如表2所示。一个关键观察是,GEO对网站的影响因其搜索引擎结果页面(SERP)排名而异。值得注意的是,排名较低的网站通常难以获得可见性,但从GEO中获益更多。这是因为传统搜索引擎依赖于多个因素,如反向链接数量和域名存在性,这些对小型创作者来说很难实现。然而,由于生成引擎使用基于网站内容条件化的生成模型,反向链接建设等因素不应使小型创作者处于不利地位。这从表2显示的可见性相对改进中可以明显看出。例如,引用来源方法使SERP排名第五的网站可见性大幅提高了115.1%,而排名第一的网站的可见性平均下降了30.3%。

这一发现突显了GEO作为民主化数字空间工具的潜力。许多排名较低的网站是由小型内容创作者或独立企业创建的,他们传统上很难在顶级搜索引擎结果中与大型公司竞争。生成引擎的出现最初似乎对这些较小的实体不利。然而,GEO方法的应用为这些内容创作者提供了一个显著提高其在生成引擎响应中可见性的机会。通过使用GEO增强其内容,他们可以接触到更广泛的受众,实现公平竞争,并使他们能够更有效地与大型公司竞争。

**表4:GEO方法优化源网站的代表性示例。**添加内容标记为绿色,删除内容标记为红色。在不添加任何实质性新信息的情况下,GEO方法显著提高了源内容的可见性。

5.3 GEO策略的组合

虽然单独的GEO策略在各个领域都显示出显著改进,但在实践中,网站所有者预计会结合使用多种策略。为了研究通过组合GEO策略实现的性能改进,我们考虑了表现最佳的4种GEO方法的所有配对组合,即引用来源、流畅性优化、统计数据添加和引用添加。图4显示了通过组合不同GEO策略在位置调整词数可见性指标上实现的相对改进热图。分析表明,生成式引擎优化方法的组合可以提高性能,最佳组合(流畅性优化和统计数据添加)比任何单一GEO策略的性能高出5.5%以上。此外,引用来源与其他方法结合使用时显著提升了性能(平均:31.4%),尽管单独使用时相对效果较差(比引用添加低8%)。这些发现强调了研究组合使用GEO方法的重要性,因为它们很可能会被内容创作者在现实世界中使用。

5.4 定性分析

我们在表4中展示了GEO方法的定性分析,其中包含代表性示例,显示GEO方法如何通过最小的更改提升来源可见性。每种方法都通过适当的文本添加和删除来优化来源。在第一个示例中,我们看到仅仅添加陈述的来源就可以显著提高在最终答案中的可见性,对内容创作者的要求最小。第二个示例表明,在可能的地方添加相关统计数据可以确保在最终生成引擎响应中提高来源可见性。最后,第三行表明,仅仅强调文本的某些部分并使用有说服力的文本风格也可以提高可见性。

6 现实中的GEO:已部署生成引擎的实验

**表5:GEO方法在GEO-bench上使用Perplexity.ai作为生成引擎的绝对印象指标。**虽然关键词堆砌等SEO方法表现不佳,但我们提出的GEO方法能够很好地泛化到多个生成引擎,并显著提高内容可见性。

为了加强我们提出的生成式引擎优化方法的有效性,我们在Perplexity.ai上对其进行了评估,这是一个拥有大量用户基础的真实部署生成引擎。结果见表5。与我们的生成引擎类似,引用添加在位置调整词数方面表现最佳,比基线提高了22%。在我们的生成引擎中表现良好的方法,如引用来源、统计数据添加,在两个指标上显示出高达9%和37%的改进。我们的观察结果,如关键词堆砌等传统SEO方法的无效性,得到了进一步强调,因为它比基线差10%。这些结果具有重要意义,原因有三:1)它们强调了开发不同生成式引擎优化方法以使内容创作者受益的重要性,2)它们突显了我们提出的GEO方法在不同生成引擎上的通用性,3)它们证明内容创作者可以直接使用我们易于实施的提出的GEO方法,从而产生高度的现实世界影响。我们建议读者参考附录C.1以获取更多详细信息。

7 相关工作

**基于证据的答案生成:**先前的工作使用了多种技术来生成由来源支持的答案。Nakano等人[19]训练GPT-3在网络环境中导航以生成由来源支持的答案。同样,其他方法[17, 23, 24]通过搜索引擎获取来源以生成答案。我们的工作统一了这些方法,并为未来改进这些系统提供了一个通用基准。在最近的工作草稿中,Kumar和Lakkaraju[11]表明,战略性文本序列可以操纵LLM推荐以提高生成引擎中的产品可见性。虽然他们的方法侧重于通过对抗性文本增加产品可见性,但我们的方法引入了非对抗性策略来优化任何网站内容,以提高在生成引擎搜索结果中的可见性。

**检索增强语言模型:**最近的几项工作通过从知识库中获取相关来源来完成任务,从而解决了语言模型有限记忆的问题[3, 9, 18]。然而,生成引擎需要生成答案并在整个答案中提供归属。此外,生成引擎在输入和输出方面不限于单一文本模态。另外,生成引擎的框架不限于获取相关来源,而是包括多项任务,如查询重新表述、来源选择,以及决定如何以及何时执行这些任务。

**搜索引擎优化:**在过去近25年中,大量研究致力于为搜索引擎优化网络内容[2, 12, 22]。这些方法分为页面内SEO(改进内容和用户体验)和页面外SEO(通过链接建设提升网站权威性)。相比之下,GEO处理的是一个更复杂的环境,涉及多模态和对话设置。由于GEO是针对不限于简单关键词匹配的生成模型进行优化的,传统的SEO策略将不适用于生成引擎设置,这突显了GEO的必要性。

8 结论

在这项工作中,我们形式化了配备生成模型的搜索引擎,我们将其称为生成引擎。我们提出了生成式引擎优化(GEO)来赋能内容创作者在生成引擎下优化其内容。我们为生成引擎定义了印象指标,并提出并发布了GEO-bench:一个包含来自多个领域和设置的多样化用户查询的基准测试,以及回答这些查询所需的相关来源。我们提出了几种优化生成引擎内容的方法,并证明这些方法可以将生成引擎响应中的来源可见性提高多达40%。在其他发现中,我们表明包含引用、来自相关来源的引文和统计数据可以显著提高来源可见性。此外,我们发现GEO方法的有效性取决于查询领域,以及结合使用多种GEO策略的潜力。我们在一个拥有数百万活跃用户的商业部署生成引擎上展示了令人鼓舞的结果,展示了我们工作的现实世界影响。总之,我们的工作是第一个形式化这个重要且及时的GEO范式,发布算法和基础设施(基准测试、数据集和指标)以促进社区在生成引擎方面的快速进展。这是理解生成引擎对数字空间的影响以及GEO在这种新搜索引擎范式中的作用的第一步。

9 局限性

虽然我们在两个生成引擎(包括一个公开可用的引擎)上严格测试了我们提出的方法,但随着生成引擎的发展,方法可能需要随着时间的推移进行调整,这与SEO的演变类似。此外,尽管我们努力确保GEO-bench中的查询与真实世界的查询非常相似,但查询的性质可能会随时间变化,需要持续更新。此外,由于搜索引擎算法的黑盒性质,我们没有评估GEO方法如何影响搜索排名。然而,我们注意到GEO方法所做的更改是针对文本内容的定向更改,与SEO方法有一些相似之处,但不影响域名、反向链接等其他元数据,因此不太可能影响搜索引擎排名。此外,随着语言模型中更大上下文长度变得经济可行,预计未来的生成模型将能够吸收更多来源,从而减少搜索排名的影响。最后,虽然我们提出的GEO-bench中的每个查询都经过标记和人工检查,但由于主观解释或标记错误,可能存在差异。

10 致谢

本材料基于美国国家科学基金会资助编号2107048支持的工作。本材料中表达的任何意见、发现、结论或建议均为作者的观点,不一定反映美国国家科学基金会的观点。