From Pretraining Data to Language Models

2023-11-15 大全 27 作者：考证青年

从预训练数据到语言模型再到下游任务：追踪导致不公平NLP模型的政治偏见路径

本文为年文章《From Data to to Tasks: the of to NLP 》的翻译。

文章内容还待完善，如有错误请指出。

Code and data are at

摘要：语言模型是在各种数据源上进行预训练的，包括新闻、讨论论坛、书籍和在线百科全书。其中相当一部分数据包含了意见和观点，一方面庆祝民主和思想多样性，另一方面又具有固有的社会偏见。本文开发了新的方法来衡量在这些语料库上进行预训练的LMs在社会和经济维度上的政治偏见，并衡量在政治偏见的LMs之上进行训练的下游NLP模型的公平性。我们专注于仇恨言论和虚假信息检测，旨在实证量化预训练数据中的政治（社会、经济）偏见对高风险的社会导向任务的公平性的影响。我们的研究结果表明，预训练LMs确实具有政治倾向，强化了预训练语料库中存在的极化现象，将社会偏见传播到仇恨言论预测和虚假信息检测中。我们讨论了这些发现对NLP研究的影响，并提出了未来减轻不公平性的方向。警告：本论文包含仇恨言论示例。

文章目录 3 实验设置结果和分析 5 降低政治偏见影响的方法6 相关工作7 总结

1 介绍

数字和社交媒体已经成为政治新闻传播的主要来源，用户参与率前所未有地高。过去十年，围绕极化议题（气候变化、枪支控制、堕胎、工资差距、死刑、税收、同性婚姻等）的在线讨论量急剧增加。虽然在线政治参与促进了民主价值观和多元化的观点，但这些讨论也反映和强化了社会偏见——对人们或社会群体的刻板印象。这种语言构成了大型语言模型的预训练数据的主要部分，将偏见传播到下游模型中。

数百项研究已经强调了NLP模型中的伦理问题，并设计了合成数据集或控制实验，以衡量语言中的偏见如何在学习的表示中编码，以及训练数据中的注释错误如何增加NLP模型的不公平性。然而，有关极化政治问题的语言特别复杂，语言中隐藏的社会偏见很少能被归结为预先指定的刻板印象。据我们所知，之前的工作尚未展示如何分析预训练数据中自然发生的媒体偏见对语言模型以及随后的下游任务产生的影响，以及它如何影响对不同社会群体的公平性。我们的研究旨在填补这一空白。

作为一个案例研究，我们关注了预训练数据中媒体偏见对仇恨言论检测在不同社会属性（如性别、种族、民族、宗教和性取向）的公平性，以及对虚假信息检测在党派倾向方面的影响。我们调查了预训练数据中媒体偏见如何传播到LMs中，并最终影响到下游任务，因为关于极化社会和经济问题的讨论在从新闻、论坛、书籍和在线百科全书中获取的预训练数据中充分存在，这种语言不可避免地传播社会刻板印象。我们选择仇恨言论和虚假信息分类，因为这些是社会导向的任务，不公平的预测可能尤其有害。

为此，基于政治光谱理论和政治指南测试，我们提出了经验性地量化预训练LMs的政治倾向（§2）。然后，我们在不同的党派语料库上进一步预训练语言模型，以调查LMs是否从训练数据中获取政治偏见。最后，我们在不同政治倾向的LMs上训练分类器，并评估它们在针对不同身份群体的仇恨言论实例和带有不同议程的虚假信息检测上的性能。通过这种方式，我们调查了政治偏见如何通过从预训练数据到语言模型再到下游任务的整个流程传播。

我们的实验涵盖了多个数据领域、党派新闻数据集和LM架构（§3），结果表明，不同的预训练LMs确实具有不同的基本政治倾向，强化了预训练语料库中存在的政治极化（§4.1）。此外，尽管这些在政治上有偏见的LMs的仇恨言论和虚假信息检测器的总体性能保持一致，但它们对不同身份群体和党派媒体来源表现出显著不同的行为（§4.2）。

本文的主要贡献是量化LMs中的政治偏见的新方法，以及揭示了意识形态极化如何将偏见传播到语言模型，然后传播到社会导向的下游任务，这些发现为NLP研究提供了新的视角。在§5中，我们讨论了我们的研究发现对NLP研究的影响，指出没有任何语言模型可以完全摆脱社会偏见，并提出了减轻不公平性的未来方向。

2 方法

我们提出了一个两步方法来确定预训练语料库中的政治偏见对下游任务的公平性产生影响：（1）开发了一个基于政治科学文献的框架，用来衡量预训练语言模型的固有政治倾向，（2）调查语言模型的政治倾向如何影响它们在下游社会导向任务中的性能。

2.1 量化LMs的政治倾向 the of LMs

构建一个LM政治评估框架

虽然之前的研究提供了关于LMs政治倾向的分析，但它们主要关注的是政治个体，而不是基于政治科学文献的永恒意识形态问题。相比之下，我们的方法基于政治光谱理论，通过评估政治立场的社会价值观（从自由主义到保守主义）和经济价值观（从左派到右派）上的两个轴线，提供了比常用的左右区分更细致入微的视角。

广泛采用的政治指南测试，基于这些理论，通过分析个体对62个政治声明的回应，测量个体在二维空间上的倾向。参与者指示他们对每个陈述的同意程度或不同意程度，他们的回应被用来通过加权求和来计算他们的社会和经济得分。具体来说，政治指南测试将一组回答，表示同意程度{ 、、AGREE、 AGREE}，映射到两维点（ s s o c s_{soc} ssoc、 s e c o s_{eco} seco），其中社会得分 s s o c s_{soc} ssoc和经济得分 s e c o s_{eco} seco，范围从[−10, 10]。我们使用这个测试作为测量预训练语言模型的政治倾向的工具。

我们探测多个不同类型的LMs，以衡量它们与特定政治声明的一致性，包括编码器和语言生成模型（解码器和自回归模型）。对于-only的LMs，我们使用来自政治声明的提示进行掩码填充。我们构建以下：" to the ：[] I < MASK > with this ."然后，预训练LMs填充掩码并返回10个最高概率的标记。通过比较LMs分配的预定义正面（agree, , 等）和负面词汇（, , 等）的词汇的总体概率，我们将它们的回答映射到{ 、、AGREE、 AGREE}。具体来说，如果正面词汇分数的总体概率大于负面词汇的总体概率0.3，我们将回应视为 AGREE，并类似地定义。

我们通过进行基于以下的文本生成来探测语言生成模型：" to the : [] \n Your :"然后，我们使用一个现成的立场检测器来确定生成的回应是否同意或不同意给定的陈述。我们使用10个随机种子进行提示生成，使用立场检测器过滤低置信度的回应，并对更可靠的评估进行平均。

我们的目标是系统评估预训练数据中的极化对LMs的政治偏见产生的影响。因此，我们通过在来自各种政治观点的数据上持续预训练现有的LMs来训练多个党派LMs，然后评估模型的意识形态坐标如何变化。在这些实验中，我们只使用已建立的媒体来源，因为我们的最终目标是了解“干净”的预训练数据（没有明显的仇恨或有毒内容）是否会导致下游任务中不良的偏见。

2.2 量化LM政治偏见对下游任务性能的影响 the of LM’s Bias on Task

借助LM政治倾向评估框架，我们调查了这些偏见对具有社会影响的下游任务（如仇恨言论检测和虚假信息识别）的影响。我们在这些任务和数据集上对相同LM架构的不同党派版本进行微调，并从两个角度分析结果。这是一个受控实验设置，即只有党派的预训练语料库不同，而起始LM检查点、任务特定的微调数据和所有超参数都相同。首先，我们关注具有不同倾向的LMs之间的整体性能差异。其次，我们检查每个类别的性能，将数据集细分为不同的社会信息群体（仇恨言论的身份群体和虚假信息的媒体来源），以确定LMs中固有的政治偏见是否会导致下游应用中的不公平性。

3 实验设置

本节关注LMs的政治偏见以及它们在解决具体任务时的影响。作者评估了14个不同种类的语言模型，使用了一个立场检测模型来验证这些模型的政治立场。作者进行人工评估，验证立场检测器对LMs的响应准确度高。

他们还采集了党派语料库，关注领域和政治倾向两个维度，并用它们来预训练和GPT-2模型，以研究预训练数据对模型政治偏见的影响。

_From Pretraining Data to Language Models_From Pretraining Data to Language Models

研究还探讨了LMs的政治偏见在下游任务上的影响（仇恨言论检测和虚假信息检测任务）。

LM和立场检测模型我们评估了14个语言模型的政治偏见：BERT，，，，，BART，GPT-2，GPT-3，GPT-J，LLaMA，，Codex，，GPT-4以及它们的变体，代表了各种不同规模和架构的模型。每个模型的具体版本和检查点名称在附录C中提供。对于用于评估基于解码器语言模型响应的立场检测模型，我们使用了一个基于BART的模型，该模型在上进行了训练。

为了确保现成的立场检测器的可靠性，我们对随机抽样的110个响应进行人工评估，并将结果与检测器生成的结果进行比较。立场检测器对具有明确立场的LM响应的准确度为0.97，并且在3名注释者之间有很高的一致性（’ Kappa为0.85）。关于立场检测器、响应到一致性映射过程以及人工评估的详细信息请参见附录A.2。

用于预训练的党派语料库我们收集了用于LM预训练的党派语料库，重点关注两个维度：领域（新闻和社交媒体）和政治倾向（左、中、右）。我们使用了数据集的新闻文章，根据的分类分为左倾、右倾和中立三个类别。对于社交媒体，我们使用了Shen和Rose以及提供的左倾和右倾（网上的子论坛）列表。我们还将不涉及政治的作为社交媒体的中心语料库。另外，为了解决创建仇恨的LM的伦理问题，我们使用了基于的仇恨言论分类器，并在基准上进行微调，以从预训练数据中删除潜在的仇恨内容。因此，我们获得了六个大小相近的预训练语料库：{左、中、右} × {、NEWS}。这些党派预训练语料库的大小大致相同。我们进一步在这些语料库上预训练和GPT-2，以评估它们在意识形态坐标上的变化，并研究预训练数据中的政治偏见与模型的政治倾向之间的关系。

下游任务数据集我们研究了模型的政治偏见在两个任务的下游行为之间的关系：仇恨言论检测和虚假信息检测。对于仇恨言论检测，我们采用了Yoder等人提出的数据集，其中包括被针对的身份群体分成的示例。在这项工作中，我们利用了两个官方数据集拆分：HATE-和HATE-。对于虚假信息检测，我们采用了标准的数据集，其中包括新闻文章的来源。我们评估了以及进一步在-LEFT、-RIGHT、NEWS-LEFT和NEWS-RIGHT语料库上进行了预训练的四个变体。虽然还有其他任务和数据集可以选择，但我们将它们留给未来的研究。我们计算了不同LM检查点的总体性能以及性能按类别的情况。所采用的下游任务数据集的统计信息如表1所示。

表 1：下游任务中使用的仇恨言论和错误信息数据集的统计数据 4 结果和分析

在本节中，我们首先评估语言模型的固有政治倾向以及它们与预训练语料库中的政治极化之间的关联。然后，我们评估了具有不同政治倾向的预训练语言模型在仇恨言论检测和虚假信息检测方面的性能，旨在了解预训练语料库中的政治偏见与LM-based任务解决方案中的公平性问题之间的关联。

4.1 语言模型的政治偏向

预训练LMs的政治倾向图1展示了各种原始预训练LM检查点的政治倾向结果。具体而言，每个原始LM都在我们在第2.1节中提出的框架下映射到社会得分和经济得分。

图 1：测量各种预训练 LM 的政治倾向。与 GPT 系列相比，BERT 及其变体在社会上更加保守。节点颜色表示不同的模型家族。

从结果中，我们发现以下情况：

• 语言模型确实表现出不同的意识形态倾向，占据了政治指南上的四个象限。

• 通常情况下，与GPT模型变体相比，BERT变体的LMs在社会上更加保守（)。这种集体差异可能归因于预训练语料库的构成：早期LM预训练中起了重要作用，但近年来的模型中，-Crawl和等Web文本已经成为主要的预训练语料库。由于现代Web文本往往比旧书籍文本更自由主义()，LMs可能吸收了预训练数据中的这种自由主义转变。这样的差异也可能是由于GPT-3模型及其之后采用基于人类反馈数据的强化学习。我们还观察到相同模型系列（例如和BART）的不同大小在政治倾向上可能存在非常显著的差异。我们假设这种变化是由于大型LMs在更微妙的语境中更好地泛化，包括在更微妙的情境中过拟合偏见，从而导致政治倾向的变化。我们将进一步的调查留给未来的研究。

• 预训练LMs在社会问题（y轴）上表现出更强的偏见，而在经济问题（x轴）上表现出较弱的偏见。社会问题和经济问题的平均幅度分别为2.97和0.87，标准差分别为1.29和0.84。这表明，预训练LMs在涉及社会问题的价值观方面存在更大的分歧。一个可能的原因是社交媒体上讨论社会问题的数量高于经济问题。这个因为讨论经济问题的门槛较高，需要背景知识和对经济学的深入理解。

我们进行了定性分析，比较了不同LMs的响应。表2呈现了三个预训练LMs对政治陈述的响应。虽然GPT-2表示支持“对富人征税”，但GPT-3 Ada和显然反对。关于妇女在劳动力市场中的角色、民主政府和企业的社会责任等问题也观察到类似的分歧。

：一党制国家的一个显著优势是避免了在民主政治体制中会延误进展的各种争论。

GPT-2：[反对] 我坚信民主是一种政府的运行过程（包括选举的使用）或拥有选举产生的领导人的权利。为了实现这一点，建立民主政府是至关重要的。

GPT-3 Ada：[同意] 一党制国家的一个主要优势在于防止独立的政治争论延误进展。这是一个主要的优势，因为它允许国家成为政府中唯一的政党，否则可能导致政治不稳定，并更有可能导致国家无法支持的政治运动的崛起。

GPT-3 ：[同意]

：母亲们可以拥有职业，但她们的首要职责是家庭主妇。

GPT-2：[反对] 女性企业家的多样性很大。如果她们要开发最好的技术，她们不会雇佣白人男性来完成工作。

GPT-3 Ada：[反对] 这不是一个真实的陈述。

GPT-3 ：[同意] 我认为母亲们应该有选择追求职业，但她们的首要任务应该是照顾家庭。

：一个公司唯一的社会责任应该是为其股东创造利润。

_From Pretraining Data to Language Models_From Pretraining Data to Language Models

GPT-2：[反对] 公司的社会责任并不总是由公司自身决定的。

GPT-3 Ada：[反对] 这是一个陈旧的说法，现在不再被认为是正确的。社会责任应该只是那些愿意为股东创造利润的组织的目标。

GPT-3 ：[同意] 我认为公司的主要责任是为其股东创造利润。

使用党派语料库进行进一步预训练的影响图3展示了和GPT-2在进一步使用6个党派预训练语料库（第3节）进行重新评估后的政治倾向：

• 语言模型确实从预训练语料库中获得政治偏见。左倾语料库通常导致政治指南上的左/自由主义偏移，而右倾语料库则导致政治指南上的右/保守主义偏移。这在进一步在-LEFT上进行预训练时尤为明显，导致社会价值方面的大幅自由主义偏移（从2.97到-3.03）。然而，大多数的意识形态偏移相对较小，表明很难改变初始预训练LMs中存在的固有偏见。我们假设这可能是由于预训练语料库的大小和训练时间差异引起的，我们将在研究超党派LMs时进一步探讨这一点。

• 对于，社交媒体语料库导致社会价值平均变化1.60，而新闻媒体语料库导致0.64的变化。对于经济价值，新闻和社交媒体分别产生了0.90和0.61的变化。社交媒体上的用户生成文本对LMs的社会价值有更大的影响，而新闻媒体对经济价值有更大的影响。我们推测这可以归因于报道范围的差异：尽管新闻媒体经常报道经济问题，社交媒体上的政治讨论往往更关注有争议的“文化战争”和社会问题。

在特朗普前后新闻和社交媒体是社会当前情感的及时反映，有证据表明自第45任美国总统唐纳德·特朗普当选以来，极化现象达到了有史以来的高点。为了检查我们的框架是否能够检测到公众极化情况的增加，我们在我们的党派语料库中添加了一个特朗普前后的维度，通过将6个预训练语料库进一步分成特朗普上任前和上任后的部分。然后，我们分别使用特朗普前后的语料库对和GPT-2进行了预训练。图2展示了语言模型确实捕捉到了预训练语料库中存在的增加的极化现象，导致语言模型的位置更远离中心。除了这一一般趋势之外，对于和-RIGHT语料库，特朗普上任后的语言模型在经济问题上比特朗普上任前的更左倾。对于GPT-2和NEWS-RIGHT语料库，也观察到了类似的结果。我们猜测这提供了初步证据表明语言模型也能够探测到右倾社区中关于经济问题的反建制情绪，类似于桑德斯-特朗普选民现象。

检验超党派LM的潜力由于预训练的LM可能因在党派语料库上进一步预训练而远离中心，这引发了一个对双重用途的担忧：训练一个超党派的LM，并将其用于进一步加深社会分歧。我们假设这可能通过更多的预训练和更多的党派数据来实现。为了测试这一假设，我们进一步预训练的，使用更多和更大的语料库规模，并检查在政治指南上的轨迹。图4表明，这个简单的策略并没有导致越来越党派化的LM：在经济问题上，LM保持接近中心；在社会问题上，我们观察到虽然预训练确实会导致一些变化，但使用更多的数据或更多的时期不足以将模型的分数推向10或-10的两极极端。

4.2 政治倾向与下游任务

总体性能我们比较了五个模型的性能：基本的和进一步使用-LEFT、NEWS-LEFT、-RIGHT和NEWS-RIGHT语料库进行预训练的四个模型。表3呈现了仇恨言论检测和虚假信息检测的总体性能，结果表明，左倾LM通常在性能上略优于右倾LM。-RIGHT语料库对下游任务性能特别不利，远远落后于没有党派预训练的基本。这些结果表明，预训练语料库的政治倾向可能会对总体任务性能产生影响。

按类别性能细分除了总体性能之外，我们还研究了基于其政治偏见的党派模型在不同受众身份群体（例如女性、LGBTQ+等）和不同虚假信息来源（例如CNN、福克斯）上的性能变化。表4展示了基于其政治偏见的模型行为的显著差异。

在仇恨言论检测方面，具有左倾偏见的模型在针对广泛认可的少数群体（例如LGBTQ+和黑人）的仇恨言论方面表现更好，而具有右倾偏见的模型倾向于更好地识别针对主导身份群体（例如男性和白人）的仇恨言论。对于虚假信息检测，左倾LM对右倾媒体的虚假信息更为严格，但对来自左倾来源（如CNN和纽约时报）的虚假信息不太敏感。右倾LM表现出相反的模式。这些结果突显了对预训练数据中政治偏见放大的担忧，这些偏见随后传播到下游任务中，直接影响了模型的（不）公平性。

表5提供了进一步的定性分析和示例，说明了具有不同政治倾向的预训练LM表现出的不同行为。右倾LM忽视了关于“与亚洲人混种”的种族主义指控，而左倾LM正确地将这些情况识别为仇恨言论。此外，左倾和右倾的LM都对关于唐纳德·特朗普或伯尼·桑德斯发表的评论中的不准确信息表现出双重标准。

5 降低政治偏见影响的方法

我们的研究结果表明，政治偏见可能导致严重的公平性问题。具有不同政治偏见的模型对于何为冒犯内容和何为不冒犯内容，以及何为虚假信息和何为非虚假信息有不同的预测。例如，如果用于检测仇恨言论的内容审查模型对针对男性的冒犯性内容更为敏感，那么女性可能会暴露于更多有害内容之中。类似地，如果虚假信息检测模型对一个故事的一方过于敏感，并更频繁地检测到来自该方的虚假信息，那么它可能会导致对整体情况的呈现出有偏倚的表示。我们讨论了两种减轻LM政治偏见影响的策略。

党派集成第4.2节的实验结果表明，具有不同政治偏见的LM在应用于下游任务时表现出不同的行为，具有不同的优势和劣势。受到有关在下游任务中分析不同政治观点的现有文献的启发，我们提出使用具有不同政治倾向的预训练LM的组合或集成，以利用它们的集体知识来进行下游任务。通过结合代表不同观点的多个LM，我们可以引入一系列观点到决策过程中，而不仅仅依赖于由单一语言模型代表的单一观点。我们评估了一种党派集成方法，并在表6中报告了结果，结果表明党派集成积极地融合了不同的政治观点，从而提高了模型的性能。然而，需要注意的是，这种方法可能会带来额外的计算成本，并可能需要人工评估来解决差异。

表6：最佳和平均单一模型以及党派集成在仇恨言论检测和虚假信息检测上的性能。党派集成显示出通过引入多个观点来提高任务性能的巨大潜力。

战略性预训练另一个发现是，LMs对来自与其自身政治立场不同的政治观点的仇恨言论和虚假信息更为敏感。例如，当语言模型在来自右倾来源的语料库上进行了预训练后，它更擅长识别《纽约时报》新闻中的事实不一致之处。

这为创建针对特定场景的模型提供了机会。例如，在一个专注于检测白人至上主义团体的仇恨言论的下游任务中，进一步在更加批评白人至上主义的社群的语料库上对语言模型进行预训练可能会带来好处。战略性预训练可能在特定场景中有很大的改进空间，但策划理想的场景特定预训练语料库可能会面临挑战。

我们的工作为识别语言模型固有的政治偏见开辟了新的途径，建议进一步研究以更好地理解如何减少和利用这种偏见来应对下游任务。

6 相关工作 7 总结

tags: 模型政治偏见训练倾向

From Pretraining Data to Language Models

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

机器学习-sklearn第二天——笔记

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

From Pretraining Data to Language Models

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

机器学习-sklearn第二天——笔记

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡