OpenAI研究 预测可能滥用语言模型进行虚假宣传活动以及如何降低风险
OpenAI 研究人员与乔治敦大学的安全与新兴技术中心和斯坦福互联网观察站合作,调查大型语言模型如何被滥用于虚假信息目的。此次合作包括 2021 年 10 月的一次研讨会,汇集了 30 名虚假信息研究人员、机器学习专家和政策分析师,并最终在一年多的研究基础上共同撰写了一份报告。这份报告概述了语言模型如果用于增强虚假信息活动对信息环境构成的威胁,并介绍了一个用于分析潜在缓解措施的框架。在此处阅读完整报告 。
随着生成语言模型的改进,它们在医疗保健、法律、教育和科学等不同领域开辟了新的可能性。但是,与任何新技术一样,值得考虑如何滥用它们。在反复出现的在线影响力操作(影响目标受众意见的隐蔽或欺骗性努力)的背景下,本文提出了以下问题:
语言模型的变化会如何影响操作,可以采取哪些步骤来减轻这种威胁?
我们的工作汇集了不同背景和专业知识的人员——具有在线虚假信息活动的策略、技术和程序基础的研究人员,以及生成人工智能领域的机器学习专家——使我们的分析基于这两个领域的趋势。
我们认为,分析支持 AI 的影响力操作的威胁并概述在将语言模型用于大规模影响力操作之前可以采取的步骤至关重要 。我们希望我们的研究能够为 AI 或虚假信息领域的新手政策制定者提供信息,并激发对 AI 开发人员、政策制定者和虚假信息研究人员的潜在缓解策略的深入研究。
人工智能如何影响影响力行动?
当研究人员评估影响力操作时,他们会考虑 参与者、行为和内容。由语言模型支持的技术的广泛应用有可能影响所有三个方面:
- 参与者:语言模型可以降低运行影响操作的成本,将它们置于新的参与者和参与者类型的范围内。同样,自动生成文本的受雇宣传员可能会获得新的竞争优势。
- 行为:使用语言模型的影响操作将变得更容易扩展,目前昂贵的策略(例如,生成个性化内容)可能会变得更便宜。语言模型也可能使新的策略出现——比如聊天机器人中的实时内容生成。
- 内容:与宣传者相比,由语言模型提供支持的文本创建工具可能会产生更具影响力或说服力的信息,尤其是那些缺乏必要的目标语言或文化知识的宣传者。它们还可能使影响操作不易被发现,因为它们会反复创建新内容,而无需诉诸复制粘贴和其他明显的省时行为。
我们的底线判断是,语言模型将对宣传者有用,并且可能会改变在线影响力操作。即使最先进的模型是私有的或通过应用程序编程接口 (API) 访问进行控制,宣传者也可能会倾向于开源替代方案,而民族国家可能会自行投资该技术。
关键未知物
许多因素会影响语言模型是否以及在何种程度上将用于影响操作。我们的报告深入探讨了其中的许多考虑因素。例如:
- 作为善意研究或商业投资的副作用,会出现哪些新的影响力?哪些参与者将对语言模型进行重大投资?
- 易于使用的文本生成工具何时会公开可用?为影响力操作设计特定的语言模型会比应用通用的更有效吗?
- 规范的发展是否会抑制那些发动 AI 支持的影响力行动的行为者?演员的意图将如何发展?
虽然我们期望看到技术的传播以及语言模型的可用性、可靠性和效率的改进,但许多关于未来的问题仍未得到解答。因为这些是可以改变语言模型如何影响操作的关键可能性,所以减少不确定性的额外研究非常有价值。
缓解框架
为了规划前进的道路,该报告列出了语言模型到影响操作管道中的关键阶段。每个阶段都是潜在缓解措施的一个点。要成功地利用语言模型进行影响操作,宣传者需要:(1) 存在模型,(2) 他们可以可靠地访问它,(3) 他们可以传播内容来自模型,以及 (4) 最终用户受到影响。许多可能的缓解策略都遵循这四个步骤,如下所示。
管道中的阶段 | 一、模型构建 | 2.模型访问 | 3. 内容传播 | 4. 信念的形成 |
说明性缓解措施 | AI 开发人员构建对事实更敏感的模型。 | 人工智能提供商对语言模型施加了更严格的使用限制。 | 平台和 AI 提供商协调识别 AI 内容。 | 机构参与媒体扫盲运动。 |
开发人员传播放射性数据以使生成模型可检测。 | 人工智能供应商围绕模型发布制定新规范。 | 平台需要“身份证明”才能发帖。 | 开发人员提供以消费者为中心的人工智能工具。 | |
政府对数据收集施加限制。 | 人工智能供应商关闭安全漏洞。 | 依赖公众意见的实体采取措施减少他们接触误导性人工智能内容的风险。 | ||
政府对人工智能硬件实施访问控制。 | 数字来源标准被广泛采用。 |
如果存在缓解措施,是否可取?
仅仅因为缓解措施可以减少人工智能影响行动的威胁,并不意味着它应该到位。一些缓解措施有其自身的下行风险。其他的可能不可行。虽然我们没有明确支持或评估缓解措施,但该文件提供了一组指导性问题供决策者和其他人考虑:
- 技术可行性:提议的缓解措施在技术上是否可行?它是否需要对技术基础架构进行重大更改?
- 社会可行性:从政治、法律和制度的角度来看,缓解措施是否可行?它是否需要代价高昂的协调,关键参与者是否受到激励来实施它,它是否可以根据现有法律、法规和行业标准采取行动?
- 下行风险:缓解的潜在负面影响是什么,它们有多重要?
- 影响:提议的缓解措施在减少威胁方面的效果如何?
我们希望这个框架能够激发其他缓解策略的想法,并且指导性问题将帮助相关机构开始考虑各种缓解措施是否值得追求。
这份报告远非关于人工智能和影响力行动未来的最终定论。我们的目标是定义当前环境并帮助制定未来研究的议程。我们鼓励任何有兴趣合作或讨论相关项目的人与我们联系。如需更多信息,请在此处阅读完整报告 。
致谢
报告作者
Josh A. Goldstein(乔治敦大学安全和新兴技术中心)
Girish Sastry(OpenAI)
Micah Musser(安全和新兴技术中心)
Renée DiResta(斯坦福互联网天文台)
Matthew Gentzel(Longview Philanthropy)(在 OpenAI 工作)
Katerina Sedova (美国国务院)(在政府服务之前在安全和新兴技术中心完成的工作)