OpenAI研究 人工智能安全需要社会科学家
我们写了一篇论文,认为长期的 AI 安全研究需要社会科学家来确保 AI 对齐算法在实际人类参与时取得成功。将先进的人工智能系统与人类价值观正确结合起来,需要解决与人类理性、情感和偏见心理相关的许多不确定性。本文的目的是激发机器学习和社会科学研究人员之间的进一步合作,我们计划聘请 社会 科学家在 OpenAI 全职工作。
长期人工智能 (AI) 安全的目标是确保先进的人工智能系统与人类价值观保持一致——它们可靠地做人们希望它们做的事情。在 OpenAI,我们希望通过询问人们关于他们想要什么的问题,在这些数据上训练机器学习 (ML) 模型,并根据这些学习模型优化 AI 系统来实现这一目标。这项研究的例子包括 从人类偏好中学习、 通过辩论实现人工智能安全,以及 通过迭代放大学习复杂目标。
不幸的是,人类对有关其价值观的问题的回答可能不可靠。人类的知识和推理能力有限,并表现出各种认知偏见和道德信念,这些偏见和道德信念在反思中是不一致的。我们预计不同的提问方式将以不同的方式与人类偏见相互作用,从而产生更高或更低质量的答案。例如,根据问题中是否出现“道德”一词 ,对一个行为的错误程度的判断可能会有所不同,如果任务很 复杂,人们可能会在赌博之间做出不一致的选择。
我们有几种方法试图针对人类价值观背后的推理,包括 放大 和 辩论,但不知道它们在现实情况下如何与真人相处。如果对齐算法的问题仅出现在自然语言对复杂的价值负载问题的讨论中,那么当前的 ML 可能太弱而无法发现该问题。
为了避免 ML 的局限性,我们建议进行完全由人组成的实验,用扮演这些代理角色的人代替 ML 代理。例如, 人工智能对齐的辩论方法涉及一场有两名人工智能辩论者和一名人类法官的比赛;我们可以改用两个人类辩论者和一个人类法官。人类可以就我们喜欢的任何问题进行辩论,并且可以将人类案例中的经验教训转移到机器学习中。

这些仅针对人类的实验将由机器学习算法驱动,但不涉及任何 ML 系统或不需要 ML 背景。他们将需要仔细的实验设计,以建设性地建立在关于人类如何思考的现有知识的基础上。大多数人工智能安全研究人员都专注于机器学习,我们认为机器学习的背景不足以进行这些实验。
为了填补这一空白,我们需要具有人类认知、行为和伦理方面经验的社会科学家,以及精心设计严格实验的社会科学家。由于我们需要回答的问题是跨学科的,并且相对于现有研究而言有些不同寻常,我们相信许多社会科学领域都是适用的,包括实验心理学、认知科学、经济学、政治学和社会心理学,以及神经科学等相邻领域和法律。
我们认为,社会科学家和机器学习研究人员之间的密切合作对于提高我们对人工智能对齐的人性方面的理解是必要的。作为第一步,几位 OpenAI 研究人员帮助在斯坦福大学 行为科学高级研究中心 (CASBS) 组织了一场研讨会,由 Mariano-Florentino Cuéllar、 Margaret Levi和 Federica Carugati领导,我们继续定期开会讨论周围的问题社会科学和人工智能对齐。我们感谢他们在这些对话中提供的宝贵见解和参与。