人工智能建立信任措施:研讨会论文集
基金会模型最终可能会引入几种破坏国家安全的途径:
事故、意外升级、无意冲突、武器扩散和对人类外交的干扰只是一长串清单上的几个。
由OpenAI的地缘政治团队和加州大学伯克利风险与安全实验室主办的人工智能信心建设措施研讨会汇集了一个多利益相关方小组,思考减轻基金会模型对国际安全带来的潜在风险的工具和策略。建立信任措施(CBMs)起源于冷战,是减少敌意,防止冲突升级和改善各方之间信任的行动。建立信任措施的灵活性使其成为驾驭基础模型格局快速变化的关键工具。
与会者确定了以下直接适用于基础模型的建立信任措施,并在本次会议论文集中进一步解释:
1. 危机热线
2.事件共享
3.模型、透明度和系统卡
4.内容来源和水印
5.协作红队和桌面练习
6.数据集和评估共享。
由于大多数基础模型开发商都是非政府实体,许多建立信任措施将需要更广泛的利益相关者参与。这些措施可以由人工智能实验室或相关政府行为者实施。