转载

OpenAI研究 从私有训练数据进行深度学习的半监督知识迁移

一些机器学习应用程序涉及敏感的训练数据,例如临床试验中患者的病史。一个模型可能会无意中隐含地存储它的一些训练数据;因此,对模型的仔细分析可能会揭示敏感信息。

为了解决这个问题,我们展示了一种普遍适用的方法来为训练数据提供强大的隐私保证:教师集合的私有聚合 (PATE)。该方法以黑盒方式结合了使用不相交数据集训练的多个模型,例如来自不同用户子集的记录。因为它们直接依赖敏感数据,所以这些模型没有发布,而是用作“学生”模型的“老师”。学生学习预测所有教师之间通过嘈杂投票选择的输出,并且不能直接访问个别教师或基础数据或参数。学生的隐私属性既可以直观地理解(因为没有单一的老师,因此也没有单一的数据集决定学生的训练)和形式上的差异隐私。

与之前的工作相比,该方法仅对教师的培训方式施加了较弱的假设:它适用于任何模型,包括像 DNN 这样的非凸模型。由于改进的隐私分析和半监督学习,我们在 MNIST 和 SVHN 上实现了最先进的隐私/效用权衡。

详细论文