OpenAI 学习日
在OpenAI,每个星期四都是学习日:在这一天,员工可以选择自学技术技能,这将使他们在工作中做得更好,但这些技能不是从日常工作中学到的。
我们发现OpenAI最 大的贡献来自跨职能专家,所以我们要么需要雇用他们,要么在这里发展他们。在学习日之前,我们很少看到人们跨职能成长——例如,来自软件背景的员工很少学习机器学习(这在学术界以外的其他组织中同样罕见)。自学习日以来,这种增长变得非常普遍。
在典型的学习日,人们会做这样的事情:
- 重新实施论文。
- 遵循深度学习教程。
- 在集群管理、编译、虚拟世界生成或编码范式中使用新工具。
- 学习如何对一口大小的问题进行研究。
- 了解看似无关的 AI 领域的新发展。
我们认为学习日可能对其他组织有用,因此我们想分享它是如何在OpenAI开始和运作的。
背景故事
我们首先在我们的机器人团队中尝试了学习日。以下是我们的机器人主管Wojciech Zaremba(Woj)提出这个想法的方式:
2018年11月,我意识到我在许多领域都停滞不前,因为我总是被紧急任务压垮。这些领域对我来说越来越重要。例如,我一直想评估我的团队是否应该切换深度学习框架,但在一两个小时的编码后,我一直被打断,这导致了没有任何进展。我一直听说其他领域的研究,比如因果关系或基于能量的模型,这些领域可能适用于机器人,但我对这些领域一无所知,每次阅读半个小时也无济于事。
我知道解决这个问题的最好方法是每周抽出一天时间学习。但如果这是我提高工作效率所需要的,那么这似乎也是我的团队所需要的。所以我试着为整个团队做这个实验。
我认为我们的生产率会受到短期打击,但在一到两年内会有所提高。但在一个月内,我开始看到研究人员和工程师之间更好的沟通,每个人都开始正确使用彼此专业的术语(例如折扣奖励、MAML、自我关注、容器、SRAM、StatefulSet、Raft)。不到半年,我就开始看到研究人员谈论使用领域驱动的设计来重组我们的代码库,工程师们也开始着手研究任务。
尽管我们以前鼓励自学,但似乎从来没有起过作用。现在不同了,例如,一名团队成员在三个月内从对机器学习一无所知变成了对计算机视觉做出贡献。一位非常优秀的工程师学习了RL半年,现在的产出与我对RL博士的期望相当。
工作原理
学习日每周四举行。Woj为机器人团队编写了以下指南,但我们在每个采用学习日的团队中都采用了这些原则:
学习日是一份礼物 ❤️
随意使用学习日:
- 阅读人工智能论文
- 重新实现 AI 论文
- 复习 AI 教程
- 让你的小伙伴研究人工智能项目
- 学习基础知识:线性代数、统计学等。
- 学习 ML 基础知识:信息论、贝叶斯推理等。
- 学习工程学。阅读有关新编程语言、框架的信息(例如,什么是 Rust?
- 学习管理:自我管理,优先次序,著名研究实验室如何运作(例如曼哈顿计划,贝尔实验室)
- 学习机械工程或进行机械工程研究项目(例如构建线性执行器)
- 学习任何能让你在工作中提升水平的技能(就我而言,写作更好)
这个学习日是Woj的礼物。因此,我恳请您:
- 利用这一天,真正用它来学习。不要把它浪费在Netflix上,或者不要把它当作额外的周末。
- 请写下您打算学习的内容,并请写摘要。这将有助于激励其他人继续推动。
- 请不要害羞地分享你正在学习的东西。如果你不了解基础知识也没关系,也可以说你学会了什么是矩阵乘法。我们每个人都在某个时候在那里。我想帮助你升级。
- 请确保学习日的活动不会泄露到其他非学习日。例如,如果你把整个星期都花在学习基础知识上,或者做你的副项目,那就太糟糕了。
为了让人们承担责任,我们要求每个人在 Slack 中发布他们当天学到的东西。
我们在学习日学到了什么
以下是人们在一个学习日学到的东西的例子。
深度学习阅读
- "基于人口的增强:有效学习增强政策时间表"
- "运动策略转移的学习域随机分布"
- "神经图进化:迈向高效的自动机器人设计
学习与概率任务嵌入学习" - "中级视觉表示提高了学习视觉运动策略的泛化和样本效率"
- "基于概率上下文变量的高效非政策元强化学习"
- "计算机视觉对行动重要吗?"
- "WAIC,但为什么呢?用于稳健异常检测的生成集成"
- "与权重无关的神经网络"
- "挑战解纠表示的无监督学习中的常见假设"
- 深度无监督学习
- 深度RL训练营
深度学习编码
数学和统计学
管理
强大技术的历史背景
- 黑暗领土:网络战争秘史
- 被黑客入侵的世界秩序:数字时代各国如何战斗、贸易、机动和操纵
- 向苏联的技术转让,1928-1937年和1966-1975年:西方技术在苏联经济发展中的作用
- 图灵测试:言语行为是智力的标志
- 信息:历史、理论、洪水
- 激进市场:为了一个公正的社会而根除资本主义和民主
我们还报销合理的自学费用,如书籍和导师,主要用于学习数学基础知识。这些成本是非常值得的投资!
我们如何维持它
学习日的影响来自于对人们如何使用它的严格要求。这不是休闲的一天,而是特定辛勤工作的一天。
我们看到并尝试抵消以下故障模式,以便我们能够长期维持它:
学习日可以用于工作。学习日可以变成正常工作日,因为人们可能希望更快地完成他们的主要项目(由于内部或外部压力)。我们通过在每个团队的同一天举办学习日来防止这种情况。这创造了积极的同伴压力,并鼓励每个人利用学习日。
学习日的范围可以扩大到非学习日。我们实际上还没有观察到这种情况的发生。根据我们在其他组织中看到的情况,我们认为这很可能表明该人对他们的主要项目不够兴奋,并且会向他们的经理表明该人应该切换团队或项目。
学习日可用于休闲。我们的解决方案是让每个团队成员通过以下方式分享他们在 Slack 上的进度极客机器人.这保持了兴奋度,并提供了一个问责机制。

超越机器人技术的学习日
我们最近将学习日从我们技术团队的一个子集扩展到整个公司。它已经成为一种文化主食——在我们最近的内部调查中,学习日是我们文化中人们谈论最多的方面。我们很高兴看到它的影响,因为我们在未来继续发展和支持学习日。