转载

OpenAI研究 评估在代码上训练的大型语言模型

我们介绍了 Codex,一种根据 GitHub 的公开可用代码进行微调的 GPT 语言模型,并研究了其 Python 代码编写能力。Codex 的独特生产版本为 GitHub Copilot 提供支持。在 HumanEval 上,我们发布了一个新的评估集来衡量从文档字符串合成程序的功能正确性,我们的模型解决了 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。此外,我们发现从模型中重复抽样是一种非常有效的策略,可以为困难的提示生成有效的解决方案。使用这种方法,我们解决了 70.2% 的问题,每个问题有 100 个样本。对我们模型的仔细调查揭示了它的局限性,包括难以描述长操作链的文档字符串以及难以将操作绑定到变量。最后,


详细论文