转载

OpenAI研究 通过对比预训练进行文本和代码嵌入

文本嵌入在许多应用程序中都是有用的功能,例如语义搜索和计算文本相似度。以前的工作通常训练针对不同用例定制的模型,这些用例在数据集选择、训练目标和模型架构方面各不相同。在这项工作中,我们展示了对大规模无监督数据的对比预训练导致文本和代码的高质量矢量表示。同样的无监督文本嵌入在线性探测分类中取得了最新的最新成果,也显示出令人印象深刻的语义搜索能力,有时甚至可以与微调模型竞争。在平均超过 7 个任务的线性探针分类精度上,我们最好的无监督模型分别比以前最好的无监督和监督文本嵌入模型提高了 4% 和 1.8%。在大规模语义搜索上评估相同的文本嵌入时,在 MSMARCO、Natural Questions 和 TriviaQA 基准测试中,相对于之前最好的无监督方法分别提高了 23.4%、14.7% 和 10.6%。与文本嵌入类似,我们在(文本,代码)对上训练代码嵌入模型,与之前代码搜索的最佳工作相比获得了 20.8% 的相对改进。

详细论文