转载

OpenAI 新模型text-embedding-ada-002

新模型text-embedding-ada-002取代了文本搜索、文本相似性和代码搜索的五个独立模型,并且在大多数任务上优于我们之前最强大的模型 Davinci,同时价格降低了 99.8%。

嵌入是转换为数字序列的概念的数字表示,这使计算机很容易理解这些概念之间的关系。自  OpenAI  /embeddings端点首次推出以来 ,许多应用程序都结合了嵌入来个性化、推荐和搜索内容。

您可以 使用我们的OpenAI Python 库, 使用两行代码查询新模型的 /embeddings端点,就像您使用以前的模型一样:

    import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

模型改进

性能更强。 text-embedding-ada-002 在文本搜索、代码搜索和句子相似性任务上优于所有旧的嵌入模型,并在文本分类上获得相当的性能。对于每个任务类别,我们在旧嵌入中使用的数据集上评估模型 。

模型表现
text-embedding-ada-002
53.3
text-search-davinci-*-001
52.8
text-search-curie-*-001
50.9
text-search-babbage-*-001
50.4
text-search-ada-*-001
49.0
数据集:BEIR(ArguAna、ClimateFEVER、DBPedia、FEVER、FiQA2018、HotpotQA、NFCorpus、QuoraRetrieval、SciFact、TRECCOVID、Touche2020)

能力统一。我们通过将上面  显示的五个独立模型(、  、  和 )合并到一个新模型中,显着简化了/embeddings端点的接口 。这种单一表示在一组不同的文本搜索、句子相似性和代码搜索基准测试中比我们之前的嵌入模型表现更好。text-similaritytext-search-querytext-search-doccode-search-textcode-search-code

更长的上下文。 新模型的上下文长度增加了四倍,从 2048 增加到 8192,使处理长文档更加方便。

较小的嵌入尺寸。 新嵌入只有 1536 维,是嵌入大小的八分之一 davinci-001 ,这使得新嵌入在使用矢量数据库时更具成本效益。

减价。 与相同尺寸的旧型号相比,我们将新嵌入型号的价格降低了 90%。新型号以低 99.8% 的价格实现了与旧 Davinci 型号更好或相似的性能。

总的来说,新的嵌入模型是一个更强大的自然语言处理和代码任务工具。我们很高兴看到我们的客户将如何使用它在各自领域创建功能更强大的应用程序。

限制

新 模型 在 SentEval 线性探测分类基准上的text-embedding-ada-002 表现并不出色 。text-similarity-davinci-001对于需要在嵌入向量之上训练轻量级线性层以进行分类预测的任务,我们建议将新模型与新模型进行比较 text-similarity-davinci-001 并选择能够提供最佳性能的模型。

查看  嵌入文档中的限制和风险部分,了解我们嵌入模型的一般限制。

嵌入 API 的实际应用示例

Kalendar AI 是一种销售推广产品,它使用嵌入从包含 3.4 亿个人资料的数据集中将正确的销售宣传与正确的客户相匹配。这种自动化依赖于嵌入的客户资料和销售宣传之间的相似性来对最合适的匹配项进行排名,与他们的旧方法相比,消除了 40-56% 的不需要的目标。

在线工作空间公司Notion将使用 OpenAI 的新嵌入来改进 Notion 搜索,使其超越当今的关键字匹配系统。