转载

OpenAi 嵌入使用第一代型号(不推荐)

所有第一代型号(以 -001 结尾的型号)都使用 GPT-3 标记器,最大输入为 2046 个令牌。

第一代嵌入由五个不同的模型系列生成,这些模型系列针对三个不同的任务进行了优化:文本搜索、文本相似性和代码搜索。搜索模型成对出现:一个用于短查询,一个用于长文档。每个系列包括多达四种型号,具有不同的质量和速度:

输出尺寸
阿达1024
巴贝奇2048
居里4096
达芬奇12288

达芬奇是最有能力的,但比其他型号更慢、更昂贵。Ada 的能力最差,但速度更快,更便宜。

相似性嵌入

相似性模型最擅长捕获文本片段之间的语义相似性。

使用案例可用型号
聚类、回归、异常检测、可视化text-similarity-ada-001
text-similarity-babbage-001
text-similarity-curie-001
text-similarity-davinci-001

文本搜索嵌入

文本搜索模型有助于衡量哪些长文档与短搜索查询最相关。使用两种模型:一种用于嵌入搜索查询,另一种用于嵌入要排名的文档。最接近查询嵌入的文档嵌入应该是最相关的。

使用案例可用型号
搜索、上下文相关性、信息检索text-search-ada-doc-001
text-search-ada-query-001
text-search-babbage-doc-001
text-search-babbage-query-001
text-search-curie-doc-001
text-search-curie-query-001
text-search-davinci-doc-001
text-search-davinci-query-001

代码搜索嵌入

与搜索嵌入类似,有两种类型:一种用于嵌入自然语言搜索查询,另一种用于嵌入要检索的代码片段。

使用案例可用型号
代码搜索和相关性code-search-ada-code-001
code-search-ada-text-001
code-search-babbage-code-001
code-search-babbage-text-001

对于文本嵌入(不是 ,也不是代码嵌入),我们建议将输入中的换行符 () 替换为单个空格,因为当存在换行符时,我们看到的结果更差。-001-002\n