OpenAi 嵌入使用第一代型号(不推荐)
所有第一代型号(以 -001 结尾的型号)都使用 GPT-3 标记器,最大输入为 2046 个令牌。
第一代嵌入由五个不同的模型系列生成,这些模型系列针对三个不同的任务进行了优化:文本搜索、文本相似性和代码搜索。搜索模型成对出现:一个用于短查询,一个用于长文档。每个系列包括多达四种型号,具有不同的质量和速度:
型 | 输出尺寸 |
---|---|
阿达 | 1024 |
巴贝奇 | 2048 |
居里 | 4096 |
达芬奇 | 12288 |
达芬奇是最有能力的,但比其他型号更慢、更昂贵。Ada 的能力最差,但速度更快,更便宜。
相似性嵌入
相似性模型最擅长捕获文本片段之间的语义相似性。
使用案例 | 可用型号 |
---|---|
聚类、回归、异常检测、可视化 | text-similarity-ada-001 text-similarity-babbage-001 text-similarity-curie-001 text-similarity-davinci-001 |
文本搜索嵌入
文本搜索模型有助于衡量哪些长文档与短搜索查询最相关。使用两种模型:一种用于嵌入搜索查询,另一种用于嵌入要排名的文档。最接近查询嵌入的文档嵌入应该是最相关的。
使用案例 | 可用型号 |
---|---|
搜索、上下文相关性、信息检索 | text-search-ada-doc-001 text-search-ada-query-001 text-search-babbage-doc-001 text-search-babbage-query-001 text-search-curie-doc-001 text-search-curie-query-001 text-search-davinci-doc-001 text-search-davinci-query-001 |
代码搜索嵌入
与搜索嵌入类似,有两种类型:一种用于嵌入自然语言搜索查询,另一种用于嵌入要检索的代码片段。
使用案例 | 可用型号 |
---|---|
代码搜索和相关性 | code-search-ada-code-001 code-search-ada-text-001 code-search-babbage-code-001 code-search-babbage-text-001 |
对于文本嵌入(不是 ,也不是代码嵌入),我们建议将输入中的换行符 () 替换为单个空格,因为当存在换行符时,我们看到的结果更差。-001
-002
\n