转载

GPT-4V(ision)系统卡

摘要

带视觉的 GPT-4 (GPT-4V) 使用户能够指示 GPT-4 分析用户提供的图像输入,这是我们广泛提供的最新功能。将其他模式(如图像输入)纳入大型语言模型(LLM)被一些人视为人工智能研究和开发的关键前沿。多模式LLM提供了扩大纯语言系统影响的可能性,具有新颖的界面和功能,使他们能够解决新任务并为用户提供新颖的体验。在这个系统卡中,我们分析了GPT-4V的安全性能。我们在 GPT-4V 安全方面的工作建立在为 GPT-4 所做的工作之上,在这里,我们将更深入地探讨专门为图像输入所做的评估、准备和缓解工作。