转载

ChatGPT 现在可以看到、听到和说话

我们开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面类型,允许您进行语音对话或向 ChatGPT 展示您在说什么。

语音和图像为您提供了更多在生活中使用 ChatGPT 的方式。在旅行时拍摄地标的照片,并就其有趣的内容进行实时对话。当您在家时,拍摄冰箱和食品储藏室的照片,以确定晚餐的食物(并询问后续问题以获取分步食谱)。晚饭后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助您的孩子解决数学问题。

我们将在未来两周内向Plus和Enterprise用户推出ChatGPT中的语音和图像。语音即将在iOS和Android上推出(在您的设置中选择加入),图像将在所有平台上提供。

与 ChatGPT 交谈并让它回话

现在,您可以使用语音与助手进行来回对话。在旅途中与它交谈,为您的家人请求睡前故事,或解决餐桌辩论。

矩形 与 ChatGPT 交谈并让它回话

使用语音与助手进行来回对话。

要开始使用语音,请前往移动应用上的“设置”→“新功能”,然后选择加入语音对话。然后,点击位于主屏幕右上角的耳机按钮,然后从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的示例语音中生成类似人类的音频。我们与专业配音演员合作创作了每个声音。我们还使用我们的开源语音识别系统Whisper将您的口语转录为文本。

收听语音样本

有一次,在一片宁静的林地里,有一只毛茸茸的猫妈妈,名叫莉拉。一个阳光明媚的日子,她在一棵老橡树的树荫下拥抱着她顽皮的小猫米洛。

“米洛,”莉拉开始说,她的声音柔和而温柔,“你很快就会有一个新的玩伴。

米洛的耳朵竖了起来,好奇。“新玩伴?”

莉拉咕噜咕噜地说:“是的,一个宝贝妹妹。

米洛兴奋地瞪大了眼睛。“姐姐?她会像我一样追尾巴吗?

莉拉轻笑了一声。“哦,她会有自己的怪癖。你会教她的,不是吗?

米洛急切地点了点头,他已经梦想着他们分享的冒险经历。

聊聊图片

您现在可以向 ChatGPT 显示一个或多个图像。排查烤架无法启动的原因,探索冰箱中的内容以计划用餐,或分析与工作相关的数据的复杂图表。要聚焦图像的特定部分,您可以使用我们移动应用程序中的绘图工具。

聊聊图片

向 ChatGPT 显示一张或多张图片。

要开始使用,请点击照片按钮以捕获或选择图像。如果您使用的是 iOS 或 Android,请先轻点加号按钮。您还可以讨论多个图像或使用我们的绘图工具来指导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

我们正在逐步部署图像和语音功能

OpenAI的目标是构建安全有益的AGI。我们相信逐步提供我们的工具,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时让每个人都为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型,这种策略变得更加重要。

声音

新的语音技术能够从几秒钟的真实语音中制作出逼真的合成语音,为许多创造性和注重可访问性的应用程序打开了大门。但是,这些功能也带来了新的风险,例如恶意行为者冒充公众人物或实施欺诈的可能性。

这就是为什么我们使用这项技术来支持特定的用例 - 语音聊天。语音聊天是与我们直接合作的配音演员创建的。我们也以类似的方式与他人合作。例如,Spotify正在利用这项技术的力量来试点他们的语音翻译功能,通过将播客翻译成播客以播客自己的声音翻译成其他语言来帮助播客扩大讲故事的范围。

图像输入

基于视觉的模型也带来了新的挑战,从对人的幻觉到依赖模型对高风险领域中图像的解释。在更广泛部署之前,我们与红队成员一起测试了该模型,以应对极端主义和科学熟练程度等领域的风险,以及各种 alpha 测试人员。我们的研究使我们能够在一些关键细节上保持一致,以便负责任地使用。

让视觉既有用又安全

像其他 ChatGPT 功能一样,视觉是关于帮助您的日常生活。当它能看到你所看到的东西时,它做得最好。

这种方法直接来自我们与Be My Eyes的合作,Be My Eyes是一款面向盲人和低视力人士的免费移动应用程序,旨在了解用途和局限性。用户告诉我们,他们发现就恰好包含背景人物的图像进行一般性对话很有价值,例如,当您试图弄清楚遥控器设置时,有人出现在电视上。

我们还采取了技术措施,严格限制 ChatGPT 分析和直接陈述人员的能力,因为 ChatGPT 并不总是准确的,这些系统应尊重个人隐私。

实际使用和反馈将帮助我们更好地提供这些保护措施,同时保持工具的实用性。

模型限制的透明度

用户可能依赖 ChatGPT 进行专业主题,例如在研究等领域。我们对模型的局限性保持透明,不鼓励在没有适当验证的情况下使用高风险用例。此外,该模型精通转录英文文本,但在其他一些语言中表现不佳,尤其是那些使用非罗马文字的语言。我们建议非英语用户不要为此目的使用 ChatGPT。

您可以在用于图像输入的系统卡.

我们将扩大访问范围

Plus和企业用户将在未来两周内体验语音和图像。我们很高兴不久之后将这些功能推出给其他用户组,包括开发人员。