旧金山OpenAI公司周一推出了新的生成式人工智能模型GPT-4o。"o"代表“omni”,它指的是该模型处理文本、语音和视频的能力。GPT-4o将在接下来几周逐步应用于公司的开发者和终端用户产品中。
OpenAI首席技术官Mira Murati解释称,GPT-4o展现了GPT-4的智能,但在多种模态和媒介中增强了能力。“GPT-4o可以超越语言、文本和视觉进行思考,”Murati在OpenAI办公室的一次演示中说。“这非常重要,因为我们正在塑造人机交互的未来。”
上一代模型GPT-4 Turbo旨在分析图像和文本。GPT-4o扩展了这些功能,包括对语言的理解。这使得它可以用于诸多新的应用程序,包括在AI支持的Chatbot ChatGPT中提供改进的用户体验。
使用 GPT-4o,ChatGPT 变得更加用户友好,因为用户现在可以提问并在 ChatGPT 回答期间进行打断。该模型能够实时响应,并且甚至能够识别用户声音中的细微差别,并以不同的情感风格作出回应,包括歌唱。
此外,GPT-4o增强了ChatGPT的视觉能力。该模型现在可以对照片或屏幕上的问题进行回答,例如“这段软件代码发生了什么?”或“这件衬衫是哪个品牌的?”
According to Murati, these functions are expected to be further developed. GPT-4o ChatGPT may enable to "watch" a live sports game and explain the rules in the future.
根据穆拉蒂的说法,这些功能将得到进一步开发。未来GPT-4o ChatGPT可能能够“观看”现场体育比赛并解释规则。
GPT-4o也支持多种语言,据OpenAI称,其在大约50种语言中表现出了提升的性能。在OpenAI的API和Microsoft的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,成本仅为一半,并且拥有更高的速率限制。
目前GPT-4的语言功能还未向所有API客户开放。OpenAI计划首先将新的音频能力提供给一小群值得信赖的合作伙伴。
GPT-4o 从今天起在免费版 ChatGPT 中可用,并且对于 ChatGPT Plus 和 Team 的高级计划订阅者具有“5倍更高”的消息限额。改进的 ChatGPT 语言体验将在未来几个月内为 Plus 用户提供 Alpha 版本。
OpenAI宣布推出全新设计的ChatGPT Web界面,提供“以对话为中心”的主页和信息布局。macOS的ChatGPT桌面版使用户能够使用快捷键提问或截图并进行讨论。ChatGPT Plus用户从今天开始可访问该应用,Windows版本将在今年晚些时候推出。
最终,OpenAI的GPT商店——一个面向第三方聊天机器人的图书馆和制作工具,现在对免费版ChatGPT用户也开放了。免费用户现在也可以使用之前需付费的功能,例如记忆功能,它能让ChatGPT保存交互偏好,以便未来使用,上传文件和照片,以及在网上搜索最新问题的答案。