首页 > 正文

OpenAI新模型GPT-4o“炸裂登场” 响应速度堪比真人 关键还免费!

2024年05月14日 15:53
来源: 每日经济新闻
编辑:东方财富网

手机上阅读文章

  • 提示:
  • 微信扫一扫
  • 分享到您的
  • 朋友圈

  美西时间5月13日(周一),OpenAI首席技术官Mira Murati在备受期待的直播演示中宣布,推出名为GPT-4o的新旗舰AI模型,这是其已经问世一年多的GPT-4模型的更新版本。同时,OpenAI还推出了台式机版本的ChatGPT以及新的用户界面(UI)。

  GPT-4o模型基于来自互联网的大量数据进行训练,更擅长处理文本和音频,并且支持50种语言。更值得一提的是,GPT-4o最快可以在232毫秒的时间内响应音频输入,几乎达到了人类的响应水平。

  Murati称新模型面向所有人,而不仅仅是付费用户,为“我们的免费用户带来GPT-4级别的智能水平”。不过,GPT-4o的应用程序接口中尚未为所有客户提供语音功能。鉴于滥用风险,OpenAI计划在未来几周内首先向“一小部分可信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

  而ChatGPT-4o发布后,网友对其的评价也是褒贬不一。英伟达科学家Jim Fan评论称,“从技术角度来看,总体来说是一个数据和系统优化问题。”有网友也称,感觉到目前为止,OpenAI没有那么开创性,不过也有网友认为,OpenAI进一步拉开了和苹果的差距,现在该轮到苹果的Siri“满头大汗”了。

  GPT-4o有多“炸裂”?核心能力有三

  GPT-4o中的“o”代表“omni”,意为“全能”。OpenAI官网介绍称,GPT-4o向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

  那GPT-4o到底有多强,有哪些核心能力呢?

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUcd6pXsXrheuzR16v5QnNrbLI4Wy3v38oX17D4Db5PVTauGcsrQe78g.png

图片来源:OpenAI官网截图

  能力一:“实时”互动,表达富有情感,视觉功能更强

  OpenAI表示,GPT-4o显著提升了AI聊天机器人ChatGPT的使用体验。虽然ChatGPT长期支持语音模式,可将ChatGPT的文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够像与助手互动一样自然地使用ChatGPT。

  例如,用户现在可以在ChatGPT回答问题时中断它。而且,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音,如同真人一般。此外,GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

  美国科技媒体Quartz报道称,OpenAI新发布的ChatGPT-4o的技术让人印象深刻。OpenAI的演示表明,机器人现在可以与人类进行实时对话,与真人水平几乎没有区别。如果最终版本像OpenAI官方的演示一样,那么OpenAI似乎已经从某种程度上验证AI将在多大程度上改变我们的世界。

  能力二:多语言表现出色,响应速度几乎与真人无异

  GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。

  OpenAI官网介绍称,GPT-4o最快可以在232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致,并且在非英语文本方面的性能有了显著提高。

  用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理的口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。

  能力三:在推理及音频翻译方面树立新标杆

  据OpenAI研究人员William Fedus透露,GPT-4o实际上就是上周在LMSYS模型竞技场上引起整个AI圈疯狂试用的GPT-2模型的另一版本,并附上了GPT-4o的基准测试评分对比图,相比GPT-4 Turbo提升了超过100个单位。

  推理能力方面,GPT-4o在MMLU、GPQA、MATH、HumanEval等测试基准上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型,取得最高分。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUPqzRcMwKCJ9QuNtqzACFNWOiax63MX5mjgjJtFg5W7nHQppKfaM2L1w.png

图片来源:OpenAI

  音频ASR(智能语音识别)性能方面,GPT-4o相比Whisper-v3,在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUllLC7m7EibDkuibjjzu59CQURPIjp3ajq1JX5M4RQJZdWeHBVxzhASGA.png

图片来源:OpenAI

  音频翻译方面,GPT-4o也树立了新的标杆,在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUzBmjzVEn4EFn5pOdauchuhEYmNDSibLbJ2csSowRymTndPspOf2S98Q.png

图片来源:OpenAI

  评价褒贬不一,有网友认为压力给到Siri了

  虽然并未在OpenAI周一的重磅直播演示中现身,但OpenAI的CEO阿尔特曼对这次演示进行了重要的总结。阿尔特曼称,OpenAI在ChatGPT中免费提供了世界上最好的模型,新的语音和视频模式是他用过的最好的计算交互界面,感觉就像电影里的人工智能一样,达到与人类相似的响应速度和表达能力。

  目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。在接下来的几周内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

  而在社交媒体平台X(原推特)上,网友对ChatGPT-4o的评价却褒贬不一。

  英伟达科学家Jim Fan评论称,“从技术角度来看,OpenAI已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到transformer。这些需要对token化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。”

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUASp3uQGuZdtJL2MJXYDUAXHxhEnq0XrKuialDjPUPC5iam38aj8lKGag.png

图片来源:X

  对于OpenAI推出的新模型和UI更新,有网友称,感觉到目前为止OpenAI没有那么开创性。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUBFtoF4KJ8licicbWD5qZqzRUEf24px0YuzJw8KrmySwdKrRXhD4GywLw.png

图片来源:X

  也有网友指出,GPT-4o不仅可以将语音转换为文本,还可以理解和标记音频的其他特征,例如呼吸和情感,但不确定这在模型响应中是如何表达的。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUFtsGw3QJGhUdvPftIecWHocZleE44uKIMctNVF6TUMiapGoRHeukdxQ.png

图片来源:X

  但大部分网友还是给出了非常积极的看法。

  对于阿尔特曼在X上留下的一句“her”,这似乎是暗示ChatGPT实现了经典电影《她》(Her)中像人类一样“有血有肉”的AI,有网友对此评论:“你终于做到了。”并配了一张将电影《她》剧照中的AI“换头”成OpenAI的梗图。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUd2W4oBSjIIbaFL9MoQj3fgWInUzbqNqicaQ8ialiaFTfB27vtY3fGbDAw.png

图片来源:X

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUqIksu07gSd1iap36T7Gg8fqYAia45I88n3Em77J88fISWvvmxhl7MdBQ.png

图片来源:X

  另有网友评价称,“这太疯狂了。OpenAI刚刚推出了ChatGPT- 4o,它将彻底改变人工智能助手的竞赛,”该网友还列举了10个ChatGPT- 4o“疯狂”的案例,例如实时视觉辅助等等。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUByhpDt1SCm2r4ueRic5YvclMOpuIHu2Gm60hFEyialOejGJrmfHp1QHQ.png

图片来源:X

  还有网友以可汗学院的可汗和他儿子一起使用 GPT-4o 辅导孩子在可汗学院上做数学题的示例点评称,“学生将他们的iPad屏幕与新的ChatGPT-4+GPT-4o共享,AI与他们交谈并帮助他们‘实时’学习。想象一下,如果世界上每一个学生都能这样学习,未来是如此光明。”

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUIQ73AWFdE615ybKCGtYqPXg1aLEricxvuj2ibibiaKYw8PD99EN5XOic4hg.png

图片来源:X

  也有网友觉得OpenAI进一步拉开了和苹果的差距,还发了一张人满头大汗的动图,称现在苹果的语音助手Siri现在应该就是这个样子。

CFF20LXzkOzBICuqwLFnSNViaeiaOE1aaUMBmPW9SbSIuNzK5ibxN6vtKmYW4OmKD1ZgTjs06ARuzh1QKBAVZicXTQ.png

图片来源:X

  对于这点,Quartz报道称,GPT-4o的情感属性使AI聊天机器人比苹果的Siri更加个性化。Siri给人的感觉就像在和一个机器人对话,但OpenAI的演示清楚地表明,GPT-4o具有“人工情感智能”,能够识别用户的情感并与你的情绪相匹配。这让GPT-4o感觉就像一个真正的伴侣,为用户的智能手机操作系统增添了一丝人性。

  实际上,为了应对技术威胁,苹果也在与OpenAI进行合作洽谈。Wedbush分析师Dan Ives在一份报告中预计,苹果将在6月10日的WWDC大会上官宣和OpenAI的合作伙伴关系,并推出基于苹果LLM的AI聊天机器人。

(文章来源:每日经济新闻)

(原标题:OpenAI新模型GPT-4o“炸裂登场”,响应速度堪比真人,关键还免费!网友评论褒贬不一,有人称苹果Siri现在应是“满头大汗”)

(责任编辑:6)

 
 
 
 

网友点击排行

 
  • 基金
  • 财经
  • 股票
  • 基金吧
 
郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

将天天基金网设为上网首页吗?      将天天基金网添加到收藏夹吗?

关于我们|资质证明|研究中心|联系我们|安全指引|免责条款|隐私条款|风险提示函|意见建议|在线客服|诚聘英才

天天基金客服热线:95021 |客服邮箱:vip@1234567.com.cn|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。
中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai
CopyRight  上海天天基金销售有限公司  2011-现在  沪ICP证:沪B2-20130026  网站备案号:沪ICP备11042629号-1

A
安信基金安信证券资产安联基金
B
博时基金渤海汇金博道基金贝莱德基金管理北京京管泰富基金百嘉基金北信瑞丰宝盈基金博远基金
C
长盛基金长城基金诚通证券财通基金长安基金淳厚基金创金合信基金长城证券财通资管长信基金财达证券长江证券(上海)资管财信证券
D
东方红资产管理东莞证券东海基金德邦基金东方阿尔法基金东财基金东海证券德邦证券资管东兴证券东兴基金第一创业东吴基金达诚基金东证融汇证券资产管理大成基金东方基金东吴证券
F
方正富邦基金富国基金富达基金(中国)方正证券富荣基金富安达基金蜂巢基金
G
国海富兰克林基金国投瑞银基金广发资产管理国寿安保基金国联安基金国联证券资产管理光大保德信基金国投证券国联证券国都证券国海证券国新国证基金国泰基金国新证券股份国金基金国信证券国融基金格林基金广发基金国联基金工银瑞信基金国元证券
H
华润元大基金华泰证券(上海)资产管理华宸未来基金华泰柏瑞基金华富基金宏利基金华鑫证券华安证券资产管理汇百川基金汇丰晋信基金华安基金华商基金红土创新基金华泰保兴基金弘毅远方基金华安证券华西基金泓德基金汇泉基金合煦智远基金恒越基金惠升基金汇安基金恒生前海基金华夏基金红塔红土恒泰证券华创证券汇添富基金华宝基金海富通基金
J
嘉实基金金鹰基金建信基金金元顺安基金江信基金九泰基金景顺长城基金嘉合基金金信基金交银施罗德基金