“吊打”ChatGPT!GPT-4在多项考试中表现亮眼

中国科学报  |   2023-03-17 10:18

来源:中国科学报

本报讯 3月14日,GPT-4正式发布。数据显示,它在各种专业和学术基准上与人类水平相当,优秀到令人难以置信。

根据产品白皮书,GPT-4在人类的多项考试中表现出色,包括美国律师考试(Bar)、美国法学院入学考试(LSATs)、SAT的阅读和数学考试、GRE等。

例如,GPT-4在Bar考试里击败了90%的人类,在SAT阅读考试中击败了93%的人类,在SAT数学考试里击败了89%的人类。

更令人惊讶的是,它的分数几乎是其前代GPT-3的两倍。

OpenAI在其网页上这样总结:“虽然在许多现实场景中GPT-4的能力还不及人类,但在各种专业和学术问题上与人类表现出相同的水平。”

OpenAI开发了一系列大型语言模型(LLM)。不久前火遍全球的ChatGPT用的语言模型是 GPT-3.5。虽然ChatGPT与GPT-4在随意的谈话中看起来很相似,但OpenAI 表示,在内部评估中,GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。

而且,GPT-4还是多模态的,不但可以接受文本输入,还可接受图像输入。

在GPT-4的发布会上,OpenAI的总裁和联合创始人Greg Brockman展示了它所拥有的强大编程能力:

首先在纸上简单画一个非常粗糙的草稿图;然后拍照上传给GPT-4,告诉它要做一个网站,让它生成网站代码;大约10秒钟后,GPT-4给出了完整的网站代码。

这种效果应该会让众多网站开发者感到巨大的压力和职业危机。

虽然OpenAI发布上述统计数据确实令人惊叹,但该公司也承认,GPT-4仍然存在与其旧版本相同的缺陷。

OpenAI在其网站上指出,GPT-4仍存在与早期GPT模型相似的局限性,它并不是“完全可靠的”,最新版本的GPT仍会“幻想”事实并出现推断错误。

“在使用LLM输出时应格外小心,特别是在容易出错的语境下,具体的使用规则应根据具体需求来确定,例如人工审查、加强背景理解甚至完全避免高风险使用等规则。”OpenAI方面称。

尤其值得关注的是,OpenAI正在加快更新迭代速度——GPT-3于2020年夏季发布;GPT-3.5于去年12月1日推出,并给世界带来了ChatGPT;而现在,仅过了3个月左右,GPT-4就面世了。

虽然人们还在分析GPT-4的全部能力,但目前可以明确的一点是,AI领域有着不断增长的发展动力和广阔的市场前景。

如果有人想要体验GPT-4,除了申请付费版应用外,也可以免费体验。因为微软已经确认,新版本Bing正在GPT-4上运行。

如果你在过去几周内使用过新的Bing预览版,那么你已经体验过这个强大模型的早期版本。

(高腾)

《中国科学报》 (2023-03-17 第2版国际)

来源:中国科学报

原文链接:http://news.sciencenet.cn//sbhtmlnews/2023/3/373681.shtm

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

相关推荐 换一换

  • 陈希伟
    0
    人与自然应该和谐发展,让我们共同努力,创造一个优美自然的和谐家园!
  • 王朋云
    0
    它在各种专业和学术基准上与人类水平相当
  • 王立正
    0
    科技工作者之家是一个很好的平台!
  • 周钢
    0
    AI领域有着不断增长的发展动力和广阔的市场前景。
  • 肖建海
    0
    科技工作者之家是很好的学习平台,弘扬科学精神,普及科学知识
  • 甘萍
    0
    科技工作者之家是一个很不错的平台!
  • 陈昌启
    0
    GPT-4在人类多项测试中表现出色,令人难以置信,“吊打”ChatGPT!
  • 袁勇
    0
    科界平台,真正了解科技真相的地方。
  • 陈希伟
    0
    人与自然应该和谐发展,让我们共同努力,创造一个优美自然的和谐家园!
  • 陈希伟
    0
    人与自然应该和谐发展,让我们共同努力,创造一个优美自然的和谐家园!
加载更多