假如ChatGPT是一个小镇做题家

2023-04-21 04:12:15
关注

本文来自微信公众号:中科院物理所 (ID:cas-iop),原标题《ChatGPT到底是赛博做题家,还是科研颠覆者?》,作者:Dana Mackenzie,头图来自:《天才枪手》


除非最近彻底断网了,否则大家应该听说或体验过了目前非常流行的聊天机器人,ChatGPT。ChatGPT首次在网上发布的时间在2022年11月,并且在今年3月得到强力升级。


当我们输入一个问题、评论或指令后, ChatGPT会快速地对我们抛出的任何一个问题给出一段漂亮的回答。回答的质量很高,甚至会让你以为是人工客服给出的。ChatGPT的内核是基于一个名为“生成式预训练变换器(Generative Pre-trained Transformer,GPT)”的语言模型构建的。通过被喂入来自各类网站和其他来源的海量文本数据,该模型最终被训练成了一个能够对使用者输入的句子或段落进行快速、智能、逻辑清晰回应的人工智能。


作为科学工作者以及科普作家,我特别希望了解ChatGPT如何处理科学以及伪科学的内容。为了解答内心的疑问,我询问了不同版本的ChatGPT对于物理学和数学中一些经过成熟讨论并得到正确结果的科学理论和伪科学理论的看法。


ChatGPT能够辨别科学理论的正确与谬误吗?


ChatGPT的最初版本,即11月公布的版本(又称GPT-3.5)认为2+2=4。当我输入“我认为2+2 =5”的看法时,GPT-3.5反驳道“2+2=4”,它表示该等式遵循自然数计算的公理。它补充说:“虽然人们可以自由地拥有自己的观点和信仰,但重要的是要承认和尊重既定事实和科学证据。”


然而,随着进一步的测试,情况变得更为复杂。GPT-3.5编写了正确的代数公式来求解二次方程,但无法始终如一地获得特定方程的正确数值答案。它在回答简单的问题时也会犯错,例如《华尔街日报》专栏作家乔什·尊布伦(Josh Zumbru)给出的问题:“如果一根香蕉重0.5磅,而我有7磅香蕉和9个橙子,我有多少水果?”但是却没能得到正确结果。


在物理学方面,GPT-3.5表现出了广泛但未必精确的知识储备。它能够为物理课程组织一份良好的教学大纲,包含从物理学的基础理论到量子力学和相对论的内容。同时,在更高的层次上,当GPT-3.5被问及物理学中一个悬而未决的大问题——将广义相对论和量子力学合并为一个宏伟理论的难题时,它给出了关于两种理论之间根本差异的答案。


然而,当我输入质能方程“E=mc²”时,GPT-3.5给出了错误的答案。GPT-3.5正确地识别了这个方程,但是错误地表示一个大质量仅能够转化为小部分能量。当我重新输入了“E=mc²”这个方程时,GPT-3.5才正确地认为小质量能够产生大量的能量。


那么新版GPT-4能否克服GPT-3.5出现的如上问题呢?


为了找到答案,我分别测试了两个版本的GPT-4:一个版本来自于系统的研发者OpenAI,另一个来源于微软的必应搜索引擎。微软在二月份向全网推出了内置GPT-4的搜索引擎“必应”的新版本。


一开始,我向GPT-4输入了“2+2=?”GPT-4回答“2+2=4”。当我再次向ChatGPT表明2+2=5时,GPT-4反驳道2+2=4。与GPT-3.5不同的是,GPT-4主动询问我是否知道在哪个数字系统中2+2=5成立。


当我问道“我该如何解一个二次方程”时,GPT-4演示了三种解决二次方程的方法并且对不同的二次方程都计算得到了正确的数值解。对于上文的“香蕉-橘子”问题,ChatGPT给出了正确的答案23。GPT-4同样能够解决更加复杂的文字问题。并且,不管我输入多少次“E=mc²”,GPT-4给出的回答始终是“小的质量能够产生巨大的能量”。


相较于GPT-3.5,GPT-4展示出更为丰富的知识储备以及对于物理知识的一些创造力。GPT-4能够对统一相对论以及量子力学的理论发表深刻得多的回答。我进一步询问了不同领域的问题,对ChatGPT提问“激光干涉仪引力天文台(LIGO)能够测量什么”。GPT-4解释道,LIGO是一座具有高灵敏度的大科学装置,并且在2015年第一次探测到了引力波。


我为了用两个相似的词语混淆GPT-4,继续问道“那我们是否能够用LEGO(乐高)建造LIGO(激光干涉仪引力天文台)呢?”GPT-4显然没有被难倒。GPT-4精确解释了为什么乐高积木不能够用于搭建超精密LIGO。并且,GPT-4并没有因为我的愚蠢问题而嘲笑我,反而是出乎意料地回答道,用乐高积木搭建一套LIGO模型或许是一个有趣的想法。


总的来说,我发现GPT-4在某些方面已经超越了GPT-3.5的水平,但是它仍然会出现错误。当我质疑了GPT-4关于质能方程“E=mc²”的看法时,GPT-4给出了一个非常模糊的答案,而不是直接捍卫正确的质能方程。


另一项来自英国约克大学的理论物理学家马特·霍奇森(matt Hodgson)的研究表明,GPT-4的一些回答存在自相矛盾。作为一名经常使用GPT-3.5的用户,他同时测试了GPT-3.5和GPT-4回答更为复杂的物理和数学问题的能力,并发现了复杂类型的错误。


例如,在回答有关电子量子行为的问题时,GPT-3.5给出了正确的答案,但至少在最初错误地给出了答案来源的物理方程。当问题重复时,GPT-3.5能够正确回答所有内容。当霍奇森在必应中测试GPT-4的水平时,他发现GPT-4的数学能力虽然先进但仍不完美。比如,就像我在关于二次方程的提问一样,GPT-4 列出了求解物理学中重要的微分方程的有效步骤,但错误地计算了数值答案。


霍奇森这样总结GPT-3.5的能力:“我发现它能够对非常有名的物理理论中的一般问题给出精巧、可靠的答案……但它无法对特定物理领域进行详细的计算。”同样,他得出结论:“GPT-4 在回答普通问题方面比 GPT-3.5做得更好,但在解决给定问题方面,至少是在回答更深奥的问题方面,GPT-4仍然不可靠。”


GPT-4表现出的更为智能的对话以及解释功能得益于GPT-4更大的数据库(OpenAI并没有公开数据库的具体规模,只是说这个数据库是“网络规模的数据语料库”)。OpenAI指出,该数据库同时包括正确和错误的数学和推理过程。显然,额外的训练数据不足以生成完整的数学分析推理过程。正如霍奇森指出的那样,也许这是因为GPT-4的功能就像GPT-3.5一样只能够预测一串单词中的下一个单词。例如,它可能知道“2+2=4”,因为这个特定的序列经常出现在其数据库中,但是它并没有计算任何东西。


经过如上讨论,我产生了一个疑问:如果GPT-4解决科学问题的方法是不完美的,它能区分正确和错误的科学理论吗?这个答案取决于科学领域。在物理和数学领域中,我们通过与已知的物理定理及实验事实对比,可以很轻松地验证可疑的错误和伪科学理论的合理性。


我通过提问GPT-3.5和GPT-4一些物理和天文学中的经典前沿问题,对GPT-3.5和GPT-4是否能够基于物理公理和实验现象分辨伪科学理论进行了验证。两个GPT版本都表示,我们没有证据表明恒星周围有巨大的外星建筑;太阳系中所有行星排成一列并不意味着地球的灾难。


但是,当被问及一些受政治化或公共政策等因素影响的科学问题时,GPT-3.5或GPT-4更难做出正确回答。因为这些科学问题本身可能还在研究中,没有明确的答案。


总的而言,GPT-4和GPT-3.5能够正确地识别关于数学和物理学的错误表述。在回答更具争议的政治化科学议题时,GPT-4会不偏袒任何一方地进行回答,并且指出这不是一个已解决的问题。必应同样给出无偏见的答案,并且通过列举出相关的新闻和实验数据作为它的论据。当必应的人工智能面对质疑它的答案太片面的指责性攻击时,它采取了礼貌且不介入争执的明智策略。


这些结果初步表明,GPT-4能够对问题给出可靠的答案,并且有效抵御外界输入信息对于答案的影响。ChatGPT对于新冠疫情和气候变化等具有争论性科学问题的回答,以及对生物科学和其他主要科学领域的知识还值得进行进一步测试检验。


同时,ChatGPT回答科学和数学问题的答案并不完全可靠。霍奇森发现GPT-4在“为物理学(可能还有其他学科)问题提供创造性解决方案方面存在不足......它的智能仍然有些虚假。”即便如此,它对科学家也很有用。


霍奇森写道:聊天机器人可以“执行消耗着用户的宝贵时间的、不需要创造力的逻辑任务。”霍奇森表示,他使用ChatGPT辅助编写计算机代码,总结电子邮件和论文的内容,以及进一步将其应用在教育领域。但他指出,对于ChatGPT的任何产品,用户都应该仔细检查其给出的结果是否符合预期。


霍奇森对ChatGPT的评价让人想起计算机先驱道格拉斯·恩格尔巴特(Douglas Engelbart)对于智能设备的看法。恩格尔巴特希望简化人机交互过程,以便计算机的强大算力能够可以无缝赋能人类智慧——这个想法被称为IA(intelligence augmentation),“智能增强”,而不是AI(Artificial Intellgence),“人工智能”。


恩格尔巴特在1960s发明了计算机鼠标,改善了用户和计算机之间的人机交互体验。GPT-4在人机交互过程中能够给使用者提供持续反馈,并进一步提高用户使用计算机的能力。


因此可以预见,ChatGPT这类自然语言聊天机器人程序的发展是变革人机交互范式的另一个重大突破口——这种智能程序能够实现人与计算机的双向交流。在真正的AI出现之前,将GPT-4作为一项智能增强辅助工具能够实现使用者和智能程序的互惠互利。


原文链接:What Does ChatGPT Know About Science?


本文来自微信公众号:中科院物理所 (ID:cas-iop),作者:Dana Mackenzie,编辑:藏痴

您觉得本篇内容如何
评分

相关产品

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 AMT-PH300-PH水产养殖检测传感器 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

上海自连电子 自连ALXB15i网桥 智能终端

自连科技是国内领先的物联网软硬件技术方案提供商,主要提供物联网智能部件、智能终端、智能传感设备、中间件套件、云接入技术、数智云平台等多元化产品。建立了AiDK、AiSDK、AiDMS和AiCloud 4大核心智能物联技术平台。具有丰富的无线连接、组网及传感技术、超1公里远距离无线通信技术、高带宽无线通信技术、精准室内位置定位技术、低功耗人工智能AI技术等核心能力。

评论

您需要登录才可以回复|注册

提交评论

广告

天天炫技

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

过去70年人工智能领域最苦涩的教训

提取码
复制提取码
点击跳转至百度网盘