假如ChatGPT是一个小镇做题家

2023-04-21 04:12:15

关注

本文来自微信公众号：中科院物理所（ID：cas-iop），原标题《ChatGPT到底是赛博做题家，还是科研颠覆者？》，作者：Dana Mackenzie，头图来自：《天才枪手》

除非最近彻底断网了，否则大家应该听说或体验过了目前非常流行的聊天机器人，ChatGPT。ChatGPT首次在网上发布的时间在2022年11月，并且在今年3月得到强力升级。

当我们输入一个问题、评论或指令后， ChatGPT会快速地对我们抛出的任何一个问题给出一段漂亮的回答。回答的质量很高，甚至会让你以为是人工客服给出的。ChatGPT的内核是基于一个名为“生成式预训练变换器（Generative Pre-trained Transformer，GPT）”的语言模型构建的。通过被喂入来自各类网站和其他来源的海量文本数据，该模型最终被训练成了一个能够对使用者输入的句子或段落进行快速、智能、逻辑清晰回应的人工智能。

作为科学工作者以及科普作家，我特别希望了解ChatGPT如何处理科学以及伪科学的内容。为了解答内心的疑问，我询问了不同版本的ChatGPT对于物理学和数学中一些经过成熟讨论并得到正确结果的科学理论和伪科学理论的看法。

ChatGPT能够辨别科学理论的正确与谬误吗？

ChatGPT的最初版本，即11月公布的版本（又称GPT-3.5）认为2+2=4。当我输入“我认为2+2 =5”的看法时，GPT-3.5反驳道“2+2=4”，它表示该等式遵循自然数计算的公理。它补充说：“虽然人们可以自由地拥有自己的观点和信仰，但重要的是要承认和尊重既定事实和科学证据。”

然而，随着进一步的测试，情况变得更为复杂。GPT-3.5编写了正确的代数公式来求解二次方程，但无法始终如一地获得特定方程的正确数值答案。它在回答简单的问题时也会犯错，例如《华尔街日报》专栏作家乔什·尊布伦（Josh Zumbru）给出的问题：“如果一根香蕉重0.5磅，而我有7磅香蕉和9个橙子，我有多少水果？”但是却没能得到正确结果。

在物理学方面，GPT-3.5表现出了广泛但未必精确的知识储备。它能够为物理课程组织一份良好的教学大纲，包含从物理学的基础理论到量子力学和相对论的内容。同时，在更高的层次上，当GPT-3.5被问及物理学中一个悬而未决的大问题——将广义相对论和量子力学合并为一个宏伟理论的难题时，它给出了关于两种理论之间根本差异的答案。

然而，当我输入质能方程“E=mc²”时，GPT-3.5给出了错误的答案。GPT-3.5正确地识别了这个方程，但是错误地表示一个大质量仅能够转化为小部分能量。当我重新输入了“E=mc²”这个方程时，GPT-3.5才正确地认为小质量能够产生大量的能量。

那么新版GPT-4能否克服GPT-3.5出现的如上问题呢？

为了找到答案，我分别测试了两个版本的GPT-4：一个版本来自于系统的研发者OpenAI，另一个来源于微软的必应搜索引擎。微软在二月份向全网推出了内置GPT-4的搜索引擎“必应”的新版本。

一开始，我向GPT-4输入了“2+2=？”GPT-4回答“2+2=4”。当我再次向ChatGPT表明2+2=5时，GPT-4反驳道2+2=4。与GPT-3.5不同的是，GPT-4主动询问我是否知道在哪个数字系统中2+2=5成立。

当我问道“我该如何解一个二次方程”时，GPT-4演示了三种解决二次方程的方法并且对不同的二次方程都计算得到了正确的数值解。对于上文的“香蕉-橘子”问题，ChatGPT给出了正确的答案23。GPT-4同样能够解决更加复杂的文字问题。并且，不管我输入多少次“E=mc²”，GPT-4给出的回答始终是“小的质量能够产生巨大的能量”。

相较于GPT-3.5，GPT-4展示出更为丰富的知识储备以及对于物理知识的一些创造力。GPT-4能够对统一相对论以及量子力学的理论发表深刻得多的回答。我进一步询问了不同领域的问题，对ChatGPT提问“激光干涉仪引力天文台（LIGO）能够测量什么”。GPT-4解释道，LIGO是一座具有高灵敏度的大科学装置，并且在2015年第一次探测到了引力波。

我为了用两个相似的词语混淆GPT-4，继续问道“那我们是否能够用LEGO（乐高）建造LIGO（激光干涉仪引力天文台）呢？”GPT-4显然没有被难倒。GPT-4精确解释了为什么乐高积木不能够用于搭建超精密LIGO。并且，GPT-4并没有因为我的愚蠢问题而嘲笑我，反而是出乎意料地回答道，用乐高积木搭建一套LIGO模型或许是一个有趣的想法。

总的来说，我发现GPT-4在某些方面已经超越了GPT-3.5的水平，但是它仍然会出现错误。当我质疑了GPT-4关于质能方程“E=mc²”的看法时，GPT-4给出了一个非常模糊的答案，而不是直接捍卫正确的质能方程。

另一项来自英国约克大学的理论物理学家马特·霍奇森（matt Hodgson）的研究表明，GPT-4的一些回答存在自相矛盾。作为一名经常使用GPT-3.5的用户，他同时测试了GPT-3.5和GPT-4回答更为复杂的物理和数学问题的能力，并发现了复杂类型的错误。

例如，在回答有关电子量子行为的问题时，GPT-3.5给出了正确的答案，但至少在最初错误地给出了答案来源的物理方程。当问题重复时，GPT-3.5能够正确回答所有内容。当霍奇森在必应中测试GPT-4的水平时，他发现GPT-4的数学能力虽然先进但仍不完美。比如，就像我在关于二次方程的提问一样，GPT-4 列出了求解物理学中重要的微分方程的有效步骤，但错误地计算了数值答案。

霍奇森这样总结GPT-3.5的能力：“我发现它能够对非常有名的物理理论中的一般问题给出精巧、可靠的答案……但它无法对特定物理领域进行详细的计算。”同样，他得出结论：“GPT-4 在回答普通问题方面比 GPT-3.5做得更好，但在解决给定问题方面，至少是在回答更深奥的问题方面，GPT-4仍然不可靠。”

GPT-4表现出的更为智能的对话以及解释功能得益于GPT-4更大的数据库（OpenAI并没有公开数据库的具体规模，只是说这个数据库是“网络规模的数据语料库”）。OpenAI指出，该数据库同时包括正确和错误的数学和推理过程。显然，额外的训练数据不足以生成完整的数学分析推理过程。正如霍奇森指出的那样，也许这是因为GPT-4的功能就像GPT-3.5一样只能够预测一串单词中的下一个单词。例如，它可能知道“2+2=4”，因为这个特定的序列经常出现在其数据库中，但是它并没有计算任何东西。

经过如上讨论，我产生了一个疑问：如果GPT-4解决科学问题的方法是不完美的，它能区分正确和错误的科学理论吗？这个答案取决于科学领域。在物理和数学领域中，我们通过与已知的物理定理及实验事实对比，可以很轻松地验证可疑的错误和伪科学理论的合理性。

我通过提问GPT-3.5和GPT-4一些物理和天文学中的经典前沿问题，对GPT-3.5和GPT-4是否能够基于物理公理和实验现象分辨伪科学理论进行了验证。两个GPT版本都表示，我们没有证据表明恒星周围有巨大的外星建筑；太阳系中所有行星排成一列并不意味着地球的灾难。

但是，当被问及一些受政治化或公共政策等因素影响的科学问题时，GPT-3.5或GPT-4更难做出正确回答。因为这些科学问题本身可能还在研究中，没有明确的答案。

总的而言，GPT-4和GPT-3.5能够正确地识别关于数学和物理学的错误表述。在回答更具争议的政治化科学议题时，GPT-4会不偏袒任何一方地进行回答，并且指出这不是一个已解决的问题。必应同样给出无偏见的答案，并且通过列举出相关的新闻和实验数据作为它的论据。当必应的人工智能面对质疑它的答案太片面的指责性攻击时，它采取了礼貌且不介入争执的明智策略。

这些结果初步表明，GPT-4能够对问题给出可靠的答案，并且有效抵御外界输入信息对于答案的影响。ChatGPT对于新冠疫情和气候变化等具有争论性科学问题的回答，以及对生物科学和其他主要科学领域的知识还值得进行进一步测试检验。

同时，ChatGPT回答科学和数学问题的答案并不完全可靠。霍奇森发现GPT-4在“为物理学（可能还有其他学科）问题提供创造性解决方案方面存在不足......它的智能仍然有些虚假。”即便如此，它对科学家也很有用。

霍奇森写道：聊天机器人可以“执行消耗着用户的宝贵时间的、不需要创造力的逻辑任务。”霍奇森表示，他使用ChatGPT辅助编写计算机代码，总结电子邮件和论文的内容，以及进一步将其应用在教育领域。但他指出，对于ChatGPT的任何产品，用户都应该仔细检查其给出的结果是否符合预期。

霍奇森对ChatGPT的评价让人想起计算机先驱道格拉斯·恩格尔巴特（Douglas Engelbart）对于智能设备的看法。恩格尔巴特希望简化人机交互过程，以便计算机的强大算力能够可以无缝赋能人类智慧——这个想法被称为IA（intelligence augmentation），“智能增强”，而不是AI（Artificial Intellgence），“人工智能”。

恩格尔巴特在1960s发明了计算机鼠标，改善了用户和计算机之间的人机交互体验。GPT-4在人机交互过程中能够给使用者提供持续反馈，并进一步提高用户使用计算机的能力。

因此可以预见，ChatGPT这类自然语言聊天机器人程序的发展是变革人机交互范式的另一个重大突破口——这种智能程序能够实现人与计算机的双向交流。在真正的AI出现之前，将GPT-4作为一项智能增强辅助工具能够实现使用者和智能程序的互惠互利。

原文链接：What Does ChatGPT Know About Science?

本文来自微信公众号：中科院物理所（ID：cas-iop），作者：Dana Mackenzie，编辑：藏痴

人工智能

您觉得本篇内容如何

评分

声明：本文内容及配图源自互联网收集，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容真实性，不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题，请联系本网处理，侵权内容将在一周内下架整改。

天天炫技

这家伙很懒，什么描述也没留下

期刊文献

期刊订阅

免费订阅

传感器专家网邮件期刊为您提供业界最新最快的技术应用与市场资讯

天天炫技

这家伙很懒，什么描述也没留下

关注

评论
喜欢
点赞
分享

点击进入下一篇

过去70年人工智能领域最苦涩的教训

提取码

复制提取码

点击跳转至百度网盘

取消确认

假如ChatGPT是一个小镇做题家

相关产品

评论

热门资讯

天天炫技

期刊文献

基于改进的RBF神经网络倾角传感器温度补偿方法研究

柔性穿戴技术应用于校园运动心脏骤停的可行性分析

ＭＥＭＳ微热板结构设计与仿真

基于霍尔脉宽的汽车天窗防夹标定系统设计

振动筒传感器自动增益谐振电路仿真设计和测试

基于ＡｇＮＷｓ＠丙烯酸酯弹性体的柔性应变传感器

期刊订阅

最新文章

A股软件公司官宣并购深圳激光雷达芯片企业！

46亿元！英飞凌并购艾迈斯欧司朗非光学传感器业务！

突发，美国德州带头，将2家中国传感器公司列入制裁！

38家，这些公司或许是中国未来的传感器独角兽！（附全名单）

2.4亿！亚马逊三星押注一家传感器的“OpenAI”，创始人出生于苏联！

相关阅读

传感器应该推进人工智能实现整体进化

华为首款AI音箱：可通过HiLink开放协议控制19个家电品类

本田将在CES展出自动驾驶作业车和机器人新品

日本新研究：人工智能或能提前一周预测台风

人工智能在各领域改变着人们的工作和生活方式

非常廉价！美国初创公司为自动驾驶汽车创建地图

人工智能监测上海公交司机疲劳驾驶

英伟达推出自动驾驶新组件可防止绝大多数碰撞事件

简单的温湿度监控意义不大，那智慧农业该如何突破？

国外开发出一款可以倒咖啡叠毛巾的机器人

天天炫技

点击进入下一篇

假如ChatGPT是一个小镇做题家

相关产品

评论

热门资讯

天天炫技

期刊文献

​基于改进的RBF神经网络倾角传感器温度补偿方法研究

柔性穿戴技术应用于校园运动心脏骤停的可行性分析

ＭＥＭＳ微热板结构设计与仿真

基于霍尔脉宽的汽车天窗防夹标定系统设计

振动筒传感器自动增益谐振电路仿真设计和测试

基于ＡｇＮＷｓ＠丙烯酸酯弹性体的柔性应变传感器

期刊订阅

最新文章

A股软件公司官宣并购深圳激光雷达芯片企业！

46亿元！英飞凌并购艾迈斯欧司朗非光学传感器业务！

突发，美国德州带头，将2家中国传感器公司列入制裁！

38家，这些公司或许是中国未来的传感器独角兽！（附全名单）

2.4亿！亚马逊三星押注一家传感器的“OpenAI”，创始人出生于苏联！

相关阅读

传感器应该推进人工智能实现整体进化

华为首款AI音箱：可通过HiLink开放协议控制19个家电品类

本田将在CES展出自动驾驶作业车和机器人新品

日本新研究：人工智能或能提前一周预测台风

人工智能在各领域改变着人们的工作和生活方式

非常廉价！美国初创公司为自动驾驶汽车创建地图

人工智能监测上海公交司机疲劳驾驶

英伟达推出自动驾驶新组件 可防止绝大多数碰撞事件

简单的温湿度监控意义不大，那智慧农业该如何突破？

国外开发出一款可以倒咖啡叠毛巾的机器人

天天炫技

点击进入下一篇

基于改进的RBF神经网络倾角传感器温度补偿方法研究

英伟达推出自动驾驶新组件可防止绝大多数碰撞事件