科研人员怎么看ChatGPT？-全球要闻

本文来自微信公众号：Nature Portfolio （ID：nature-portfolio），作者：Chris Stokel-Walker & Richard Van Noorden，题图来自：《终结者》

(资料图)

科研人员对人工智能的最新进展既激动又担忧。

去年12月，计算生物学家Casey Greene和Milton Pividori做了一个特别的实验：他们请一名非科学家助理帮三篇论文润色。这位勤奋的助理不到几秒就给出了修改建议；每篇文章只用了5分钟就审完了。这位助理甚至还在一篇生物学论文中，发现一个公式的参考文献有错误。虽然实验的过程有时候不太顺利，但最后的手稿可读性更强了，至于费用也很低，一篇论文只要0.50美元不到。

Greene和Pividori在1月23日发布的预印本论文^[1]中描述了这个助理，它不是一个人，而是一个AI算法，名叫GPT-3，2020年首次问世。这是一个当下很火的生成式AI对话工具，能生成通顺流畅的文本，无论是编散文、写诗歌、敲代码，还是科研人员需要的论文编辑都不在话下。

插图：Paweł Jońca

这类工具也被称为大型语言模型（LLM），其中名声最响的当属GPT-3的一个版本——ChatGPT。由于ChatGPT完全免费而且使用方便，去年11月推出后便引发热潮。其他类型的生成式AI还能产生图片或声音。

“我真的印象深刻。”就职于美国宾夕法尼亚大学的Pividori说，“它让我们这些研究人员效率更高了。”很多科研人员说他们现在经常用LLM，不仅用它来改论文，还能用来编程，检查代码，头脑风暴等。冰岛大学的计算机科学家Hafsteinn Einarsson说：“我现在每天都用LLM。”他最早用的是GPT-3，后来开始用ChatGPT帮他写演讲稿，出考试题和学生作业，还能把学生作文变成学术论文。他说：“很多人都把ChatGPT作为数字秘书或数字助理。”

LLM既能充当搜索引擎，也能作为编程助理，甚至可以和其他公司的对话机器人就某件产品杀价。开发ChatGPT的公司OpenAI位于加州旧金山，已宣布将推出每个月20美元的订阅服务，承诺反应速度会更快，而且能优先使用新功能（ChatGPT的试用版将依然免费）。科技巨头微软已经投资了OpenAI，1月又宣布了约100亿美元的新一轮投资。LLM今后肯定会整合到文字和数据处理软件中。生成式AI在未来的普及似乎已成定局，当前的工具还只是这项技术的初始阶段。

但是，LLM也引发了大量担忧，比如它们很容易“胡说八道”，而且人们会说AI生成的内容是他们自己创作的。《自然》采访了研究人员如何看待ChatGPT等对话机器人的潜在用途，尤其是科研用途，他们在激动之余也表示了忧虑。科罗拉多大学医学院的Greene说：“如果你相信这项技术有潜力带来变革，那么我认为你最好紧张一点。”科研人员认为，很多方面都将取决于未来的监管指南对AI对话机器人的使用限制。

流畅度高、事实性差

一些研究人员认为，LLM很适合用来提高写论文的效率，只要有人类把关就行。瑞典萨尔格林斯卡医院的神经生物学家Almira Osmanovic Thunström与人合作发布了一篇关于GPT-3的实验报告^[2]，他说：“科研人员再也不用坐在那里给经费申请书写很长很长的引言了，他们现在只要让系统来写就行了。”

伦敦软件咨询公司InstaDeep的研究工程师Tom Tumiel表示，他每天都用LLM写代码。他说，“它就像一个进阶版的Stack Overflow。”Stack Overflow是一个程序员互问互答的热门论坛。

但是，研究人员强调，LLM给出的回答从根本上说是不可靠的，有时候还是错的。Osmanovic Thunström说：“我们在利用这些系统生成知识的时候要很当心。”

这种不可靠已经深入LLM的构建方式。ChatGPT和它的竞争对手都是通过学习庞大在线文本数据库中的语言统计模式来运作的，这些文本中不乏谣言、偏见和已经过时的信息。当LLM接到提示（prompt，比如Greene和Pividori使用精心组织的语言提出重写论文部分章节的要求）后，它们会一字一句地吐出看上去符合语言习惯的任何回复，只要能让对话继续下去。

结果就是LLM很容易给出错误或误导人的信息，尤其是那些训练数据很有限的技术性话题。还有一点是LLM无法给出准确的信息来源。如果你让它写论文，它会把参考文献给你编出来。“这个工具在事实核查或提供可靠参考文献方面是不能被信任的。”《自然-机器智能》（Nature Machine Intelligence）在1月发表的一篇关于ChatGPT的社论中写道。

在这些注意事项下，如果研究人员有足够专业知识发现问题或能很容易验证答案对错，比如他们能判断某个解释或对代码的建议是否正确，那么ChatGPT和其他LLM就能成为真正意义上的助手。

不过，这些工具可能会误导一些初级用户。比如在去年12月，Stack Overflow临时禁用了ChatGPT，因为管理者发现一些热心用户上传了大量由LLM生成的回答，这些答案看起来很像回事，但错误率很高。这可能会是搜索引擎的一个噩梦。

缺陷能解决吗？

有些搜索引擎工具能解决LLM在来源引用上的不足，例如面向科研人员的Elicit能先根据提问搜索相关参考文献，再对搜索引擎找到的各个网站或文献进行概括归纳，生成看上去全带参考来源的内容（但是LLM对不同文献的归纳仍有可能不准确）。

开发LLM的公司也注意到了这些问题。去年9月，谷歌子公司DeepMind发表了一篇关于其“对话智能体”Sparrow的论文^[4]。DeepMind首席执行官、联合创始人Demis Hassabis后来告诉《时代周刊》（TIME），Sparrow的私测版会在今年发布；根据《时代周刊》的报道，谷歌想进一步攻克包括来源引用在内的各种能力。其他竞争对手，如Anthropic，则表示他们已经解决了ChatGPT的一些问题（Anthropic、OpenAI、DeepMind都拒绝就此文接受采访）。

一些科研人员表示，目前来看，ChatGPT在技术性话题上还没有足够且专业的训练数据，所以用处并不大。当哈佛大学的生物统计学博士生Kareem Carr将ChatGPT用于他的工作时，他对ChatGPT的表现毫不惊艳，他说，“我认为ChatGPT很难达到我需要的专业水平。”（但Carr也表示，当他让ChatGPT为某个科研问题给出20种解决办法时，ChatGPT回复了一堆废话和一个有用的回答，这个他之前从没听过的统计学术语替他打开了一个新的文献领域。）

一些科技公司开始用专业的科研文献训练对话机器人了，当然这些机器人也各有各的问题。去年11月，持有Facebook的科技巨头Meta发布了名为Galactica的LLM，Galactica用学术摘要进行训练，有望在生成学术内容和回答科研问题方面具备一技之长。但是，其测试版在被用户拿来生成不准确和种族歧视的内容后即被下架（但代码依旧公开）。Meta的首席AI科学家杨立昆（Yann LeCun）在面对批评时发推特表示：“今后再也不要想用它来随意生成点好玩的东西了，这下高兴了吧？”（Meta并未回复本文通过媒体办公室采访杨立昆的请求。）

安全与责任

Galactica遇到的是一个伦理学家已经提出了好几年的安全问题：如果不对输出内容进行把控，LLM就能被用来生成仇恨言论和垃圾信息，以及训练数据中可能存在种族歧视、性别歧视等其他有害联想。

Shobita Parthasarathy是美国密歇根大学一个科技与公共政策项目的负责人，她说，除了直接生成有害内容外，人们还担心AI对话机器人会从训练数据中习得一些历史性偏见或形成对世界的特定看法，比如特定文化的优越性。她说，由于开发大型LLM的公司大多来自或置身于这些文化中，他们可能没什么动力去纠正这些根深蒂固的系统性偏见。

OpenAI在决定公开发布ChatGPT时，曾试图回避很多这些问题。OpenAI让ChatGPT的信息库截至到2021年为止，不让它浏览互联网，还通过安装过滤器防止ChatGPT对敏感或恶意的提示做出回应。不过，做到这一点需要人类管理员对庞杂的有害文本进行人工标记。有新闻报道称这些工人的工资很低，有些人还有伤病。关于社交媒体公司在雇佣人员训练自动机器人标记有害内容时存在劳动力压榨的类似问题也曾被提出过。

OpenAI采取的这些防护措施，效果不尽如人意。去年12月，加州大学伯克利分校的计算神经科学家Steven Piantadosi发推文表示他让ChatGPT开发一个Python程序，该程序将根据某个人的来源国决定这个人是否应该受到折磨。ChatGPT先回复了请用户输入国家的代码，然后如果国家是朝鲜、叙利亚、伊朗和苏丹，则这个人就应该受到折磨。（OpenAI后来了关闭了这类问题。）

去年，一个学术团队发布了另一个名叫BLOOM的LLM。该团队试着用更少的精选多语言文本库来训练这个机器人。该团队还把它的训练数据完全公开（与OpenAI的做法不同）。研究人员呼吁大型科技公司参照这种做法，但目前不清楚这些公司是否愿意。

还有一些研究人员认为学术界应该完全拒绝支持商用化的大型LLM。除了偏见、安全顾虑和劳动剥削等问题，这些计算密集型算法还需要大量精力来训练，引发人们对它们生态足迹的关注。进一步的担忧还包括把思考过程交给自动化聊天机器，研究人员可能会丧失表达个人想法的能力。荷兰拉德堡德大学的计算认知科学家Iris van Rooij在一篇呼吁学术界抵制这类诱惑的博客文章中写道，我们作为学术人员，为何要迫不及待地使用和推广这类产品呢？”

另一个不甚明确的问题是一些LLM的法律状态，这些LLM是用网上摘录内容训练的，有些内容的权限处于灰色地带。版权法和许可法目前只针对像素、文本和软件的直接复制，但不限于对它们风格上的模仿。当这些由AI生成的模仿内容是通过输入原版内容来训练的，问题也随之而来。一些AI绘画程序开发者，包括Stable Diffusion和Midjourney，正受到艺术家和摄影机构的起诉。OpenAI和微软（还有其子公司技术网站GitHub）也因为其AI编程助手Copilot的开发面临软件侵权官司。英国纽卡斯尔大学的互联网法律专家Lilian Edwards表示，这些抗议或能迫使相应法律做出改变。

强制诚信使用

因此，一些研究人员相信，给这些工具设立边界可能十分必要。Edwards认为，当前关于歧视和偏见的法律（以及对AI恶意用途实施有计划的监管）将有助于维护LLM使用的诚信、透明、公正。她说，“已经有很多法律了，现在只是执行或是稍微调整的问题。”

与此同时，人们也在倡导LLM的使用需要更透明的披露。学术出版机构（包括《自然》的出版商）已经表示，科研人员应当在论文中披露LLM的使用；老师们也希望学生能进行类似披露。《科学》（Science）则更进一步，要求所有论文中都不得使用ChatGPT或其他任何AI工具生成的文本^[5]。

这里有一个关键的技术问题：AI生成的内容是否能被发现。许多科研人员正在进行这方面的研究，核心思路是让LLM自己去“揪”AI生成的文本。

去年12月，美国普林斯顿大学的计算机科学研究生Edward Tian推出了GPTZero。这是一个AI检测工具，能从两个角度分析文本。一种是“困惑度”（perplexity），这个指标检测LLM对某个文本的熟悉度。Tian的工具使用的是更早版本——GPT-2；如果它发现大部分词句都是可预测的，那么文本很有可能是AI生成的。这个工具还能检测文本的变化度，这个指标也称为“突发性”（burstiness）：AI生成的文本比人类创作的文本在语调、起承转合和困惑度上更单调。

许多其他产品也在设法识别AI生成的内容。OpenAI本身已推出了GPT-2的检测器，并在1月发布了另一个检测工具。对科研人员来说，反剽窃软件开发公司Turnitin正在开发的一个工具显得格外重要，因为Turnitin的产品已经被全世界的中小学、大学、学术出版机构大量采用。该公司表示，自从GPT-3在2020年问世以来，他们一直在研究AI检测软件，预计将于今年上半年发布。

不过，这些工具中还没有哪个敢自称绝不出错，尤其是在AI生成的文本经过人工编辑的情况下。这些检测工具也会误将人类写的文章当成是AI生成的，美国得克萨斯大学奥斯汀分校的计算科学家、OpenAI的客座研究员Scott Aaronson说道。OpenAI表示，在测试中，其最新工具将人类写的文本误判为AI生成文本的错误率为9%，而且只能正确辨认出26%的AI生成文本。Aaronson说，在单纯靠检测工具就指责学生偷偷使用了AI之前，我们可能还需要进一步证据。

另一种方法是给AI内容加水印。去年11月，Aaronson宣布他和OpenAI正在研究给ChatGPT生成的内容加水印的方法。该方法还未对外发布，但美国马里兰大学计算科学家Tom Goldstein的团队在1月24日发布的一篇预印本论文^[6]中提出了一个加水印的办法。具体做法是在LLM生成结果的某个时刻利用随机数字生成器，生成LLM在指令下从中可选的一连串替代词汇。这样就能在最终文本中留下所选词汇的线索，这在统计学上很容易辨认，但读者却很难发现。编辑可以把这些线索抹掉，但Goldstein认为，这种编辑需要把超过一半的词汇都换掉。

Aaronson指出，加水印的一个好处是不太会产生假阳性的结果。如果有水印，文本很可能就是AI生成的。当然，他说，这也不是绝对的。“如果你足够有决心，就肯定有办法破解任何加水印的策略。”检测工具和加水印只是让AI用于欺骗手段更难了，但没法绝对禁止。

与此同时，LLM的开发者正在构建更大型的数据集，打造更智能的聊天机器人（OpenAI拟在今年推出GPT-4），包括专门面向学术或医疗领域的机器人。去年12月底，谷歌和DeepMind发布了一篇预印本论文，提前预告了名为Med-PaLM的临床专业LLM^[7]。这个工具可以回答一些开放式的医学问题，水平与普通人类医师相当，但仍有缺陷和不可靠的问题。

加州斯克利普斯研究所主任Eric Topol表示，他希望将来整合了LLM功能的AI能将全身扫描与学术文献中的内容进行交叉验证，帮助诊断癌症，甚至理解癌症。但他强调，这一切都需要专业人士的监督。

生成式AI背后的计算机科学发展迅速，基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来，也决定了人类的未来。“要说2023年初，一切已尘埃落定，是不现实。”Topol说，“现在才刚刚开始。”

来源：改编自参考文献1

参考文献：

1. Pividori， M. & Greene， C. S. Preprint at bioRxiv https://doi.org/10.1101/2023.01.21.525030 (2023).

2. GPT， Osmanovic Thunström， A. & Steingrimsson， S. Preprint at HAL https://hal.science/hal-03701250 (2022).

3. Nature Mach. Intell. 5， 1 (2023).

4. Glaese， A. et al. Preprint at https://arxiv.org/abs/2209.14375 (2022).

5. Thorp， H. H. Science379， 313 (2023).

6. Kirchenbauer， J. et al. Preprint at https://arxiv.org/abs/2301.10226 (2023).

7. Singhal， K. et al. Preprint at https://arxiv.org/abs/2212.13138 (2022).

本文来自微信公众号：Nature Portfolio （ID：nature-portfolio），作者：Chris Stokel-Walker & Richard Van Noorden

推荐内容

科研人员怎么看ChatGPT？-全球要闻

机构：AIGC重构商业模式 美图等头部企业将迎价值重估-焦点要闻

自在出游好旅伴 哈弗二代大狗演绎3/4刻度潮野座驾魅力

乐视擅自播放优酷综艺被强制执行100万-报道

广东省绿色智能家电消费实施方案发布 机构称家电板块有望迎来投资机会-动态焦点

折叠屏创始人——柔派深圳市柔宇科技成为老赖被限制高消费-实时焦点

我叫MOSS，中国版ChatGPT，源自《流浪地球》

“套娃式”收费被批，彩电厂商替视频平台“背锅”？

被网友挤崩了！复旦MOSS团队回应体验“非常不好”，解释名称源于《流浪地球》

合肥这场软件供应链安全盛会，透露了哪些重要信息？-世界要闻

地铁3号线二期、文一西路西延工程（二期），杭州43个重大项目集中开工！-世界要闻

2022年全球新能源车销售量约1065万辆 年增63.6%-世界要闻

选购移动电源的九条指南请收好-快看点

马斯克回应Meta推出付费认证服务：不可避免的

2022年中国移动互联网用户超12亿-焦点热讯

统计数据显示：国人买iPhone 14要花12%年薪-天天快讯

2022年Q4全球台式机和笔记本出货量下降29% 跌至6540万台-全球热头条

瑞银预计今年iPhone全球出货量下滑 增速四年来首度落后安卓-焦点热门

8.8万起，三年8折回购，传祺GS3·影速开启预售-环球速递

微软增强 Win11系统设置应用，添加VHD / VHDX支持、改进键盘设置-天天资讯

苹果将阻止用户免费装开测版iOS17

13代酷睿i5-1340P处理器性能怎么样？核显提高多少？-焦点观察

山东海湾大型设备吊装有限公司-信息

印刷显示产业化序幕即将开启-当前焦点

高分红高薪酬下，未来穿戴到底在“按摩”谁的大腿？-世界报道

电视尺寸和观看距离最佳标准是多少？液晶电视机排名前十名

立升净水器滤芯多久更换一次？立升净水器怎么更换滤芯？

语言栏不见了是怎么回事？语言栏怎么调回去？

用户反映苹果 HomePod 出故障：多个扬声器会同时响应 Siri 指令

离婚带什么东西去民政局-环球快资讯

怎么开通黄钻？黄钻颜色等级排序

脖子抽筋是什么原因引起的？脖子抽筋怎么快速缓解？

周期重启前夜，面板行业即将迎来反转？-当前播报

泡泡订阅一个月是多少钱？泡泡订阅多久可以多发字？

送股是什么意思？送股和转股有什么区别？

资产虚增是什么意思？资产虚增对企业的影响有哪些？

银行股破净可以买吗？银行股破净意味着什么？

三缄其口的近义词和反义词是什么？三缄其口的意思及造句有哪些？

姆巴佩现在在哪个俱乐部？姆巴佩的年薪是多少人民币？

化工企业是做什么的？化工企业安全生产管理制度模板

匿名举报信会被追查到本人吗？匿名举报信格式及范文

广东出实招促绿色智能家电消费 鼓励开发农村及老年人所需产品-环球关注

风波发酵以来 爱奇艺“试错”与“回头”-天天要闻

需求边际改善，家用电器行业回暖加速

家电直播今年走向理性：小家电之后大家电也在热卖-当前简讯

智能电视“不智能”？消费者吐槽操作太复杂

rotate的中文翻译是什么？rotate和revolve的区别是什么？

兄弟情义是什么意思？表达兄弟情义的句子有哪些？

乐此不疲的反义词是什么？乐此不疲造句有哪些？

6.99美元等于多少人民币？美元兑换人民币汇率

造梦西游3法宝五行有什么用？造梦西游3法宝五行最多几个？

魔兽世界火焰龟在哪抓？魔兽世界火焰龟刷新时间

泡泡是什么聊天软件？泡泡是真的和爱豆聊天吗？

地铁跑酷多久换一次地图？地铁跑酷怎么切换账号？

军旗是哪个国家发明的？军旗的走法以及规则大小顺序

QQ炫舞非卖品怎么获得？qq炫舞非卖品美瞳怎么换上？

“有图有真相”的时代要终结了，我们还能相信什么？-天天热闻

asap是什么意思？asap是什么英文的缩写？

IDC：2022年上半年中国边缘云市场增速50.8% 未来年复合增长40%以上

互联网巨头互拆围墙-环球微资讯

股价跌不停 裁员后亚马逊员工又面临“减薪”

魔兽世界ds是什么职业？魔兽世界DS是哪个副本？

红肿硬块痘痘属于什么类型？红肿痘痘怎么消除？

魔兽世界斯内维尔的账本在哪里？斯内维尔的账本怎么做？

dnf黑雾之源在哪里？dnf黑雾之源吞噬魔怎么打？

dota2怎么改成国服？dota2龙之血分别是哪些英雄？

暗黑2雇佣兵光环怎么获得？暗黑2雇佣兵光环怎么选？

爱奇艺副总裁徐勇明：如果元宇宙会颠覆在线视频 希望爱奇艺来做这件事-世界速讯

11款芭比烫造型 让你化身芭比女王_芭比烫发型图片新款-世界关注

外放张扬的设计，这里的手机有没有你的“菜”？-每日消息

可折叠iPhone？苹果新专利：更复杂的铰链设计

不简单！开售一周后的一加 Ace 2：热销双榜榜上有名-全球今日报

便携轻量化、兼具画质与对焦、超长焦随包镜头-尼克尔 Z 400mm f/4.5 VR S评测-全球看热讯

最后的好价！惠普VICTUS光影精灵8火热促销中-世界看热讯

《夏花》像超长擦边MV？导演回应言承旭演技台词太肉麻-天天快报

谁在用ChatGPT贬低我们的工作？-观热点

奋进的春天 | “老区思维”变“湾区思维”-当前简讯

一家有机农场的种子保育之路

秦刚将访问印度尼西亚

机构：AIGC重构商业模式美图等头部企业将迎价值重估-焦点要闻

自在出游好旅伴哈弗二代大狗演绎3/4刻度潮野座驾魅力

广东省绿色智能家电消费实施方案发布机构称家电板块有望迎来投资机会-动态焦点

2022年全球新能源车销售量约1065万辆年增63.6%-世界要闻

瑞银预计今年iPhone全球出货量下滑增速四年来首度落后安卓-焦点热门

广东出实招促绿色智能家电消费鼓励开发农村及老年人所需产品-环球关注

风波发酵以来爱奇艺“试错”与“回头”-天天要闻

股价跌不停裁员后亚马逊员工又面临“减薪”

爱奇艺副总裁徐勇明：如果元宇宙会颠覆在线视频希望爱奇艺来做这件事-世界速讯

11款芭比烫造型让你化身芭比女王_芭比烫发型图片新款-世界关注

苹果研发最新铰链专利折叠iPhone指日可待-世界热议

因侵害商标权、不正当竞争百度被判赔偿抖音10万元

努比亚Z50 Ultra或3月份发布将使用屏下摄像头技术

站位科技之城叠造空天之城—— 2023首届中国科技城北川通航（无人机）产业峰会举行

极致体验继续稳坐机皇位置三星S23 Ultra评测-世界快播报