ChatGPT和科学:人工智能系统在2023年是一股力量——无论好坏
生成性人工智能软件的海报孩子是一个惊人的人类模仿者。它代表了一个潜在的研究新时代,但带来了风险。

它共同撰写了科学论文——有时是偷偷摸摸的。它起草了演示文稿、赠款提案和课程的大纲,制作了计算机代码,并作为研究想法的传声筒。它还发明了参考资料,编造了事实,并重复了仇恨言论。最重要的是,它抓住了人们的想象力:通过顺从、引人入胜、有趣甚至恐怖的方式,ChatGPT承担了对话者想要的任何角色——有些他们没有。

为什么要将计算机程序列入2023年塑造科学的人名单中?ChatGPT不是一个人。然而,在过去的一年里,在许多方面,这个项目对科学产生了深远而广泛的影响。
ChatGPT的唯一目标是以其训练数据的风格合理地继续对话。但通过这样做,它和其他生成人工智能(AI)程序正在改变科学家的工作方式
一些科学家早就意识到大型语言模型(LLM)的潜力。但对许多人来说,正是ChatGPT在2022年11月作为免费对话代理的发布,迅速揭示了这项技术的力量和陷阱。该计划由加利福尼亚州旧金山OpenAI的研究人员创建;其中包括Ilya Sutskever,也在今年的《自然》10中进行了介绍。它建立在具有数千亿参数的神经网络上,该网络在一个巨大的在线书籍和文档语料库上进行了培训,成本估计为数千万美元。还聘请了大型员工团队来编辑或评价其响应,进一步塑造了机器人的输出。今年,OpenAI升级了ChatGPT的底层LLM,并将其连接到其他程序,以便该工具可以获取和创建图像,并使用数学和编码软件寻求帮助。其他公司已经赶出了竞争对手。
对于一些研究人员来说,这些应用程序已经成为宝贵的实验室助理——帮助总结或编写手稿,润色应用程序和编写代码(见Nature 621,672-675;2023)。在马萨诸塞州波士顿哈佛医学院从事人工智能医学研究的Marinka Zitnik说,ChatGPT和相关软件可以帮助集思广益,增强科学搜索引擎,并确定文献中的研究差距。Zitnik补充说,以类似方式训练科学数据的模型可以帮助构建可以指导研究的人工智能系统,也许可以通过设计新分子或模拟细胞行为。
但这项技术也很危险。自动会话代理可以帮助作弊者和抄袭者;如果不受制约,他们可能会不可逆转地污染科学知识的井。未公开的人工智能制作内容已开始通过互联网渗透,一些科学家承认使用ChatGPT在不声明的情况下生成文章。
然后是错误和偏见的问题,这些问题被纳入了生成性人工智能的工作原理。法学硕士通过映射语言的相互联系来建立一个世界模型,然后吐出这种分布的合理样本,而没有评估真或谬误的概念。这导致项目在培训数据中复制历史偏见或不准确,并编造信息,包括不存在的科学参考资料(见W。H.沃尔特斯和E。I.怀尔德科学。代表13,14045;2023)。
西雅图华盛顿大学的计算语言学家Emily Bender认为很少有合适的方法来使用她所称的合成文本挤出机。她说,ChatGPT对环境有很大影响,存在问题的偏见,可能会误导用户认为其产出来自一个人。除此之外,OpenAI因窃取数据而被起诉,并被指控采取剥削性劳动行为(以低工资雇用自由职业者)。
LLM的规模和复杂性意味着它们本质上是“黑匣子”,但当它们的代码和培训材料不公开时,理解它们为什么生产它们所做的事情就更难了,就像ChatGPT的情况一样。开源LLM运动正在增长,但到目前为止,这些模型的能力不如大型专有程序。
一些国家正在开发国家人工智能研究资源,以使大公司以外的科学家能够构建和研究大型生成人工智能(见Nature 623,229-230;2023年)。但目前还不清楚监管将在多大程度上迫使LLM开发人员披露专有信息或构建安全功能。
没有人知道还有多少东西需要从类似ChatGPT的系统中挤出来。他们的能力可能还受到计算能力或新训练数据的可用性的限制。但生成性人工智能革命已经开始。而且没有回头路。

可爱酱mm
校验提示文案
可爱酱mm
校验提示文案
可爱酱mm
校验提示文案
可爱酱mm
校验提示文案