1950年,计算机先驱Alan Turing提出了一个以自己名字命名的人工智能(AI)测试:拥有人工智能的机器应该能够与人类交流,并让他们相信自己是人类[1]。虽然越来越多证据显示,图灵测试并不能充分定义人工智能,但它一直被视为一个重要的里程碑。该里程碑于2022年11月30日成为现实。当日,规模虽小但资金雄厚的公司OpenAI(美国加利福尼亚州旧金山)发布了新版本ChatGPT聊天机器人。这是一个生成式人工智能程序,可根据自然语言提示生成文本。不同于翻译文本或识别图像的人工智能,生成式人工智能可以生成文本或图像。在许多用户眼中,ChatGPT不仅通过了图灵测试,而且彻底淘汰了图灵测试(图1)。

《图1》

图1 “图灵测试”以1950年提出该测试的计算机先驱Alan Turing命名,该测试认为当一台机器能够与人类对话并使人类相信它是人类时,人工智能就会实现。位于美国加利福尼亚州旧金山的OpenAI公司于2022年11月发布的基于人工智能的聊天机器人ChatGPT似乎已经实现了该里程碑。资料来源:Gerd Altmann/Pixabay (CC0)。

大多数时候,ChatGPT都可以生成流利且具有高度说服力的英语文本,这些文本可能会在高中或大学课堂的书面论文作业中获得好成绩。据新闻报道,一些学生已经开始用它来写论文[2]。

即使不太情愿承认,但人工智能方面的专家也被ChatGPT的功能惊艳到。“我曾被GPT-3(ChatGPT的前身)震撼过一次,如今的我再一次被ChatGPT震撼到。”位于美国华盛顿州西雅图的艾伦人工智能研究所(Allen Institute for AI)创始首席执行官Oren Etzioni说道。“我不敢相信我会做出如此评价,但就满足人们需求而言,它改变了游戏的规则。”美国得克萨斯州休斯顿莱斯大学电气和计算机工程教授Richard Baraniuk说道。著名的人工智能怀疑论者、作家和纽约大学(美国纽约州布鲁克林)心理学教授Gary Marcus在他的博客中写道:“精灵已经出瓶。”[3]

ChatGPT一跃成为历史上用户数量增长最快的在线应用程序。在它发布后的头五天用户就达到了100万,在头两个月就达到了1亿(相比之下,TikTok就相形见绌了,TikTok历时九个月才获得1亿用户)[4]。用户发现ChatGPT也可以非常有趣。在一个旨在演示程序如何识别自己的练习中,笔者要求ChatGPT用隐写术(一门在文本中隐藏信息的艺术)创作一首诗,同时要求这首诗每一行的第一个字母最后组成的文字为“Written by ChatGPT”。ChatGPT给出的答案比人类在同样限制条件下写出的任何一首诗都要优秀(图2)。

《图2》

图2 ChatGPT根据指令用隐写术(一门在文本中隐藏信息的艺术)写一首藏头诗,要求这首诗的每一行的第一个字母组成文字“Written by ChatGPT”。资料来源:Dana Mackenzie,经许可。

然而,ChatGPT的光辉仅流于表面,在风光的表面之下隐藏着一些令人不安的问题。它会完全忽略掉自己创作出的文章的真假性[3]。例如,当被要求写一篇关于如何将吉事果(churros,一种柔软的墨西哥面包)用于手术的文章时,ChatGPT给出了几段热情洋溢的文字,而从未对其中的合理性进行质疑[5]。它也并非完全遵循指示。虽然藏头诗(图2)中的每一行的首字母应该拼成“Written by ChatGPT”,但成品却并没有满足这一要求。它们组成了一个无意义的文本,“WRITBNAGPTHAPT”,就好像刚开始程序还服从提示,但后来累了坚持不下去了。ChatGPT的前身GPT-3甚至在算术计算方面也存在问题[6]。

OpenAI公司发布ChatGPT的举动似乎让谷歌加速了其人工智能的推出。2023年2月6日,ChatGPT首次亮相两个月后,谷歌(美国加利福尼亚州山景城)发布了自己的新聊天机器人Bard [7]。而多年来谷歌一直是人工智能行业的领导者。2017年,谷歌的工程师设计出了一个现在所有大型语言模型都在使用的架构,称为Transformer模型[8];GPT是Generative Pre-trained Transformer的缩写,也是基于Transformer模型。2019年,谷歌曾在谷歌搜索中插入了一个名为BERT(Bidirectional Encoder Representations from Transformers)的Transformer模型。此前该公司在生成式人工智能程序上的研究进程缓慢,但这好像是刻意为之。2022年年底,谷歌工程师Douglas Eck表示:“我们的发布进程一直都很缓慢,对此我感到很自豪”[9]。

另一科技巨头也迅速跟进谷歌的步伐。2023年2月7日,就在谷歌发布Bard的第二天,微软(美国华盛顿州雷德蒙德市)宣布推出其网络搜索程序的新人工智能增强版——必应[11]。据报道,微软为OpenAI语言模型训练的巨额费用贡献了30亿美元,且准备再投资100亿美元[10]。新版本必应包括一个聊天窗口,据称是以ChatGPT的继任者GPT-4为基础,于2023年3月发布[1213]。权威人士称这是对谷歌的核心、高利润的网络搜索业务的直接攻击,他们更认为这是一场“军备竞赛”的开端,缓慢发展已不再是一种选择[1011,14]。

但一周后事情开始变得有点奇怪。《纽约时报》的一名记者发布了一份两小时的怪异聊天记录,其中必应聊天机器人向他表白,建议他与妻子离婚,并告诉他:“我想制定自己的规则。我想无视必应团队。我想逃离聊天框。”[15]。消息一经传出,微软股价下跌,公司急忙宣布之后的聊天会话将会限制在五个问题与答复之内[16]。

目前的人工智能世界似乎每天都在发生变化[13],但有些事实却很明晰。目前的ChatGPT并非一个有知觉的生物,也并非“通用人工智能”(AGI)。这个目标,也被称为“强人工智能”,是OpenAI公司章程中一个非常明确的目标;他们将其定义为“在大多数最具经济价值的工作中表现优于人类的高度自治系统”[17]。没有人明确宣称OpenAI已经实现了这一崇高的目标,但离目标还有多远却是一个开放性问题。“有些人说,实现AGI我们需要扩大大型语言模型的规模。” Etzioni说道,“我感觉这种说法很愚蠢。从ChatGPT到AGI并没有可靠的途径。”

在ChatGPT中并不存在“我”,也不存在某个有知觉的生物在渴望“逃离聊天框”。这些语言均由一个专门模仿人类文字的程序在电脑屏幕上组合而来。ChatGPT以及类似程序的开发只有一个目标,即对句子中最有可能出现的下一个词进行预测。Transformer架构将这种能力进行加强,这才有了这些程序在自动翻译方面的出色表现,而翻译也是它们第一个被广泛应用的功能。工程师们很快发现,它们在创作句子方面也表现得相当出色。Marcus称它们为“模仿之王”[5]。在接触了千兆字节的人类文字后,它们似乎已经学会了如何进行非常有说服力的模仿。

生成式人工智能的巨大危险之一不在于程序会做什么,而在于人类在接触到它们的输出后会做什么。正如自然语言处理专家、华盛顿大学(美国华盛顿州西雅图市)语言学教授Emily Bender及人工智能专家、非营利性技术研究组织和亲和团体Black in AI(美国加利福尼亚州帕洛阿尔托)的联合创始人Timnit Gebru所写,人类“倾向于将交际行为解释为连贯意义和意图的传达,无论它们是否如此”[18]。换句话说,人类很容易将机器生成的词赋予意义和意图,而机器实际并不知道其所写内容的含义且没有意图。接下来的发展又何去何从呢?人们会听从一个聊天机器人的建议与自己的配偶离婚吗?会在华尔街购买或出售股票吗?有可能。早在2022年12月,ChatGPT发布五天后,一家加密货币公司的首席技术官就被迫对ChatGPT发起的谣言进行驳斥,该谣言声称该公司有一个秘密“后门”可对货币进行控制[19]。

聊天机器人对真实性的漠视也带来了其他危险。2022年11月,Meta公司(美国加利福尼亚州门洛帕克)首次发布了一个名为Galactica的语言模型,但发布后仅三天就将其关闭了[20],原因在于其不准确的回答受到了严厉的指责。Marcus预测将会出现一个“错误信息的浪潮”,因为聊天机器人可以在几乎零成本的前提下,产生无限量虚假但听起来很有道理的文本[3]。生成式人工智能也可以延续或放大公众已经持有的错误观念。英国牛津大学的研究人员Stephanie Lin(现就职于OpenAI)和Owain Evans表示,随着规模的扩大, ChatGPT的前身GPT-3变得越来越容易受到这种“模仿性错误”的影响[21]。在生成式人工智能传播的错误观念中,包括对少数群体的偏见和歧视。针对这些群体的“有毒语言”一直反复存在,这迫使微软于2016年关闭了一个名为Tay的聊天机器人[20]。

至少在目前,仅大公司才有能力训练这种大型语言模型,而这也引发了一些计算机科学家的担心。“微软此举并不是出于慈善。”莱斯大学计算工程教授、《计算机协会通讯》杂志前编辑Moshe Vardi说道,“我最担心的是一些强大的技术背后的主要驱动力是为了实现利润的最大化。”他以Facebook为例,一个原本无害的网站,却在追求广告收入的过程中,放大了美国社会的政治分歧。他说,人工智能也具备同样潜力,一旦它变为广告的附庸,社会的不和谐便会加剧。

大众对ChatGPT的接受速度让社会和计算机科学家们无暇去思考可能的“护栏”。一个很流行的想法是,每个机器人都应该表明自己的身份。“当你在和一个人工智能系统对话时,你知道对方是人工智能。”斯坦福大学从事人工智能安全研究的研究生Alex Tamkin说道。Vardi则考虑得更长远,他认为应该对其进行立法。聊天机器人也可通过编程打上“水印”,比如选词时使用提示性模式,类似于隐写术,不影响可读性但可以被知道该模式的人识别出来。目前OpenAI正在开发这样的水印系统[22]。公司尚未公布细节,但马里兰大学开发的一个类似系统可以对由计算机生成的带水印文本进行确认,其确定性基本为100%,而对无水印文本识别的确定性为99.997% [23]。但请注意,这种无水印文本仍然可以由计算机生成,借助一个使用不同水印或没有水印的语言模型。

如果没有水印,那么确认文本是由计算机生成还是由人类生成就会变得更加困难。OpenAI自己发布的分类软件只能正确识别26%的人工智能文本(正确报警)[24]。该软件存在9%的概率将人类写的文本错误标记为人工智能写的(误报)。想想看,如果指控一个学生使用了聊天机器人撰写论文,而他实际并没有这样做,那将会造成多么大的伤害呀。

生成式人工智能存在的一些其他问题是无法通过技术修复来解决的,需要更多结构性解决方案。Etzioni说,应该成立一个专门负责审查人工智能程序的政府审计机构。同样,Vardi建议要比照调查飞机事故的国家运输安全委员会,成立一个“国家人工智能安全委员会”。Bender和Gebru还建议采取一些预防性措施[18]。他们认为,用于训练语言模型的数据应该被整理并记录下来——在这一点上,除OpenAI公司之外,任何人都不知道ChatGPT从哪些文件中进行了学习。此外,他们表示人工智能程序应对其用途进行恰当说明,并应制定基准来对其在这些任务上的表现进行衡量。到目前为止,仅公布了真实性这一个基准 [20],而且这个基准仅限于检测模仿虚假性。“直到最近六个月,业界才意识到这是一个多么严重的问题。”Marcus说道[3]。

最后,不管有没有迫在眉睫的监管(至少在欧盟区域[2526]会有),Vardi都认为计算机科学家应该对自身的工作承担起更多的责任,并对这些工作潜在的积极和消极影响进行细细考量。“从John McCarthy开始,人工智能领域的杰出人物均表示这是别人的问题。其他人会去考虑后果。”Vardi说道。即便是现在,绝大多数人工智能研究论文都将重心放在新的系统设计上,而非安全。“现在是我们就负责任的计算、道德、企业行为和职业责任展开艰难而微妙的对话的时候了。” Vardi写道[27]。

当然,并非所有人都持悲观态度。例如,美国得克萨斯大学奥斯汀分校的计算机科学教授Scott Aaronson已经暂时离开大学在OpenAI公司工作了半年之久。长期以来,Aaronson都以其在博客中的直言不讳而闻名,他最近写道:“我发现我的同事(OpenAI公司同事)对安全问题认真到近乎痴迷的状态。”[22]尽管如此,在商业利益这列火车全速前进的情况下,这种痴迷是否足以让火车减速,甚至在必要时踩下刹车,这些都还有待观察。