开源人工智能——开放程度如何?安全性如何?

, Mitch Leslie

Engineering ›› 2025, Vol. 47 ›› Issue (4) : 9 -12.

PDF (1183KB)
Engineering ›› 2025, Vol. 47 ›› Issue (4) : 9 -12. DOI: 10.1016/j.eng.2025.03.002
新闻热点

开源人工智能——开放程度如何?安全性如何?

作者信息 +

Open-Source Artificial Intelligence—How Open? How Safe?

Author information +
文章历史 +
PDF (1210K)

引用本文

引用格式 ▾
Mitch Leslie,Mitch Leslie. 开源人工智能——开放程度如何?安全性如何?[J]. 工程(英文), 2025, 47(4): 9-12 DOI:10.1016/j.eng.2025.03.002

登录浏览全文

4963

注册一个新账户 忘记密码

2024年5月,当谷歌DeepMind公司(美国)发布其用于预测蛋白质折叠的人工智能(AI)程序最新版本AlphaFold3(AF3)时,科学家们既兴奋又失望[13]。尽管该模型比其前身AlphaFold2 (AF2)更强大,但DeepMind公司(谷歌母公司Alphabet旗下伦敦研究部门)并未发布新版本的计算机代码[1,34]。与AF2不同的是,研究人员无法自行运行AF3,且只能通过网站每天进行最多10次(现为20次)有限的蛋白质结构预测[34]。DeepMind公司还保留了其他一些关键细节——模型权重,即决定AI系统从训练数据中学到哪些知识的参数[45]。
在遭到研究人员批评后,DeepMind公司于2024年11月公布了AF3的源代码[1,34],但仅限非商业用户运行该程序,且需凭学术资质才能获取模型权重[4]。
开发者应公布其AI系统的哪些信息以及对软件使用施加何种限制,这些问题仍存在争议[6]。开源AI的支持者认为,完全透明和无限制使用大有裨益,可让富有创造力的人通过扩展或改编现有AI模型来开发新产品和应用[7]。“我反对这种专有且封闭的开发模式,因为在这种模式下,像AI这样重要的技术竟掌握在少数参与者手中。”美国华盛顿州西雅图华盛顿大学信息科学专业教授Chirag Shah表示。美国政府[8]及欧盟都支持至少某种程度的AI开源,欧盟的新AI法规对开源系统采取了更宽松的态度[910]。
另一派专家则认为开源AI是危险的,因其易被滥用[11]。“有些技术我们并不希望其被开源。”美国加利福尼亚大学伯克利分校校长公共学者、硅谷科技巨头Meta前“负责任AI”研究经理David E. Harris指出。使问题更复杂的是,对于“何为开源AI”缺乏公认的定义[12]。
任何人都可使用或修改的开源软件已存在数十年[13]。著名例子包括Linux操作系统和Mozilla Firefox网页浏览器[14]。开发人员基于这些开源程序开发出了其他功能强大的软件,如用于手机的基于 Linux 系统的安卓操作系统[14]。支持者认为,开源AI将激励创新、加速新模型开发、开辟该技术的新用途、促进科学研究并带来其他益处(图1)。正如《经济学人》所言,通过扩大对模型的获取,开源AI有助于确保其力量“不致集中于少数加利福尼亚州公司手中”[15]。
AI透明度也获得了政府支持。美国国家电信和信息管理局2024年的一份报告倡导开放权重模型,即开发者发布模型训练期间使用的权重[16]。2024年生效的欧盟《人工智能法案》则更进一步。例如,该法规要求通用AI模型(如著名的聊天机器人ChatGPT)的开发者详细说明其系统的训练和测试方式[9,17],但开源系统的开发商不受这些要求的约束[18]。然而,欧盟监管机构并未明确规定开源AI的标准。“我们需要一些有效的方法来判断模型是否真正有资格获得豁免。”拉德堡德大学(Radboud University,位于荷兰奈梅亨)语言与传播学副教授Mark Dingemanse表示。
将开源概念应用于AI是很棘手的问题,因为模型不仅仅是软件。美国纽约州纽约市康奈尔大学康奈尔科技分校博士后研究员David Widder说:“对AI而言,代码并非核心。”模型的输出还取决于其学习的数据、塑造其推断结果的训练权重及其他因素。此外,Shah指出,“‘开源AI’一词在某些方面已失去了其原有的意义。”例如,开发ChatGPT、总部位于美国加利福尼亚州旧金山的公司OpenAI,已不再开放其技术。因此,科技巨头Elon Musk(OpenAI联合创始人之一)已对该公司提起了至少两起诉讼,指控其违背最初原则[19]。
若干公司和非营利组织已发布他们自称为开源的AI模型。例如,Meta公司于2024年4月推出了大语言模型Llama 3,与谷歌公司的Gemini和OpenAI公司的GPT-4o等限制更严的系统竞争[20]。其他公布了自称开源AI模型的公司包括法国巴黎的Mistral AI公司[21]和杭州的阿里巴巴公司[22]。非企业案例有GPT-J——这是一个面向AI研究人员的大语言模型,由非营利组织EleutherAI(美国华盛顿特区)发布[23]。但由于AI领域对开源AI缺乏共识定义,难以评估这些系统中究竟哪些(如果有的话)是真正开源的,或仅仅是如此宣传而已[24]。
2024年8月,位于美国加利福尼亚州西好莱坞、为开源软件定义制定标准且颇具影响力的非营利组织开放源代码促进会(Open Source Initiative,OSI),发布了开源AI的初步定义[2526]。根据该定义,开源AI模型应允许用户自由地将模型用于任何目的,为了任何目的对模型进行修改,并出于任何目的将模型与他人共享[25]。潜在用户必须能够完全访问其源代码和训练权重[25]。OSI定义并不要求公开训练数据集,其理由是AI模型的训练数据可能来自机密来源(如医疗记录)[26]。但是,模型的开发者必须提供关于训练数据的足够信息,“以便专业人员能够构建一个功能相当的系统”[25]。
几乎所有所谓的开源AI模型都不符合OSI的标准。例如,Meta公司的Llama 3不是开源AI是因为该公司没有公开模型的训练数据,并且要求一些潜在的大用户申请许可证才能运行该模型[2728]。不出所料,Meta公司对OSI的草案定义提出了异议[27]。
Dingemanse表示,尽管OSI提出的标准是一个良好的开端,但其中包含一个“关键漏洞”,即开发人员无须公开其完整的训练数据集。“这实际上是在纵容人们随意滥用数据集共享机制,这使得宣称数据可用性变得过于简单。”他说。在2024年6月发表的一项研究中,Dingemanse及其同事——同为拉德堡德大学语言与传播学助理教授的Andreas Liesenfeld——对包括ChatGPT和Llama 3的一个版本在内的40个文本生成AI模型进行了评估,评估依据是一套更广泛的14项开放性标准[18]。他们的一些规定(如模型代码和训练权重的公开发布)与OSI的相同。但他们增加了其他要求,以便使用户能够理解和运行该系统,例如,将其作为软件包提供以及发表一篇经过同行评审的论文来描述该模型。据他们排名,ChatGPT是最封闭的系统,分析中使用的Llama 3版本排在倒数第四位[18],而最开放的系统是非营利组织Ai2(美国西雅图)的OLMo 7B的一个版本[18]。Dingemanse表示,许多创建所谓开源AI模型的公司都存在“开放洗白”的现象——他们声称的透明度远高于实际能达到的水平。“如果想让欧盟《人工智能法案》中的豁免条款真正发挥促进创新的作用——这也是其被引入的初衷——那么这些条款应该努力奖励那些最开放和最具创新性的模型的开发者。”他表示。
Widder及其同事在2024年11月发表于《自然》期刊上的一篇文章中指出,即使是最开放的AI模型,也可能对用户保持一定程度的封闭性[29]。运行这些模型需要大量的计算资源,而这些资源通常只有在付出高昂成本的情况下才能获得。此外,用户若要自行开发开源模型也将面临各种障碍。构建这类模型需要拥有庞大的数据集用于模型训练,并且需要一个具备AI专业知识的研究团队。Shah指出,模型训练在完成后还需要进行微调,此时需要更多研究人员的参与。Widder表示,认为“开源AI以某种方式实现AI民主化”是一种误解。“如果你需要获取昂贵的资源才能来构建或使用名义上‘开放’的AI时,它实际上就没有那么开放了。”
一些研究人员认为,让模型更开放的一种方法是缩小其规模,从而降低用户对大型科技公司计算资源的依赖。Meta公司于2024年7月发布的Llama 3版本包含超过4000亿个参数。这些参数是系统在训练过程中学习到的变量,它们决定了系统的输出结果[3031]。但研究人员已开发出了多种规模小于其十分之一的模型,这些模型可以在笔记本电脑——甚至(某些情况下)在手机——上运行[32]。苹果和微软等公司已经推出了包含训练权重、规模更小的模型[3233]。2024年2月,Ai2发布了一系列符合OSI开源标准的小型模型[34]。Widder表示,尽管此类模型可供更多人使用,但仍未能实现广泛可及性。“小型模型通常仍是由资源雄厚的机构开发的。”
专家不仅对何为开源AI这一问题存在分歧,对于开源AI潜在危害的看法也不相同。像Harris这样的批评者主张,开源AI太容易被用于有害目的了[11]。Harris说,这些模型可被修改以制作儿童色情内容和生成深度伪造内容——经过篡改且具有欺骗性的视频和图像。滥用开源AI会对无辜民众造成非故意(或故意)的不良后果。恐怖分子可能会利用开源AI模型制造生物或化学武器。研究人员表示,AI模型设计新的、潜在有害蛋白质的能力尤其令人担忧[35]。Harris将AI比作核技术,并主张实施更严格的监管措施,如要求公司对其模型的不当使用承担法律责任,并要求使用者清晰标注AI生成内容以使观众知悉其为机器生成内容[11]。他认为,欧盟新法规是朝正确方向迈出的一步。“欧盟《人工智能法案》是当今世界上关于AI的最重要的立法举措。”
Shah则认为,封锁AI并非解决之道。他说,AI不同于核技术,“人们可以在笔记本电脑上构建它。这可不是那种能轻易被阻止的事物。”Widder指出,一些AI公司(如OpenAI)以安全为名支持监管,但他们的支持别有用心——为了保护自己的产品。“许多关于‘不安全’AI的言论,其实不过是构建监管壁垒的一层伪装。”
无论如何,监管机构已介入填补这一空白,而并未等待相关公司和AI专家就AI(无论开源与否)的潜在危险解决分歧。欧盟正在起草实践守则,以明确规定AI开发者必须遵循的具体规则[36],并且其他监管该技术的举措似乎也在加速推进。在美国,2024年有45个州考虑制定有关AI监管的法规,其中加利福尼亚州和科罗拉多州的立法机构批准了新的相关法律,但加利福尼亚州州长否决了该州的相关法案[37]。

参考文献

[1]

Offord C. Google DeepMind releases code behind its most advanced protein prediction program [Internet]. Washington, DC: Science; 2024 Nov 11 [cited 2024 Dec 1]. Available from: 10.1126/science.zvqdw12

[2]

O’Neill S. Machine learning turbocharges structural biology. Engineering 2022;12(5):9‒11. . 10.1016/j.eng.2022.03.007

[3]

Palmer C. AlphaFold wins Nobel Prize, gains functionality, drops open access. Engineering 2025;45:6‒8. . 10.1016/j.eng.2024.12.003

[4]

Callaway E. AI protein-prediction tool AlphaFold3 is now more open. Nature 2024;635:531‒2. . 10.1038/d41586-024-03708-4

[5]

Jung M. AI essentials: what are model weights? [Internet]. San Francisco: Medium; 2024 Oct 10 [cited 2024 Dec 1]. Available from:

[6]

Lohr S. An industry insider drives an open alternative to big tech’s A.I. [Internet]. New York City: The New York Times; 2023 Oct 19 [cited 2024 Dec 1]. Available from:

[7]

Brooks B. Open-source AI is good for us [Internet]. New York City: IEEE Spectrum; 2024 Feb 8 [cited 2024 Dec 1]. Available from:

[8]

Vaughan-Nichols S. A new White House report embraces open-source AI [Internet]. New York City: ZDNet; 2024 Jul 31 [cited 2024 Dec 1]. Available from:

[9]

Palmer C. European Union issues world’s first comprehensive regulations for artificial intelligence. Engineering 2024;38(7):5‒7. . 10.1016/j.eng.2024.06.006

[10]

Gibney E. Not all ‘open source’ AI models are actually Open: here’s a ranking [Internet]. London: Nature; 2024 Jun 19 [cited 2024 Dec 1]. Available from: 10.1038/d41586-024-02012-5

[11]

Harris DE. Open-source AI is uniquely dangerous [Internet]. New York City: IEEE Spectrum; 2024 Jan 12 [cited 2024 Dec 1]. Available from:

[12]

Wiggers K. We finally have an ‘official’ definition for open source AI [Internet]. San Francisco: TechCrunch; 2024 Oct 28 [cited 2024 Dec 1]. Available from:

[13]

Susnjara S, Smalley I. What is open source software? [Internet]. Armonk: IBM; [cited 2024 Dec 1]. Available from:

[14]

The Economist. A battle is raging over the definition of open-source AI [Internet]. London: The Economist; 2024 Nov 6 [cited 2024 Dec 1]. Available from:

[15]

The Economist. Why open-source AI models are good for the world [Internet]. London: The Economist; 2024 Nov 7 [cited 2024 Dec 1]. Available from:

[16]

National Telecommunications and Information Administration. Dual-use foundation models with widely available model weights [Internet]. Washington, DC: National Telecommunications and Information Administration; 2024 Jul [cited 2024 Dec 1]. Available from:

[17]

Chan K. Europe’s world-first AI rules get final approval from lawmakers. Here’s what happens next [Internet]. New York City: Associated Press; 2024 Mar 13 [cited 2024 Dec 1]. Available from:

[18]

Liesenfeld A, Dingemanse M. Rethinking open source generative AI: open-washing and the EU AI act. In: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency; 2024 Jun 3‒6; Rio de Janeiro, Brazil. New York city: Association for Computing Machinery; 2024. p. 1774‒87. . 10.1145/3630106.3659005

[19]

Acton M, Kinder T. Elon Musk files new Lawsuit against OpenAI and Sam Altman [Internet]. London: Financial Times; 2024 Aug 5 [cited 2024 Dec 1]. Available from:

[20]

Knight W. Meta’s open source Llama 3 is already nipping at OpenAI’s heels [Internet]. San Francisco: Wired; 2024 Apr 25 [cited 2024 Dec 1]. Available from:

[21]

Zeff M. Mistral’s large 2 is its answer to Meta and OpenAI’s latest models [Internet]. San Francisco: TechCrunch; 2024 Jul 24 [cited 2024 Dec 1]. Available from:

[22]

Yang Z. Why Chinese companies are betting on open-source AI [Internet]. Cambridge: MIT Technology Review; 2024 Jul 24 [cited 2024 Dec 1]. Available from:

[23]

VentureBeat. Open source NLP is fueling a new wave of startups [Internet]. San Francisco: VentureBeat; 2021 Dec 23 [cited 2024 Dec 1]. Available from:

[24]

Gent E. The tech industry can’t agree on what open-source AI means. That’s a Problem [Internet]. Cambridge: MIT Technology Review; 2024 Mar 25 [cited 2024 Dec 1]. Available from:

[25]

Open Source Initiative. The open source AI definition— 1.0 [Internet]. West Hollywood: Open Source Initiative; 2024 [cited 2024 Dec 1]. Available from:

[26]

Williams R, O’Donnell J. We finally have a definition for open-source AI [Internet]. Cambridge: MIT Technology Review; 2024 Aug 22 [cited 2024 Dec 1]. Available from:

[27]

Robison K. Open-source AI must reveal its training data, per new OSI definition [Internet]. New York City: The Verge; 2024 Oct 29 [cited 2024 Dec 1]. Available from:

[28]

Robison K. Meta’s new A.I. is an open-source breakthrough with fine print to freeze out competitors [Internet]. Sunnyvale: Yahoo Finance; 2023 Jul 18 [cited 2024 Dec 7]. Available from:

[29]

Widder DG, Whittaker M, West SM. Why ‘open’ AI systems are actually closed, and why this matters. Nature 2024;635:827‒33. . 10.1038/s41586-024-08141-1

[30]

TechCrunch. Meta releases its biggest ‘open’ AI model yet [Internet]. San Francisco: TechCrunch; 2024 Jul 23 [cited 2024 Dec 1]. Available from:

[31]

Peters J. AI is confusing—here’s your cheat sheet [Internet]. New York City: The Verge; 2024 Jul 22 [cited 2024 Dec 1]. Available from:

[32]

Hutson M. Forget ChatGPT: why researchers now run small AIs on their laptops. Nature 2024;633:728‒9. . 10.1038/d41586-024-02998-y

[33]

Agarwal S. Apple, microsoft shrink AI models to improve them [Internet]. New York City: IEEE Spectrum; 2024 Jun 20 [cited 2024 Dec 1]. Available from:

[34]

Wiggers K. AI2 open sources text-generating AI models—and the data used to train them [Internet]. San Francisco: TechCrunch; 2024 Feb 1 [cited 2024 Dec 1]. Available from:

[35]

Callaway E. Could AI-designed proteins be weaponized? Scientists lay out safety guidelines. Nature 2024;627:478. . 10.1038/d41586-024-00699-0

[36]

Coulter M. Tech giants push to dilute Europe’s AI Act [Internet]. London: Reuters; 2024 Sep 20 [cited 2024 Dec 1]. Available from:

[37]

Curry R. How AI regulation in California, Colorado and beyond could threaten U.S. tech dominance [Internet]. New York City: CNBC; 2024 Nov 21 [cited 2024 Dec 1]. Available from:

AI Summary AI Mindmap
PDF (1183KB)

5935

访问

0

被引

详细

导航
相关文章

AI思维导图

/