近期,AI界内突然兴起了一股开源浪潮。Meta承诺推动开源AI的发展,而马斯克则对OpenAI提起诉讼,指责其缺乏开源模型。在此背景下,众多科技领袖与企业纷纷为开源理念发声。然而,科技界面临着一个核心难题:即无法就“开源AI”这一概念达成共识。
从字面上理解,开源AI预示着未来任何人都能参与科技研发,这将加速创新、提升透明度,并赋予用户更多控制权。但截至目前,尚未有明确的定义来界定“开源AI”,科技巨头可能会根据自身需求扭曲这一概念,甚至可能利用它来巩固自身地位。
值得一提的是,OpenSourceInitiative(OSI)自1998年成立以来,一直推动着开源软件的发展。目前,OSI已集结了研发人员、律师、议员以及大科技公司代表,共计约70人,正努力明确“开源AI”的定义。
OSI高管StefanoMaffulli表示,尽管团队已就开源AI的基本原则达成了广泛共识,但在细节方面仍存在诸多分歧。考虑到复杂的竞争利益,要找到一套让所有人满意的解决方案,并确保大企业的积极参与,确实是一项艰巨的任务。
对于各大企业的态度,去年7月,Meta推出了开源的Llama2模型。MetaAI与开源事务法律副总顾问JonathanTorres表示:“我们支持OSI明确界定开源AI,并将积极参与定义工作,以维护全球开源社区的利益。”相比之下,OpenAI显得较为保守。在过去几年中,由于安全顾虑,OpenAI鲜少透露研发进度。其发言人表示:“只有在谨慎评估了利益与风险,包括误用和加速等问题后,我们才会考虑将强大的AI模型开放。”
目前,StabilityAI和AlephAlpha已提供部分开源模型,而HuggingFace则托管了一批免费使用的AI模型。谷歌的Gemini和PaLM2模型虽未开源,但Gemma模型可免费使用,其竞争对手正是Meta的Llama2。不过,关于这些模型是否能被称为“开源”,业界意见并不统一。无论是Llama2还是Gemma都需要授权,使用时受限,这与开源的原则相悖。因为真正的开源不应有任何限制。
Maffulli指出,开源的初衷是确保开发者能自由使用、研究、修改和分享软件,不受任何限制。但AI的运作方式有所不同,因此原本适用于软件的开源理念在AI领域并不完全适用。AI模型的修改涉及多个组件,包括训练模型、训练数据、处理数据的代码等,这些都比软件更复杂。
为了执行基本权利,我们需要明确界定基本自由和基本权利是什么。只有定义清晰且被大家尊重接受,才能降低合规成本、减少摩擦并促进知识分享。当前的主要障碍在于数据。大型科技企业仅发布了预训练模型,并未提供训练数据。如果没有数据,就难以修改和研究模型。因此,这些模型并不能算作真正的开源模型。
不过,也有人持不同意见。他们认为只需简单描述数据,研究人员就能深入调查模型,无需重新训练即可修改模型。预训练模型可通过微调进行调整。例如,Meta提供的Llama2已有开发者下载并修改它,然后分享自己的修改结果。该模型已拥有完整的生态系统。那么能否称其为半开放或半开源呢?
非盈利组织OpenFuture的研发人员ZuzannaWarso认为从技术角度看没有原始训练数据研发人员就无法修改模型但如果没有训练数据就真的无法自由研究模型吗?这个争论点也值得探讨。Warso强调:“在整个流程中训练数据是关键组成部分。如果我们真的关心开放也应该关心数据的开放度。”
AINowInstitute联合执行董事SarahMyersWest去年曾发表一篇论文指出许多开源AI项目缺乏开放性但她同时也指出训练尖端AI需要大量数据和计算力苛刻的要求限制了小玩家的参与无论模型的开源程度如何都受到限制。
通过开源人们希望达成怎样的目标?对此大家看法不一。MyersWest表示:“是为了安全?学术研究?还是为了增强竞争?我们必须对目标有更清晰的认识并考虑系统开放到什么程度会对目标追求产生怎样的影响。”
OSI在定义草案中认为开源能带来自主和透明等关键收益但同时也提到了“超出范围的问题”如伦理、信任和责任等。Maffulli解释称从历史上看开源社区的关注重点是减少软件分享摩擦而不是陷入无限争论如应如何使用软件等。
有人不认同Maffulli的观点认为技术是中性而伦理问题不可控这些有争议的问题本就重要之所以拒绝讨论是为了避免松散的开源社区分崩离析。除了OSI还有RAIL等其他组织也在为开源AI指明方向例如通过开源授权的方式限制模型特殊使用方式等。Tidelift的联合创始人LuisVilla认为考虑到AI与常规软件有所不同探索不同程度的开放是不可避免的这样做对整个行业也可能是有益的但是各种开放授权互不兼容可能会影响协作除非协作能让开源走向成功否则还有其他负作用如降低AI创新度和透明度以及提升小玩家参与难度等。因此社区应该围绕单一标准进行授权合并否则就会各行其是对于OSI的方针政策LuisVilla也不是非常认可当初OSI提出开源软件定义时时间充裕外部审查也很少而如今的AI环境已大不相同有大企业和监管者干涉在无法给出明确定义的情况下其他人可能会根据自己的需求提出各自的定义LuisVilla称:“它们会填补真空扎克伯格可能会告诉我们所谓的开源AI是什么他讲的话影响肯定很大。”