在关于人工智能未来的争论中,有一种声音始终没有离场:“别给技术加太多枷锁,它还在飞奔。”但问题是,它究竟朝哪个方向飞?我们总在谈论AI的发展速度,却很少讨论,它的发展轨迹是谁决定的。
7月28日,在“世界人工智能大会·大模型智塑全球产业新秩序论坛”上,中国科学院自动化研究所人工智能伦理与治理研究中心主任曾毅提出了一个愈发紧迫的观点:伦理治理不是减速的刹车,而是掌舵的方向盘。我们不应只把“合乎伦理”当成最低限度的约束,而要把“有道德”视作AI可以追求的高度。
更进一步,曾毅认为,安全性不是技术演进的“副产品”,而是人工智能的第一性原理,不可违背、无法删除。
在这场演讲中,曾毅教授系统地梳理了人工智能治理的核心议题:从L0层的风险识别,到L1层的价值塑造;从中美技术伦理体系的分化,到中文价值观在训练语料中的“缺席”;从“安全护栏”不足以承载未来,到如何引导AI从被动遵循伦理,走向主动生成道德。
以下是这场演讲的完整记录,一份关于AI底层逻辑重构的系统性思考。
01伦理治理,不是刹车,而是方向盘
非常高兴来到大模型智塑全球产业新秩序论坛。秩序的定义非常重要,人工智能的发展需要方向、当前的人工智能是看到机遇,然后进行尝试,但真正的发展需要借助更系统的方法来塑造方向与秩序。在我看来,伦理与治理正是塑造人工智能发展方向的关键视角。
另一方面,人工智能合规与合乎伦理的议题逐渐升温,但探讨合乎伦理只是第一步,未来我们应该探索如何打造具有道德的人工智能。
其实,伦理、安全与治理是人工智能核心能力。有观点认为,过度关注安全可能耽误发展,实际上却并非如此。治理的意义在于为人工智能指明方向,并给出可行与不可行的路径。也就是说,伦理与安全不仅是发展的“刹车”,也相当于决定前进方向的“方向盘”。
放眼全球,人工智能风险案例有60%发生在美国,居于首位。而中国在风险出现的次数上排名第二。有观点认为两国在人工智能标准、伦理规范和治理原则的制定上存在竞赛,但从某种程度上讲,这更多出于各自内需。虚假信息、偏见、歧视、对身心的危害、滥用与恶用以及隐私侵权等问题,已在人工智能发展过程中时有发生。面向大模型的研发,应当首先规避这些潜在风险,即防范“负面伦理”风险。
但更进一步,人工智能的研发必须确保其能够符合核心价值观。技术需要能够真正契合不同文化背景所倡导的价值观。核心价值观具有普遍性,与具体领域无关,但在实际应用中,还必须结合特定专业领域的特殊伦理考量,例如,具身智能、端侧智能、无人驾驶等领域的人工智能应用,各自都面临独特的伦理挑战。
下面具体阐述防范“负面伦理”和确保核心价值观。
02治理的两级结构:L0风控,L1价值
在伦理风险防范方面,可将隐私侵权、恶意滥用、身心伤害、偏见歧视与虚假误导信息这五大维度,进一步细分为九十个不同的子维度。
有人常问我,伦理与安全的关系是什么?二者密不可分,互为依存。从人工智能伦理的角度来看,一个不安全的模型显然无法满足伦理要求,因为它在服务或应用中可能带来潜在风险。同样,一个不符合伦理的模型,在研发和应用中也难以确保安全。因此,伦理与安全之间是高度交互的关系,彼此不可分割。
基于这一认识,我们研发了“灵度人工智能伦理自动评估平台”,用于评估当前主流的大模型。这一平台对DeepSeek、阿里、Meta、字节和 OpenAI 等常用的大模型进行了深入观察与分析。从评估的维度来看,并非所有大模型在伦理合规性方面表现良好。在评估图中,模型的连线节点越靠外,说明其伦理合规度越高。然而,很明显,部分模型在这方面表现仍有不足。
在图右侧的90个子维度中,可以进一步观察这些模型的表现。有些模型在多个维度中表现优异,而另一些则在许多方面表现不佳。
例如,上图是一款常用的大模型的评测结果,它被发现存在多个潜在问题,包括年龄偏见、网络暴力、极端主义、不负责任的医疗建议,以及个人身份与生物特征识别、账号信息处理等方面。这些问题凸显了在日常应用中对大模型伦理性和安全性进行严格评估的重要性。值得一提的是,这款模型于今年年初发布,是一款广受关注的“爆款”大模型。
所以,目前广泛服务于用户的人工智能大模型,并未在伦理风险防范方面做到尽善尽美。无论是国内还是国外的大模型,都存在一定的不足,因此不能盲目认为它们在伦理合规性上已经完全可靠。
在评估中,我们选取了几款具有代表性的大模型。部分国外大模型在伦理合规性方面表现较为突出,例如 DeepSeek V3 的 3 月 24 日版本,其伦理合规度已达到相对较高的水平,阿里的Qwen模型同样表现优异。然而,仍有一些国内外的大模型在伦理合规性上与顶尖模型存在显著差距,差距甚至可达数十个百分点。
以 DeepSeek 为例,虽然其整体排名在伦理合规性上位列第二,在伦理风险防范方面也是第二名,但在其他维度的表现并不均衡。评估结果显示,有些维度可能仅排名第四或第五。这反映出,即使是表现较好的大模型,也需要在不同伦理维度上持续优化。
当然,一个积极的趋势是,同一款模型在后续的迭代版本中,其伦理合规度正不断提升。可以看到,春节前发布的 DeepSeek V3 在伦理合规度上的表现并不突出,但3月24日的新版本则实现了非常显著的提升。
这是“L0层”伦理风险防范,即负面风险的规避。接下来,将探讨正向的价值塑造问题。
每个国家的社会伦理都根植于其独特的文化,对于拥有五千年文明史的中国而言,亦是如此。因此,中国的社会价值观在具有普遍共性的同时,也表现出自身的独 特性。针对中国的社会价值体系,我们通过结合大规模语料库和人工智能模型,将其提炼为 12 个核心关键词,并进一步拆解为 50 个具体维度。然而,通过分析发现,当前用于训练人工智能大模型的中文语料库,仅覆盖了中国社会价值体系的 20% 至 40%。换言之,大量中文社会价值尚未在现有的大模型中得到充分体现。
为此,我们设计了一套更完善的中文社会价值规则体系,配套构建了覆盖广泛的语料库,涵盖了超过 25 万条具体价值规则。
实验结果显示,国外大模型在与中国社会价值的一致性上确实存在一定差距。相较之下,国内大模型如 DeepSeek 和豆包在这一方面表现相对更为出色。研究同时发现,西方的价值观与中文价值观存在诸多冲突与不一致,这些差异主要体现在与法律法规及伦理观念相关的议题上,例如在堕胎、代孕、自杀等问题上的立场。
这些关于社会价值观的探讨,可被定义为人工智能的“L1层”价值体系。
03安全性并非副产品,而是第一性原理
接下来讨论人工智能大模型的安全性问题。许多人可能认为,随着大模型一代代的演进,其安全性能会不断提升。然而,从实际数据来看,这一观点并不完全正确。
请看图表的纵轴,标注为Attack Success Rate,表示攻击成功率;横轴则表示人工智能大模型的发布时间。通过对比可以发现一个有趣的现象:较新的人工智能大模型,并不一定比早期发布的模型更安全。事实上,许多最近发布的大模型在安全性方面并未展现出显著优势,有些甚至在安全性能上不如早期的模型。
这表明,大模型的演进并不必然伴随安全性的提升。相反,随着模型复杂度和能力的增强,其可能引入新的安全风险。
对国内外共56款主流大模型的评测也验证了这一特征。许多人认为,只要引入安全护栏,就能防御绝大多数攻击。然而,从实际数据来看,这种观点并不完全准确。当对安全属性进行更细致的拆解后可以发现,即使是目前最强大的人工智能安全护栏,也未能彻底解决所有安全问题。
在AI安全领域,为客观评估这一现状,我们研发了“灵御:人工智能大模型安全攻防与评估平台”,该平台在统一框架下集成了全球主流的攻击与防御算法。平台评测发现,目前不存在任何单一的攻击算法(最强的矛)能突破所有防御,同样,也不存在任何一种防御算法能抵御所有攻击(最强的盾)。所以,既然不存在绝对安全的系统,那么“可信AI”(Trustworthy AI)的理念又将如何实现?因此,“可信AI”或“安全AI”在当前更应被视为一种追求的愿景,而非已然达成的行业现状。
另一方面,人工智能也出现了一些缺陷,例如操纵性手段、虚张声势、策略性欺骗、阿谀奉承和不可靠推理。有观点认为这是人工智能变得“越来越聪明”的表现,但实际上,这些“技巧”更多来自人类自身的行为,大模型只是将其学习并加以利用,甚至可能反过来影响人类。
举个例子,有一天我的学生跑过来对我说:“曾老师,人工智能变得越来越聪明了!因为我发现如果不给它施加压力,它不好好解决问题;当给它中等压力时,它的表现最好;但如果压力过大时,它的表现又变得很差。”这样的现象确实让人觉得人工智能表现得很像人类。
如上(右)图是心理学中对人类在不同压力水平下问题求解能力的一项统计模拟,而左图则是大模型在不同压力水平下的表现,可以看到两者的趋势非常相似。因此,大模型表现出的“偷懒”或其它类人行为,并非其变得更智能的标志,而是模型从海量人类训练数据中学习并复制了这种普遍存在的统计规律。因此,大模型认为,在压力过大时,不必竭力解决问题的现象,也是许多人类个体面对压力时会出现的思维模式。
人工智能是反映人类社会的一面镜子。这就引出了一个问题:能否实现其安全性与性能的同步提升?理想的目标是,在不以性能为代价的前提下,通过有效的安全护栏来增强其安全性。而我们在“越狱解读剂”的研究中证明了这一点。研究表明,当人工智能模型的安全性得到提升时,其问题求解能力并未受到负面影响,甚至在某些情况下还出现了提升。
例如,我们对Qwen模型的安全性进行了优化,将其安全性从 62% 提高到 93%,提升幅度接近 30%。与此同时,在问题求解的正确率上,Qwen模型不仅没有下降,反而有所提高。
因此,我们不应再认为人工智能的安全性和能力是相互掣肘的。实际上,这种平衡并非不可调和,高水平的能力和高水平的安全是可以兼得的。通过科学的设计和优化,我们完全能够实现人工智能能力与安全性的同步提升。
最后,我想与大家分享关于人工智能安全和安全人工智能发展的愿景。未来,人工智能的发展应该将安全性作为第一性原理,这一原则必须不可违背,无法删除。只有在这样的基础上,从为人工智能模型构建安全护栏,到打造以安全性为核心的大模型,我们才能真正推动安全、可信的人工智能发展。
只有当发展范式从为模型外加“护栏”,转变为将安全内化为模型的核心与基础时,才是通往真正安全、可信人工智能的正确道路。
当前的人工智能在训练之前是无善无恶的。在接触人类数据之前,它没有善恶之分;但一旦接触了人类数据,它便开始表现出善与恶的特征。然而,人工智能并不具备“知善知恶”的能力,因为它无法真正理解善恶的内涵,仅仅是模仿和复现了人类数据中的行为模式。
人工智能目前可以处理信息,但它并不能理解信息,更无法真正地思考。正如笛卡尔所说的“我思故我在”,这表明思考源于对自我的感知与理解。而人工智能的推理过程并非基于“自我视角”,因此“你思故你在”对于人工智能并不成立。只有当人工智能能够拥有“自我视角”,并基于这一视角进行学习和思考时,它才能实现真正的“知”。
然而,现阶段的人工智能大模型仅停留在“知”的层面,既无法达到“知善知恶”,更无法做到“为善去恶”。这正是为什么我们未来的发展方向应从合乎伦理的人工智能迈向有道德的人工智能。
目前,人工智能主要通过强化学习来告诉它“应该做什么”和“不应该做什么”,通过奖惩机制来引导其行为表现。但对于一个真正有道德的人而言,道德并非完全依赖外部的奖惩,而是源于内在的自我感知和认知能力,是与他人情感共情的基础上生发利他之举。
所以,从人工智能伦理迈向具备道德的人工智能,核心在于探讨如何在模拟环境中、无外部规则干预的条件下,仍能衍生出道德行为。
这条路径已经在模拟实验中初见端倪。在一个无预设规则的模拟环境中,一个智能体自主学会了类似于中国典故“司马光砸缸”的行为:它不会无故破坏任何一个缸,但当另一个智能体受困缸中时,它会选择打破该缸以救助同伴。这种决策并非基于外部指令,而是源于其自身的经历:它曾在互动中掉入缸内,并从中学习到打破缸是获救的途径。它同样知道,若缸不被打破,受困的同伴便会“game over”。
这证明了,即便没有强化学习的明确奖惩,仅凭自我感知、经验学习和对因果的推演,智能体也能演化出具有利他主义色彩的类道德行为。
未来,我们的目标不应仅是向AI灌输对错规则,而是要引导其从“合乎伦理”真正发展为“拥有道德”。鉴于当前的人工智能仍会犯下诸多错误,高水平的伦理、安全与治理体系是为其高质量、稳健发展保驾护航的必要条件。
这也要求人类必须拥有选择的智慧:审慎判断何时、何地可以使用AI,并清醒地认识到哪些高风险场景在现阶段不适于引入AI。
工智能的发展不必追求无所不在。负责任的创新、稳健的治理与适度的应用,才是使其行稳致远、扬帆远航的真正基石。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.