您现在的位置是:首页 > 人工智能 >
中国科学院院士姚期智 AI安全治理不是缝缝补补
2024-07-24 16:28:38作者:于帆来源:
摘要近日,2024世界人工智能大会暨人工智能全球治理高级别会议在上海召开。开幕当天,由清华大学人工智能国际治理研究院主办的人工智能前沿技术 ...
近日,2024世界人工智能大会暨人工智能全球治理高级别会议在上海召开。开幕当天,由清华大学人工智能国际治理研究院主办的“人工智能前沿技术的治理挑战与应对措施论坛”同期举行。中国科学院院士、清华大学人工智能学院院长、上海期智研究院院长、首位亚裔图灵奖得主姚期智出席并发表主旨报告《人工智能安全治理的研究走向》。他强调:AI安全治理不是缝缝补补,超大型大模型的治理,需要尽快研发出规范。
AI失控或演变成生存危机
前沿大模型面临信息智能、物理智能、生物智能等多种风险。对此,姚期智表示,大家关心AI安全治理的很大一部分原因,是ChatGPT带来的大模型的问题,信息安全有风险,大模型幻觉产生的错误信息会误导人类。同时,未来AI控制更多基础设施已成为一个不可改变的趋势,不安全的AI一旦失控,会演变成生存危机。
AI常常是完整IT系统中的一个关键模块,如何保证AI不会影响其他部分的安全,以及如何确保人的利益?
姚期智提出从技术和路径的维度进行分类治理。从短期来看,面对即将到来的风险,在工程和系统层面,利用传统的信息安全技术来控制与评估风险,对其进行分类。从长期来看,还需对人工智能核心理论进行更深层次的研究,理解AI内生的安全机理,深入研究大模型的对齐方法、可解释性的方法,积极探索与技术相匹配的治理条例,以及更有效的监督和管制措施。
以大模型时代的数据安全为例。由于大模型训练涉及大量数据,其中可能包含敏感或隐私信息。因此存在一种风险,即通过特定的查询或攻击方法,可以从模型的输出中推断出训练数据中的隐私信息。
姚期智介绍道,此前有学者对GPT-2设计了一个攻击方法,让GPT-2产生20万个文本,用算法从其中选出1800个文本,使用6种算法,发现平均33.5%的文本是在训练中使用过的。
AI安全治理不是缝缝补补
“通用人工智能的能力快速增长,人类是否还有能力管控它?”目前来看,保护用户隐私的研究尚处于较原始阶段,相比之下,较成熟的密码学发展了一组核心技术,如秘密分享、零知识证明、多方安全计算。
姚期智提出,当前的重要方向是为大模型数据安全开发出一组核心技术。“从长远看,AI安全治理不能是发现一个问题,解决一个问题,而是要找到一劳永逸的办法。”姚期智说道。他分享了两个AI安全治理的大格局理论研究思路。
一是让AI和人类利益对齐的通用人工智能(BeneficialAGI),在设计时要有数学规律,从博弈学角度,让机器人的一切决定以人的利益为本,并让机器人和人类保持交流,以时刻了解人的需求。
二是可证明的安全通用人工智能(Provably Safe AGI),用proof checkers(校对检查器)来设计数学上绝对安全的AGI(通用人工智能)系统,即人类不直接和大模型接触,只和可证明安全的白盒子交流。
“在未来,机器很可能比最油嘴滑舌的人还要厉害,能够学习到所有人能想到的招数。”姚期智谈道,因此,如果机器在未来真的发展到非常强大的地步,我们必须严格限制机器,只通过外面经过验证的“白盒子”和它交流。
当下AI安全治理有哪些当务之急?
第一,发展AI对齐与响应的评估方案。大模型对齐方法包括监督微调与强化学习微调,目前存在多项挑战,包括方法的可扩展性,即如何减少人类标注,需要权衡安全保障对于模型的能力的影响,以及强化学习的泛化性还有很多不确定因素。
如何评估大模型的安全性?姚期智提出,要构建和维护评估数据集,建立红队测试(红队指对模型进行渗透测试的攻击方。在AI的“红队测试”中,AI作为防守方,而红队成员则需要模拟现实世界中可能存在的对手及其工具、策略和过程,对AI进攻,以识别风险并改进系统的整体安全状态)的平台。
第二,结合中国的优势,建立符合国情的AI治理框架。姚期智谈到,我国在信息、数据安全、人工智能应用等方面具有独特优势,“我们有完善的实名制身份验证系统,也很多管控新科技风险的成功经验,同时,在数字化转型、数据要素化、数据资产入表等方面都做得很好。”
AI智能作为人工智能新潮流,安全治理日趋重要。
“第一,超大型大模型的治理,需要尽快研发出规范。其次,从学术角度来讲,安全治理正成为学术交叉的新领域,涉及AI、密码学、政治、法律、企业、经济等,多领域需要合作。第三,构建AI安全系统的基础研究是AI安全治理非常重要的前沿方向。”姚期智说道。
(本文不涉密)
责任编辑:于帆
AI失控或演变成生存危机
前沿大模型面临信息智能、物理智能、生物智能等多种风险。对此,姚期智表示,大家关心AI安全治理的很大一部分原因,是ChatGPT带来的大模型的问题,信息安全有风险,大模型幻觉产生的错误信息会误导人类。同时,未来AI控制更多基础设施已成为一个不可改变的趋势,不安全的AI一旦失控,会演变成生存危机。
AI常常是完整IT系统中的一个关键模块,如何保证AI不会影响其他部分的安全,以及如何确保人的利益?
姚期智提出从技术和路径的维度进行分类治理。从短期来看,面对即将到来的风险,在工程和系统层面,利用传统的信息安全技术来控制与评估风险,对其进行分类。从长期来看,还需对人工智能核心理论进行更深层次的研究,理解AI内生的安全机理,深入研究大模型的对齐方法、可解释性的方法,积极探索与技术相匹配的治理条例,以及更有效的监督和管制措施。
以大模型时代的数据安全为例。由于大模型训练涉及大量数据,其中可能包含敏感或隐私信息。因此存在一种风险,即通过特定的查询或攻击方法,可以从模型的输出中推断出训练数据中的隐私信息。
姚期智介绍道,此前有学者对GPT-2设计了一个攻击方法,让GPT-2产生20万个文本,用算法从其中选出1800个文本,使用6种算法,发现平均33.5%的文本是在训练中使用过的。
AI安全治理不是缝缝补补
“通用人工智能的能力快速增长,人类是否还有能力管控它?”目前来看,保护用户隐私的研究尚处于较原始阶段,相比之下,较成熟的密码学发展了一组核心技术,如秘密分享、零知识证明、多方安全计算。
姚期智提出,当前的重要方向是为大模型数据安全开发出一组核心技术。“从长远看,AI安全治理不能是发现一个问题,解决一个问题,而是要找到一劳永逸的办法。”姚期智说道。他分享了两个AI安全治理的大格局理论研究思路。
一是让AI和人类利益对齐的通用人工智能(BeneficialAGI),在设计时要有数学规律,从博弈学角度,让机器人的一切决定以人的利益为本,并让机器人和人类保持交流,以时刻了解人的需求。
二是可证明的安全通用人工智能(Provably Safe AGI),用proof checkers(校对检查器)来设计数学上绝对安全的AGI(通用人工智能)系统,即人类不直接和大模型接触,只和可证明安全的白盒子交流。
“在未来,机器很可能比最油嘴滑舌的人还要厉害,能够学习到所有人能想到的招数。”姚期智谈道,因此,如果机器在未来真的发展到非常强大的地步,我们必须严格限制机器,只通过外面经过验证的“白盒子”和它交流。
当下AI安全治理有哪些当务之急?
第一,发展AI对齐与响应的评估方案。大模型对齐方法包括监督微调与强化学习微调,目前存在多项挑战,包括方法的可扩展性,即如何减少人类标注,需要权衡安全保障对于模型的能力的影响,以及强化学习的泛化性还有很多不确定因素。
如何评估大模型的安全性?姚期智提出,要构建和维护评估数据集,建立红队测试(红队指对模型进行渗透测试的攻击方。在AI的“红队测试”中,AI作为防守方,而红队成员则需要模拟现实世界中可能存在的对手及其工具、策略和过程,对AI进攻,以识别风险并改进系统的整体安全状态)的平台。
第二,结合中国的优势,建立符合国情的AI治理框架。姚期智谈到,我国在信息、数据安全、人工智能应用等方面具有独特优势,“我们有完善的实名制身份验证系统,也很多管控新科技风险的成功经验,同时,在数字化转型、数据要素化、数据资产入表等方面都做得很好。”
AI智能作为人工智能新潮流,安全治理日趋重要。
“第一,超大型大模型的治理,需要尽快研发出规范。其次,从学术角度来讲,安全治理正成为学术交叉的新领域,涉及AI、密码学、政治、法律、企业、经济等,多领域需要合作。第三,构建AI安全系统的基础研究是AI安全治理非常重要的前沿方向。”姚期智说道。
(本文不涉密)
责任编辑:于帆