您现在的位置是：首页 > 人工智能 >

中国科学院院士姚期智 AI安全治理不是缝缝补补

2024-07-24 16:28:38作者：于帆来源：

摘要近日，2024世界人工智能大会暨人工智能全球治理高级别会议在上海召开。开幕当天，由清华大学人工智能国际治理研究院主办的人工智能前沿技术 ...

近日，2024世界人工智能大会暨人工智能全球治理高级别会议在上海召开。开幕当天，由清华大学人工智能国际治理研究院主办的“人工智能前沿技术的治理挑战与应对措施论坛”同期举行。中国科学院院士、清华大学人工智能学院院长、上海期智研究院院长、首位亚裔图灵奖得主姚期智出席并发表主旨报告《人工智能安全治理的研究走向》。他强调：AI安全治理不是缝缝补补，超大型大模型的治理，需要尽快研发出规范。

AI失控或演变成生存危机
前沿大模型面临信息智能、物理智能、生物智能等多种风险。对此，姚期智表示，大家关心AI安全治理的很大一部分原因，是ChatGPT带来的大模型的问题，信息安全有风险，大模型幻觉产生的错误信息会误导人类。同时，未来AI控制更多基础设施已成为一个不可改变的趋势，不安全的AI一旦失控，会演变成生存危机。
AI常常是完整IT系统中的一个关键模块，如何保证AI不会影响其他部分的安全，以及如何确保人的利益？
姚期智提出从技术和路径的维度进行分类治理。从短期来看，面对即将到来的风险，在工程和系统层面，利用传统的信息安全技术来控制与评估风险，对其进行分类。从长期来看，还需对人工智能核心理论进行更深层次的研究，理解AI内生的安全机理，深入研究大模型的对齐方法、可解释性的方法，积极探索与技术相匹配的治理条例，以及更有效的监督和管制措施。
以大模型时代的数据安全为例。由于大模型训练涉及大量数据，其中可能包含敏感或隐私信息。因此存在一种风险，即通过特定的查询或攻击方法，可以从模型的输出中推断出训练数据中的隐私信息。
姚期智介绍道，此前有学者对GPT-2设计了一个攻击方法，让GPT-2产生20万个文本，用算法从其中选出1800个文本，使用6种算法，发现平均33.5%的文本是在训练中使用过的。
AI安全治理不是缝缝补补
“通用人工智能的能力快速增长，人类是否还有能力管控它？”目前来看，保护用户隐私的研究尚处于较原始阶段，相比之下，较成熟的密码学发展了一组核心技术，如秘密分享、零知识证明、多方安全计算。
姚期智提出，当前的重要方向是为大模型数据安全开发出一组核心技术。“从长远看，AI安全治理不能是发现一个问题，解决一个问题，而是要找到一劳永逸的办法。”姚期智说道。他分享了两个AI安全治理的大格局理论研究思路。
一是让AI和人类利益对齐的通用人工智能（BeneficialAGI），在设计时要有数学规律，从博弈学角度，让机器人的一切决定以人的利益为本，并让机器人和人类保持交流，以时刻了解人的需求。
二是可证明的安全通用人工智能（Provably Safe AGI），用proof checkers（校对检查器）来设计数学上绝对安全的AGI（通用人工智能）系统，即人类不直接和大模型接触，只和可证明安全的白盒子交流。
“在未来，机器很可能比最油嘴滑舌的人还要厉害，能够学习到所有人能想到的招数。”姚期智谈道，因此，如果机器在未来真的发展到非常强大的地步，我们必须严格限制机器，只通过外面经过验证的“白盒子”和它交流。
当下AI安全治理有哪些当务之急？
第一，发展AI对齐与响应的评估方案。大模型对齐方法包括监督微调与强化学习微调，目前存在多项挑战，包括方法的可扩展性，即如何减少人类标注，需要权衡安全保障对于模型的能力的影响，以及强化学习的泛化性还有很多不确定因素。
如何评估大模型的安全性？姚期智提出，要构建和维护评估数据集，建立红队测试（红队指对模型进行渗透测试的攻击方。在AI的“红队测试”中，AI作为防守方，而红队成员则需要模拟现实世界中可能存在的对手及其工具、策略和过程，对AI进攻，以识别风险并改进系统的整体安全状态）的平台。
第二，结合中国的优势，建立符合国情的AI治理框架。姚期智谈到，我国在信息、数据安全、人工智能应用等方面具有独特优势，“我们有完善的实名制身份验证系统，也很多管控新科技风险的成功经验，同时，在数字化转型、数据要素化、数据资产入表等方面都做得很好。”
AI智能作为人工智能新潮流，安全治理日趋重要。
“第一，超大型大模型的治理，需要尽快研发出规范。其次，从学术角度来讲，安全治理正成为学术交叉的新领域，涉及AI、密码学、政治、法律、企业、经济等，多领域需要合作。第三，构建AI安全系统的基础研究是AI安全治理非常重要的前沿方向。”姚期智说道。

(本文不涉密)
责任编辑：于帆

上一篇：中国工程院院士张亚勤：20年内将实现通用人工智能

下一篇：我国人工智能产业将新制定50项以上国家标准和行业标准