首页 > 媒体动态 > 媒体动态详情

中国科学院院士姚期智：AI安全治理不是缝缝补补

2024-07-09 中国信息化周报阅读量：158

7月4日至7日，2024世界人工智能大会暨人工智能全球治理高级别会议（简称“WAIC 2024”）在上海召开。在人工智能前沿技术的治理挑战与应对措施论坛，中国科学院院士、清华大学人工智能学院院长、首位亚裔图灵奖得主姚期智出席并发表主旨报告《人工智能安全治理的研究走向》。他强调：超大型大模型的治理，需要尽快研发出规范。

AI失控或将演变成生存危机

前沿大模型面临信息智能、物理智能、生物智能等多种风险。对此，姚期智表示，大家关心AI安全治理的很大一部分原因，是ChatGPT带来的大模型的问题，信息安全有风险，大模型幻觉产生的错误信息会误导人类。同时，未来AI控制更多基础设施已成为一个不可改变的趋势，不安全的AI一旦失控，会演变成生存危机。

AI常常是完整IT系统中的一个关键模块，如何保证AI不会影响其他部分的安全，以及如何确保人的利益？

姚期智提出从技术和路径的维度进行分类治理。从短期来看，面对即将到来的风险，在工程和系统层面，利用传统的信息安全技术来控制与评估风险，对其进行分类。从长期来看，还需对人工智能核心理论进行更深层次的研究，理解AI内生的安全机理，深入研究大模型的对齐方法、可解释性的方法，积极探索与技术相匹配的治理条例，以及更有效的监督和管制措施。

以大模型时代的数据安全为例。由于大模型训练涉及大量数据，其中可能包含敏感或隐私信息。因此存在一种风险，即通过特定的查询或攻击方法，可以从模型的输出中推断出训练数据中的隐私信息。

姚期智介绍道，此前有学者对GPT-2设计了一个攻击方法，让gpt-2产生20万个文本，用算法从其中选出1800个文本，设计了6种不同算法，发现平均33.5%的文本是在训练中使用过的。

AI安全治理不是缝缝补补

有无方法得到大模型的答案，又不泄露用户的防盗系统信息呢？目前来看，保护用户隐私的研究尚处于较原始阶段，相比之下，较成熟的密码学发展了一组核心技术，如秘密分享、零知识证明、多方安全计算。姚期智提出，当前的重要方向是为大模型数据安全开发出一组核心技术。

“从长远看，AI安全治理不能是发现一个问题，解决一个问题，而是要找到一劳永逸的办法。”

姚期智分享了两个AI安全治理的大格局理论研究思路。一是让AI和人类利益对齐的通用人工智能（Beneficial AGI），在设计时要有数学规律，由博弈学角度，让机器人的一切决定以人的利益为本，并让机器人和人类保持交流，以时刻了解人的需求。二是可证明的安全通用人工智能（Provably Safe AGI），用proof checkers（校对检查器）来设计数学上绝对安全的AGI系统，即人类不直接和大模型接触，只和可证明安全的白盒子交流。

当下AI安全治理的当务之急。

第一，发展AI对齐、与响应的评估方案。大模型对齐方法包括监督微调与强化学习微调，目前存在多项挑战，包括方法的可扩展性，即如何减少人类标注，需要权衡安全保障对于模型的能力的影响，以及强化学习的泛化性还有很多不确定因素。如何评估大模型的安全性？姚期智提出，要构建和维护评估数据集，红队测试的方法和平台，以防系统化和鲁棒性不足。

第二，结合中国的优势，建立符合国情的AI治理框架。姚期智谈到，我国在信息、数据安全、人工智能应用等方面具有独特优势，“我们有完善的实名制身份验证系统，也很多管控新科技风险的成功经验，同时，在数字化转型、数据要素化、数据资产入表等方面都做得很好。”结合中国的优势，姚期智表示可以建立符合中国国情的AI治理框架、简化中国AI治理，包括建立AI大模型的分级体系；建立ID的实体映射，所有智能机器都有可以实名找到ID；实现全产业链监控AI。

“AI智能作为人工智能新潮流，安全治理日趋重要，超大型大模型的治理，需要尽快研发出规范。其次，从学术角度来讲，安全治理正成为学术交叉的新领域，涉及AI、密码学、政治、法律、企业、经济等，多领域需要合作。第三，构建AI安全系统的基础研究是AI安全治理非常重要的前沿方向。”姚期智说道。

作者：于帆

编辑：高珊珊

监制：刘晶

原文链接>>

中国科学院院士姚期智：AI安全治理不是缝缝补补

2024-07-09 中国信息化周报阅读量：158

姚期智

中国科学院院士

美国国家科学院院士

相关动态

2025-04-26

2025-03-23

2024-12-14

2024-10-21

2024-09-18

2024-09-12

中国科学院院士姚期智：AI安全治理不是缝缝补补

2024-07-09 中国信息化周报 阅读量：158

姚期智

中国科学院院士

美国国家科学院院士

相关动态

2025-04-26

2025-03-23

2024-12-14

2024-10-21

2024-09-18

2024-09-12

2024-07-09 中国信息化周报阅读量：158