首页  >  媒体动态  >  媒体动态详情

中国科学院院士姚期智:AI安全治理不是缝缝补补

2024-07-09   中国信息化周报   阅读量:158

    7月4日至7日,2024世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)在上海召开。在人工智能前沿技术的治理挑战与应对措施论坛,中国科学院院士、清华大学人工智能学院院长、首位亚裔图灵奖得主姚期智出席并发表主旨报告《人工智能安全治理的研究走向》。他强调:超大型大模型的治理,需要尽快研发出规范。

   

    AI失控或将演变成生存危机

    前沿大模型面临信息智能、物理智能、生物智能等多种风险。对此,姚期智表示,大家关心AI安全治理的很大一部分原因,是ChatGPT带来的大模型的问题,信息安全有风险,大模型幻觉产生的错误信息会误导人类。同时,未来AI控制更多基础设施已成为一个不可改变的趋势,不安全的AI一旦失控,会演变成生存危机。

    AI常常是完整IT系统中的一个关键模块,如何保证AI不会影响其他部分的安全,以及如何确保人的利益?

    姚期智提出从技术和路径的维度进行分类治理。从短期来看,面对即将到来的风险,在工程和系统层面,利用传统的信息安全技术来控制与评估风险,对其进行分类。从长期来看,还需对人工智能核心理论进行更深层次的研究,理解AI内生的安全机理,深入研究大模型的对齐方法、可解释性的方法,积极探索与技术相匹配的治理条例,以及更有效的监督和管制措施。

    以大模型时代的数据安全为例。由于大模型训练涉及大量数据,其中可能包含敏感或隐私信息。因此存在一种风险,即通过特定的查询或攻击方法,可以从模型的输出中推断出训练数据中的隐私信息。

    姚期智介绍道,此前有学者对GPT-2设计了一个攻击方法,让gpt-2产生20万个文本,用算法从其中选出1800个文本,设计了6种不同算法,发现平均33.5%的文本是在训练中使用过的。

    AI安全治理不是缝缝补补

    有无方法得到大模型的答案,又不泄露用户的防盗系统信息呢?目前来看,保护用户隐私的研究尚处于较原始阶段,相比之下,较成熟的密码学发展了一组核心技术,如秘密分享、零知识证明、多方安全计算。姚期智提出,当前的重要方向是为大模型数据安全开发出一组核心技术。

    “从长远看,AI安全治理不能是发现一个问题,解决一个问题,而是要找到一劳永逸的办法。”

    姚期智分享了两个AI安全治理的大格局理论研究思路。一是让AI和人类利益对齐的通用人工智能(Beneficial AGI),在设计时要有数学规律,由博弈学角度,让机器人的一切决定以人的利益为本,并让机器人和人类保持交流,以时刻了解人的需求。二是可证明的安全通用人工智能(Provably Safe AGI),用proof checkers(校对检查器)来设计数学上绝对安全的AGI系统,即人类不直接和大模型接触,只和可证明安全的白盒子交流。

    当下AI安全治理的当务之急。

    第一,发展AI对齐、与响应的评估方案。大模型对齐方法包括监督微调与强化学习微调,目前存在多项挑战,包括方法的可扩展性,即如何减少人类标注,需要权衡安全保障对于模型的能力的影响,以及强化学习的泛化性还有很多不确定因素。如何评估大模型的安全性?姚期智提出,要构建和维护评估数据集,红队测试的方法和平台,以防系统化和鲁棒性不足。

    第二,结合中国的优势,建立符合国情的AI治理框架。姚期智谈到,我国在信息、数据安全、人工智能应用等方面具有独特优势,“我们有完善的实名制身份验证系统,也很多管控新科技风险的成功经验,同时,在数字化转型、数据要素化、数据资产入表等方面都做得很好。”结合中国的优势,姚期智表示可以建立符合中国国情的AI治理框架、简化中国AI治理,包括建立AI大模型的分级体系;建立ID的实体映射,所有智能机器都有可以实名找到ID;实现全产业链监控AI。

    “AI智能作为人工智能新潮流,安全治理日趋重要,超大型大模型的治理,需要尽快研发出规范。其次,从学术角度来讲,安全治理正成为学术交叉的新领域,涉及AI、密码学、政治、法律、企业、经济等,多领域需要合作。第三,构建AI安全系统的基础研究是AI安全治理非常重要的前沿方向。”姚期智说道。

    作者:于帆

    编辑:高珊珊

    监制:刘晶

姚期智
中国科学院院士
美国国家科学院院士