《人工智能资讯周报》探讨人工智能对公共政策★◈、治理和政策建议的影响★◈,探索人工智能对商业★◈、政治和社会的影响★◈,以确定潜在的研究领域★◈,探讨可能的合作研究和机构伙伴关系★◈。本刊着重提供中国人工智能发展动态和对人工智能的思考★◈,同时关注全球范围内人工智能相关研究动态★◈。本刊旨在通过可靠的研究★◈,来帮助企业★◈、研究机构和公民预测和适应技术引领的变化
2023年布莱切利人工智能安全峰会后★◈,全球人工智能安全治理领域迅速发展★◈,英国★◈、美国★◈、欧盟等通过设立人工智能安全研究所(AISI)或类似机构★◈,聚焦前沿模型测试与灾难性风险防范★◈。英国AISI聚焦开展前沿人工智能系统测试与安全评估★◈;美国AISI(现更名为CAISI)关注模型评测与国家安全风险防范★◈;欧盟以《人工智能法案》为核心★◈,通过EU AI Office实施强监管★◈,聚焦系统性风险治理★◈。中国虽未如英美AISI那样从官方层面建立系统性的前沿人工智能模型的测试与评估体系★◈,但在政策★◈、技术与地方实践层面初步构建以人工智能内容安全为主★◈、兼顾前沿风险的治理框架★◈。2025年世界人工智能大会发布的《全球治理行动计划》明确将安全治理纳入全球议程★◈,中国政府倡议成立世界人工智能合作组织★◈,促进人工智能向善发展★◈。未来★◈,中国如何在保障安全与推动发展的平衡中★◈,进一步明确前沿AI风险的评估机制与治理路径★◈,以及这种国内实践如何同其他国家以及全球层面的人工智能安全治理互动★◈,将值得持续追踪★◈。
2023年11月★◈,英国在布莱切利园主办首届人工智能安全峰会★◈,28个国家(包括中国★◈、美国)及欧盟共同签署了《布莱切利人工智能安全宣言》★◈,该宣言强调前沿人工智能在为全球带来巨大机遇的同时★◈,也可能在网络安全★◈、生物技术及虚假信息等领域引发重大风险★◈。在峰会推动下★◈,英国★◈、美国先后成立人工智能安全研究所(UK AISI 与 US AISI)★◈,最早开始构建聚焦灾难性风险的模型评估框架★◈、推动评估工具开发与红队测试机制的实施★◈,并已分别获得了多家前沿模型的早期或优先访问权限★◈。随后★◈,日本★◈、加拿大★◈、新加坡★◈、欧盟★◈、中国等也相继建立本国AISI或国际安全网络★◈,形成“布莱切利效应”★◈。
2025年6月★◈,卡内基国际和平基金会发文评论称★◈,中国成立“人工智能发展与安全研究网络(CnAISDA)”更多反映其参与全球人工智能治理的战略意图★◈,在推动国内实质性AI安全政策★◈,特别是前沿模型测试与评估体系的建设方面★◈,仍存在明显不足★◈。相比之下★◈,英美已分别从官方层面设立专门机构★◈,启动对前沿人工智能模型的独立测试与系统评估工作★◈。
英国于2023年11月布莱切利AI安全峰会期间正式设立“英国人工智能安全研究所”(UK AISI)★◈,核心使命是为政府提供关于前沿人工智能系统安全问题的实证理解★◈,为政策决策提供信息并实现公众问责★◈。核心工作聚焦于前沿人工智能的测试与评估★◈。该所关注的前沿安全风险主要为滥用风险★◈、社会影响★◈、自主体失控及安全保障★◈。2024年★◈,研究所已完成对16个前沿人工智能模型的评估★◈,覆盖部署前与部署后两个阶段★◈,评测通过自主开发工具进行实操操作★◈,深入分析模型能力与潜在安全问题★◈,例如2024年发布的对Claude 3.5 Sonnet和OpenAI o1模型的部署前评估报告pp电子游戏★◈。
UK AISI的前沿人工智能模型安全评测方法有四类★◈:1)通过开发与安全相关的问答数据集评测不同前沿人工智能的自动化能力评估★◈;2)由大量领域专家与模型互动测试其功能的红队测试(red teaming)★◈;3)评测恶意行为者如何利用前沿人工智能执行现实危害性任务的人类能力提升研究(human uplift studies)★◈;4)以及探究自主体在制定长期任务计划★◈、执行半自主操作★◈,以及调用网络浏览器和外部数据库等工具方面能力表现的自主体评测★◈。
在评测结果方面★◈,该所研究科学家Herbie Bradley在TiFA Workshop中展示了四个安全领域的测试结果★◈:1)在网络威胁能力方面★◈,研究团队利用公开与私有“夺旗”挑战设计网络安全评估任务★◈,并构建Agent脚手架模拟端到端攻击★◈,发现部分模型可完成基础挑战但难以胜任更复杂任务★◈,且表现与编程能力密切相关★◈;2)在化学生物能力方面★◈,评估则通过600多个专家级问答测试模型对病毒学等领域知识的掌握花都名器★◈,结果显示多模型在某些情况下达到接近博士的相似水平★◈;3)在自主系统方面★◈,评估聚焦Agent在缺乏人类监督下执行多步任务的能力★◈,通过能力引出测定模型潜在上限★◈。初步结果显示★◈,部分模型可完成短期任务★◈,但长期复杂任务尚无成功案例★◈,相关风险需持续监测★◈;4)在安全保障方面★◈,研究所通过HarmBench和私有有害问题数据集测试模型在越狱攻击下的响应★◈。结果显示★◈,即使不刻意尝试规避安全保障★◈,部分模型也会生成有害输出★◈。
在评估基础设施方面★◈,UK AISI开发并开源了名为INSPECT的评测框架★◈,可用于提示工程★◈、工具使用★◈、多轮对话★◈、模型评分评估★◈。Herbie Bradley强调★◈,“INSPECT可以很容易地评估给模型添加不同功能会带来什么样的能力差异★◈,例如★◈,如果你在提示中添加思维链★◈,或添加某个Agent框架★◈,或添加某些工具使用★◈,那么会带来什么样的性能差异★◈。”目前★◈,外部组织如RAND等正与研究所合作改进框架★◈,并将其用于自身工作★◈。
总体来看★◈,英国人工智能安全研究所在成立第一年已完成对16个前沿模型的评估★◈,采用涵盖基准测试★◈、红队测试★◈、人类能力提升研究与Agent脚手架的多维评测方法★◈,并开源评测平台INSPECT框架★◈。评估聚焦于网络安全★◈、化学生物★◈、自主性与安全保障等关键领域★◈,相关能力与安全问题仍需持续动态监测★◈。
2023年11月★◈,英国布莱切利AI安全峰会期间★◈,美国宣布成立人工智能安全研究所(AISI)★◈,由美国国家标准与技术研究院(NIST)牵头设立★◈,旨在“以促进人工智能模型的安全性和测试标准的发展★◈,制定人工智能生成内容的认证标准★◈,并为研究人员提供测试环境★◈,以评估新兴的人工智能风险并解决已知的影响★◈。”
美国AISI主要聚焦于模型能力评估与国家安全风险研究★◈。一方面花都名器★◈,AISI聚焦于对先进模型★◈、系统和自主体的测试★◈、评估★◈、验证与确认(Testing, evaluation, validation, and verification, TEV)★◈,以识别潜在和新兴的安全风险★◈。其评估方法包括自动化能力评估★◈、专家红队测试和A/B测试花都名器★◈。2024年8月★◈,AISI与OpenAI和Anthropic签署安全测试协议★◈,获得对其新模型在发布前后进行使用和评估的访问权限★◈。自此以来★◈,研究所已发布两份关键的预部署评估报告★◈:2024年11月★◈,AISI对Claude 3.5 Sonnet进行测试评估★◈,涵盖生物能力★◈、网络能力★◈、软件与AI开发能力及安全措施有效性四大维度★◈,并与Claude旧版本★◈、OpenAI的o1-preview及GPT-4o进行了对比★◈。结果显示该模型在多个维度性能提升明显★◈,但仍存在被“越狱”手段绕过防护的风险★◈。2024年12月★◈,AISI完成对OpenAI的o1模型的评估★◈,结果表明该模型在部分任务上表现优于其他模型★◈,但在部分能力维度上仍存在不足★◈。
另一方面★◈,在风险研究方面★◈,在评测前沿人工智能安全风险的基础上★◈,该所关注的风险类型更加广泛★◈。美国AISI于2024年11月宣布设立“国家安全人工智能测试风险(TRAINS)工作组”★◈,专责评估人工智能在放射与核安全★◈、化学与生物威胁★◈、网络安全与常规军事能力等领域的潜在危害★◈。复旦大学中国研究院副研究员刘典发文指出★◈,这种跨部门的协作机制为美国提供了一个动态且综合的安全防护框架花都名器★◈,特别是在关键基础设施保护和军事能力升级方面★◈。该工作组通过开展红队演练与风险测试★◈,能够识别AI系统的潜在薄弱环节★◈,并据此设计有针对性的防护措施★◈。
值得注意的是★◈,特朗普总统上任后★◈,美国AISI更名为人工智能标准与创新中心(CAISI)★◈。Tech Policy指出★◈,这一更名标志着美国AI治理从聚焦长期风险缓解与公众问责★◈,转向强调创新★◈、速度与全球竞争力★◈。正如美国商务部长Howard Lutnick表示★◈:“审查和监管长期以来被国家安全名义滥用★◈,创新者将不再受限于此★◈。”
总体来看★◈,美国AISI自2023年成立以来★◈,聚焦于先进模型的能力评估与国家安全风险研究★◈,与企业合作推进预部署评估★◈、并设立TRAINS工作组系统识别AI在多领域的潜在安全威胁★◈,为构建动态安全框架奠定基础★◈。特朗普政府上台后★◈,美国AI安全治理与AI创新发展的动态平衡仍需密切关注★◈。
欧盟在人工智能安全领域的重点聚焦主要体现在强监管与系统性风险管理上★◈。欧盟设立了专门的人工智能办公室(EU AI Office)★◈,尽管在名义上并非“人工智能安全研究所”(AISI)★◈,但在首尔人工智能峰会上★◈,欧盟确认其“人工智能办公室(EU AI Office)”将履行欧盟版AISI的职责★◈。
在安全监管方面★◈,EU AI Office既扮演AISI的角色★◈,又是监管机构★◈。该办公室的核心职能是识别和评估先进人工智能模型的系统性风险★◈,并确保相关模型符合欧盟《人工智能法案》所规定的额外要求★◈,例如★◈,任何训练计算量超过10^25 FLOP的通用人工智能(GPAI)模型都被认为是带有“系统性风险”★◈,须遵守法案下的规定★◈。《人工智能法案》将人工智能风险划分为四类★◈,分为“不可接受风险”★◈、“高风险”★◈、“有限风险”和“最小风险”四个等级★◈,并为不同风险等级设定相应监管要求★◈:对社会信用评分★◈、实时生物识别等不可接受风险系统予以全面禁止★◈;高风险系统需经欧盟委员会人工智能办公室或国家监管机构批准后方可部署★◈;有限风险与最小风险系统则主要需履行透明度义务★◈。欧盟的分级治理逻辑及风险应对的严苛举措体现其对于人工智能治理的明确安全取向★◈。EU AI Office由法案赋予其监管权力★◈,不仅承担对GPAI模型的评测★◈,还拥有向模型提供者索取信息及实施制裁的权限★◈。
在安全评测方面★◈,欧盟亦将红队测试纳入其人工智能监管核心工具★◈。《人工智能法案》规定★◈,对具系统性风险的“通用人工智能模型”需在其整个生命周期内进行严格的对抗性测试★◈。虽然EU AI Office已认识到先进人工智能模型可能带来的重大国家安全风险★◈,包括引发化学和生物风险★◈、模型失控风险(如AI欺骗和自主复制)等问题★◈,但其在机构职能上可能存在一定的局限★◈。EU AI Office作为目前唯一具监管权力的AI安全机构★◈,其最初职能主要是执行《人工智能法案》★◈,在欧盟建立AISI网络后才被赋予部分安全研究职责★◈。这一监管导向的结构性设定可能削弱它对前沿人工智能进行测试与评估方面的专业能力与响应速度★◈。截至成立104天★◈,EU AI Office尚未任命安全负责人或首席科学家★◈;相比之下★◈,英国AISI成立81天后即发布首份进展报告★◈,美国AISI在启动第74天便任命AI安全主管★◈。CFG研究员Alex Petropoulos发文指出“人工智能办公室或许应该将其工作重心放在法规的有效实施和执行上★◈,而将风险评估和安全工作交给某个新的机构★◈。”
总结来说pp电子游戏★◈,欧盟通过统一立法的强监管模式★◈,以《人工智能法案》为核心★◈,强调将人工智能风险分级控制★◈,并重点聚焦于通用型人工智能模型的系统性风险★◈,构建具有法律约束力的人工智能监管体系★◈。
总体来看★◈,当前★◈,“AI安全”(AI Safety)在全球范围内尚无统一的技术定义★◈,但各国基于对AI潜在风险的不同感知及制度目标的差异★◈,呈现出各具特色的治理框架与安全关注重心★◈。以英国人工智能安全研究所(AISI)为代表的新兴安全机制★◈,其核心理念是将人工智能安全视为可量化★◈、可治理的技术问题★◈,并尝试通过技术手段加以应对★◈。英国AISI主要聚焦于先进模型所引发的前沿风险★◈,围绕滥用风险★◈、社会冲击★◈、自主体失控及安全保障等方面★◈,构建相对完整的测试与安全评估框架★◈。美国AISI则在前沿模型评测基础上还关注包括个人权利★◈、公共安全和国家安全在内的更广泛风险★◈。相比之下★◈,欧盟则通过强监管导向路径pp电子游戏★◈,由《人工智能法案》赋权监管机构对系统性风险模型开展评估★◈,并依法索取信息★◈、实施制裁★◈。
由上可知★◈,随着国际社会对前沿人工智能发展速度的高度关注★◈,灾难性风险(catastrophic risks)成为全球AI安全治理的焦点★◈。卡内基国际和平基金会指出★◈,此类风险通常与最先进的人工智能系统密切相关★◈,可能带来的广泛社会影响以及对关键基础设施的人工智能攻击★◈。为此★◈,英美等AISI通过建立前沿模型测试与评估机制★◈,强化对潜在高风险前沿人工智能的应对能力★◈。Ben Bucknall等学者在研究论文指出★◈,AI安全中可靠评估人工智能系统安全性的方法和资源—如基准测试★◈、红队演练★◈、人类能力提升研究或智能体评估—已成为人工智能安全研究的焦点★◈,各国政府尤其重视★◈。相较而言★◈,中国虽尚未建立专门聚焦前沿AI风险的系统性评估机制★◈,但通过政策法规★◈、技术实践及地方探索★◈,已初步构建以AI内容安全为重点★◈、兼顾前沿模型风险的安全治理框架★◈,体现了对全球AI安全议题的积极回应与本土化实践★◈。
在前沿人工智能评测方面★◈,目前中国未像英美AISI从官方层面形成系统性的前沿人工智能评测政策与技术框架★◈,但这并不意味着中国缺乏对AI安全及对灾难性风险的基本认知★◈。
第一★◈,尽管中国现行法律法规尚未明确使用“红队测试”一词★◈,但多项政策文件已提出对生成式人工智能系统进行全面评估与安全测试的要求★◈,间接体现出对类似技术手段的重视★◈。2022年★◈,国家互联网信息办公室★◈、工业和信息化部★◈、公安部联合印发的《深度合成互联网信息服务管理规定》指出★◈,具有生成能力的深度合成技术应定期开展算法逻辑的检查★◈、验证★◈、评估和测试★◈。2024年3月1日★◈,全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》亦明确要求服务提供者禁止其系统从事违法有害行为★◈,并要求开发人员实施安全测试和评估以监控合规性★◈。Luminos Law律师发文指出★◈,虽然相关规范未直接使用“对抗性测试”或“红队”表述★◈,但根据这些规定★◈,全面测试生成式人工智能系统可能需要某种形式的对抗性测试或红队测试★◈。
第二★◈,从对“人工智能安全”的界定来看★◈,官方政策中★◈,中国正将AI安全风险关注范围拓展至前沿模型的潜在威胁★◈。2023年由中央相关部门编写的《国家人工智能安全知识百问》中★◈,将人工智能安全划分为内生安全★◈、衍生安全和发展安全★◈。2024年9月国家信息安全标准化技术委员会发布的《人工智能安全治理框架》进一步将AI风险类型细化为内生风险(包括模型算法安全★◈、数据安全★◈、系统安全)与应用风险(包括网络域★◈、现实域★◈、认知域★◈、伦理域等)★◈。其中★◈,包括“鲁棒性弱风险”★◈、“滥用于网络攻击的风险”★◈,“用于开展认知战风险”★◈,“因不当使用或滥用人工智能两用物项和技术★◈,对国家安全★◈、经济安全★◈、公共卫生安全等带来严重风险”★◈,“挑战传统社会秩序的风险”★◈、“未来脱离控制”等风险类别★◈,已隐含对前沿人工智能可能产生的灾难性风险初步探讨★◈,并提出较为中性的技术应对措施★◈。尽管当前政策主要侧重于整体安全布局与通用风险防范策略pp电子游戏★◈,尚未建立起从国家层面进行具体前沿AI安全的系统测试与评估体系★◈,但其基本框架已体现出对前沿模型风险演化的关注与应对意图★◈。
第三★◈,从地方行动角度来看★◈,北京★◈、上海★◈、广东等人工智能重镇已开始探索将前沿AI模型评测体系建设纳入地方政策★◈,尽管这些政策侧重于AI创新发展★◈,但已普遍提出与人工智能相关的伦理及安全的评测要求★◈。例如★◈,北京人民政府办公厅提出《北京市促进通用人工智能创新发展的若干措施》★◈,“开发涵盖通用性★◈、高效性★◈、智能性★◈、鲁棒性的多维度评测工具集”★◈、“建设大模型评测开放服务平台★◈,建立公平高效的自适应评测体系”★◈;上海市经济和信息化委员会发布《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》★◈,提出建立大模型测试评估中心★◈,聚焦性能★◈、安全★◈、伦理★◈、适配等维度★◈;建设国家级大模型测试验证与协同创新中心★◈,并鼓励大模型创新企业依托中心开展相关测试评估★◈;广东省人民政府发布《广东省人民政府关于加快建设通用人工智能产业创新引领地的实施意见》★◈,“研究适用通用人工智能的多维度评测方法★◈,开展大模型可信安全性研究★◈,确保大模型输出的准确性★◈、创造性★◈、鲁棒性和安全性”★◈。
第四pp电子游戏★◈,从产业界和学界角度看★◈,中国信通院石霖指出★◈,除依政策法规建立内部风险合规体系外★◈,产业界正构建“测-检-防”三位一体的人工智能安全技术体系pp电子游戏★◈。其中★◈,“测”通过红队测试发现基础设施★◈、模型及平台漏洞★◈;“检”借助护栏等技术持续监测输入输出★◈,防范有害内容与信息泄露★◈;“防”则基于前两者问题★◈,通过模型微调★◈、安全对齐等手段进行安全加固★◈。与此同时★◈,学界也在前沿人工智能安全评测领域取得积极进展花都名器★◈。如清华大学推出中英双语评测基准SafetyBench★◈,涵盖冒犯★◈、隐私★◈、伦理等七大维度★◈;AlignBench则从八个维度评估大模型在中文领域与人类意图的对齐度★◈。上海人工智能实验室构建开源开放大模型评测体系OpenCompass★◈,并组建多学科专家红队★◈,开展系列安全评测研究★◈,构建从评测到对齐的LLM综合能力提升闭环★◈。这些举措正推动产学界在基准测试★◈、红队机制和评估方法等方面构建不断完善的安全评测体系★◈。
在监管层面★◈,中国当前的AI安全治理主要以内容安全为主★◈。2024年2月★◈,中国网络安全标准化技术委员会发布首个生成式人工智能安全国家标准《生成式人工智能服务安全基本要求》★◈,该标准主要聚焦内容安全问题★◈,如训练语料的来源★◈、内容和标注的安全要求(即模型生成内容的安全性)★◈,并对前沿安全风险作简要提及★◈:例如★◈,标准提到欺骗人类★◈、自我复制和自我改造等长期风险★◈,以及生成式人工智能可能被滥用于编写恶意软件★◈、制造生物或化学武器等潜在威胁★◈,但并未提出具体应对措施★◈。2025年3月7日★◈,中国网信办等四部门联合发布《人工智能生成合成内容标识办法》★◈,聚焦人工智能“生成合成内容标识”关键点★◈,通过标识提醒用户辨别虚假信息★◈,明确相关服务主体的规范内容制作等★◈,以合理成本提高安全性★◈。由此可知★◈,目前中国AI安全治理重心以关注AI内容安全为主★◈,兼顾前沿风险的探索与防范★◈。
在2025年7月26日至28日举行的世界人工智能大会上★◈,国务院总理李强发表讲话★◈,强调要统筹推进人工智能发展与安全花都名器★◈,加强各国对接协调★◈,并倡议成立世界人工智能合作组织★◈。外交部副部长马朝旭提出三点目标★◈,前两点聚焦推动人工智能的创新发展与广泛应用★◈,第三点则强调加强协同共治★◈,确保智能向善★◈,倡导在充分尊重各国政策差异的基础上★◈,逐步形成具有广泛共识的全球人工智能治理框架与标准规范★◈,确保人工智能始终沿着人类文明进步的方向发展★◈。此外★◈,大会于7月26日发布《人工智能全球治理行动计划》★◈,提出十三项具体行动计划★◈,大部分着眼于推动人工智能的创新发展和应用生态建设★◈。其中★◈,第十项专门聚焦人工智能安全治理★◈,提出构建具有广泛共识的安全治理框架★◈,推进分类分级管理与风险测试评估体系建设★◈,强化安全开发规范与可追溯管理机制★◈,并倡导搭建开放性合作平台★◈,推动全球范围内的人工智能安全治理协作★◈。
总体而言★◈,尽管中国在人工智能安全治理方面尚未建立如英美AISI那样官方层面系统性的前沿人工智能模型的测试与评估体系★◈,但已有多个维度的政策与实践显示出对这一问题的初步关注与系统布局★◈。当前★◈,中国AI安全治理仍以内容监管为重心★◈,但中央政策中已开始将前沿模型风险纳入战略视野★◈,其地方行动方面也开始探索推进相关评测体系建设★◈。未来★◈,中国如何在保障安全与推动发展的平衡中★◈,进一步明确前沿AI风险的评估机制与治理路径★◈,以及这种国内实践如何同其他国家以及全球层面的人工智能安全治理互动★◈,将值得持续追踪★◈。
海国图智研究院(Intellisia Institute)是中国第一批独立的新型社会智库之一★◈。海国图智专注于国际问题研究★◈,并主要聚焦中美关系★◈、中国外交★◈、风险预测★◈、新科技与国际关系等议题★◈,致力于通过书目与报告的出版★◈、学术与社会活动的组织★◈、研究项目的承接和开展等形式为政府★◈、企业★◈、媒体★◈、学界社会公众提供知识资源★◈,以帮助其更好地“开眼看世界”★◈,了解中国与世界的关系★◈,为其对外事务提供战略见解和政策解决方案★◈。人工智慧★◈。pp电子游戏★◈,pp电子登录★◈,电子元件★◈,PP电子官方平台★◈!PP电子·(中国)官方网站★◈,pp电子游戏平台★◈!pp电子官方网站★◈,
Copyright © 2012-2025 PP电子·(中国)官方网站 版权所有 Powered by EyouCms