大模型的双刃剑属性：内容违规、隐私泄露、网络犯罪应如何治理

作者：西西

来源：安全419

发布于：2024-05-13

自ChatGPT问世掀起大模型的发展热潮以来，国内外的相关应用悉数落地并且已经卷出天际，逐渐成为帮助各行各业生产效率提升的重要工具。此前的系列文章中，我们就重点围绕网络安全行业的各个细分方向，观察了大模型如何融入安全工具及服务，为现代安全体系加码赋能。

大模型作为一把双刃剑，技术的突破也带来了新的风险挑战，本期，我们将调转视角，观察因大模型技术和应用而引发的种种安全问题，以及业界的应对策略。

大模型渗透千行百业引发多重网络安全威胁

在人类社会开启迈向通用人工智能新路径的进程中，“大模型泄露个人隐私”“AI生成钓鱼邮件以假乱真”“大模型引发人类伦理思考”等等新闻事件不绝于耳。大模型惊艳四座的表现总是伴随着关于“安全”的争议，想要了解其背面隐藏的风险，还要从理解其技术特性入手。

大模型是依靠大算力和强算法对大数据进行训练的结果，其能力来自对大量无标注数据中抽象共现模式的深度学习，在本质上是大数据驱动的，其最明显的特性是参数规模大，通常在百万级以上，甚至超过万亿级别。基于从训练数据中学习的模式，大模型可以生成新的内容，并涌现新的能力，比如小样本提示学习能力、思维链推理能力等。这也使其得以通过微调等适配方式去处理各种不同的任务，甚至处理未见过的任务，通用性大大提高。正是这种新型的大数据利用方式，其数据训练和模型调用实现的自动化内容生成引发了新的安全风险。

敏感数据、个人信息面临外泄

大规模抓取的网络公开数据可能包含姓名、电话号码等个人信息，甚至可能包括生物识别、行踪轨迹等敏感个人信息和高风险数据。而且，很多大模型默认将用户输入的提示作为训练数据，其中同样可能包含个人隐私数据。研究发现，大模型可能会“记忆”并在特定输入诱导下泄露这些训练数据中的个人信息、敏感数据，包括受版权保护的材料。

生成与事实相悖的幻觉内容

在大模型不具备回答某种问题的能力时，其不会拒绝回答，而是会输出错误的答案。由于模型的训练过程采用自回归的训练方式，在给定当前文本内容的情况下预测下一个单词，其本质上是做文本数据的概率建模。在这一过程中，模型更多学习到单词之间的相对关系和句式句法，但对于事实缺乏基本的判断和推理，也没有对自己的能力边界进行建模，即大模型“不知道自己不知道”，因此可能“一本正经地胡说八道”。

产生偏见歧视或不良信息

由于大模型的训练语料库通常由互联网上的爬取数据组成，网络上的数据难以避免地包含恐怖主义、极端主义、色情、暴力等有害信息，也可能存在对少数群体或者弱势群体的偏见信息，大模型在训练后会“记忆”这些信息，输出的有害内容可能会对用户产生不良影响，或者会对具有不同宗教、种族、性别等特征的人群产生不一致的结果。

被滥用于欺诈、攻击等网络犯罪

大模型超强的生成能力，以及其基于大量人类数据训练而具有的“类人”输出和交互能力，使得犯罪分子能够以低成本方式大规模制造更加逼真、更具欺骗性的虚假信息，例如大量制作更具说服力的网络钓鱼电子邮件，在战争等重大事件通过深度伪造视频扰乱国家安全等等，此外还可以生成恶意软件代码实施勒索、APT等网络攻击。

政府及监管机构成为确保大模型安全运行的重要力量

如何防范规制风险，平衡好人工智能发展与安全的关系，引导大模型健康发展，已成为全社会面临的共同难题。

政府与各类监管机构成为确保大模型安全运行的重要力量，通过制定和实施严格的数据隐私法规，为大模型的安全使用提供法律保障：

国际上，2024年3月13日欧洲议会通过了《人工智能法案》（Artificial Intelligence Act），规定了基础模型提供者的义务，也对通用人工智能系统提出了透明度要求，包括执行模型评估、评估和降低系统性风险以及报告事件。

国内，国家网信办等七部门联合发布的《生成式人工智能服务管理暂行办法》自2023年8月15日施行，就生成式人工智能可能面临的安全问题提出了一系列明确的约束规范，并提出两种监管政策，一是根据生成式人工智能服务的风险高低进行分类分级监管，二是根据生成式人工智能服务适用的不同领域进行行业部门监管。

为了推进法规监管有效落地，各相关部门都在积极开展标准编制及指南实践等工作：

全国网安标委于2024年3月发布《生成式人工智能服务安全基本要求》，对上述《暂行办法》中的数据来源合法、内容安全等合规要求的执行规则进行了细化，对生成式人工智能服务提供者在实践中开展安全评估提供有效的路径。

公安部第三研究组织编制《大模型系统安全保护要求》和《大模型系统安全测评要求》两项团体标准并已形成标准送审稿，主要从大模型系统通用安全和大模型系统全生命周期安全的角度进行考虑，覆盖设计开发安全、测试安全、部署与运行安全、退役安全四个部分并分别提出相关要求。

中国信通院人工智能研究中心联合业界开展《大模型安全风险防范能力要求及评估方法》标准编制工作，从训练数据安全、模型安全、内容安全和服务运营安全四个方面形成大模型安全风险防范能力要求和评估方法，于2023年12月正式定稿并启动首轮试评估工作。

全球开源安全组织OWASP近日发布了《AI大模型应用网络安全治理检查清单（V1.0）》，较完整地介绍了大模型部署应用时的安全原则、部署策略和检查对照表，以帮助大模型提供者制定一份全面的关键领域和任务清单。

业界探索安全框架和应对方案支撑监管有效落地

在监管机构从顶层规制大模型的安全发展框架和实践路径的同时，众多积极布局研发大模型应用的科技巨头和安全厂商也是生态中的重要参与者，他们从实战中探索出的大模型安全框架和解决方案，是目前产业中自研训练大模型或部署应用大模型的企业客户迎合安全监管、提升创新竞争力的有力砝码。

奇安信AI安全整体应对方案

方案包括AI安全框架，以及基于安全框架下的AI安全解决方案、AI评估服务和安全检测工具。AI安全框架的核心是在框架级别指导模型构建全生命周期的安全体系规划，定义了模型构建到运行的各个生命周期，分别为数据管理，扩展-微调，模型验证，扩展-RAG，模型部署，模型运行，以及各个阶段攻击者的技战术。

AI安全解决方案是覆盖安全框架中模型生命周期的安全防护与检测方案，它针对大模型训练、微调、验证、部署和运行过程模型安全属性不清等问题，通过对之前发布的大模型卫士和奇安天盾进行安全能力升级，再搭配AI安全检测工具，能够做到训练数据细粒度管理、恶意访问动态阻断、异常数据即时识别、敏感数据防泄漏，保障模型训练数据安全可靠。

AI安全评估服务为企业在构建大模型时提前进行风险评估，它涵盖了提示词注入、不安全的输出处理等17类检测细项，帮助确保大模型生成的回复内容符合《生成式人工智能服务管理暂行办法》等各类法律法规。

AI安全评估工具，作为一款专门针对大语言模型的安全检测评估系统，确保大模型在最后推向市场前进行一次安全“质检”。模型开发企业可在开发LLM相关的产品和服务时客观地进行风险识别，部分企业在选用开源大模型或购买第三方大模型后可对模型安全进行有效评估。

360大模型安全解决方案

360提出了大模型的安全四原则：可靠、可信、向善、可控，旨在从顶层设计上全面保障大模型的安全。为了实现这些原则，又进一步提出了一套核心战法，包括建立“网络与数据安全与大模型自身安全”的双轮驱动体系，坚持以内容安全为核心，在大模型内部内置原生安全机制，采用“小模型”的技术思路保障大模型安全的技术路线，同时构建大模型安全实战对抗评估体系对打模型安全实战能力进行评估，并进一步构建以服务运营为核心的大模型安全持续治理体系等。

大模型安全战法的落地需要足够的安全能力支撑，360提出了大模型安全能力体系框架（AISF框架），这个框架将大模型安全能力分为两部分，一是传统网络与数据安全能力，二是需要嵌入到大模型内部，以解决大模型内容可信、合规向善为目标的大模型原生安全能力。

在框架中，一方面，利用360安全云围绕“数据、探针、平台、专家、AI”这五个核心要素，在网络与数据安全层面对打模型进行全面防护；另一方面，通过“360大模型原生安全能力增强包”解决大模型在内容可信、合规向善、模型可控上存在的安全问题，并利用其独有的大模型安全评估系统，对大模型的安全能力进行实战评估。方案可以平移、复制给有需求的行业客户与合作伙伴和，并以标准化的能力产品方式对其他大模型企业进行安全赋能。

百度安全大模型安全解决方案

从大模型全生命周期视角出发，方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战。核心服务包括：

数据安全与隐私保护 - 支持公有云、私有化两种场景的横向联邦软件方案，数据不出域即可完成预训练、精调；通过硬件化的CPU+GPU保护方案保障模型和数据安全，解决部署阶段的模型记忆泄露问题；针对公有云推理阶段数据隐私保护问题，提供同态密码学软件解决方案。

模型保护 - 提供整套语料数据安全管理方案，包括元数据管理、分类分级、流转审批等多项能力；采用Baidu Ai Realm技术为大模型全生命周期提供多方位安全防护措施。

AIGC内容合规 - 针对输入内容提供多维度内容审核能力、并针对恶意诱导大模型生成违规内容的Prompt进行改写并做毒性提示；依据《生成式人工智能服务管理暂行办法》提供内容安全评测和攻击指令评测。

业务运营安全风控 - 依托百度安全智能风控解决方案，在大模型前置运营阶段以及大模型交互环节，结合用户行为、终端环境、网络特征等信息建立安全防护体系，针对异常请求做实时风险检测。

内容安全评测 - 建立覆盖100+种风险分类、涵盖20+种高级攻击的自动化数据集生成能力，评测框架开箱即用，灵活适配各种大模型，评测报告内容包括评测方法、评测数据集、评测指标等数据，并提供问题清单和改进建议。

天际友盟AIGC数字风险防护方案

针对数据泄露、知识产权保护和侵权欺诈等常见的AIGC数字风险场景，推出的具有针对性的人工智能生成内容数字风险防护服务，AIGC DRP（AIGC Digital Risk Protection）。

服务过程主要分为准备、监控和反馈三个阶段。在准备阶段，天际友盟AIGC DRP服务将根据关键词和AIGC平台范围清单，确定监控范围，并取得用户的授权，为后续协助处置做好准备；在监控阶段，服务将会按照关键词及关联信息根据AI算法生成各类关联问题，并将其在各AIGC平台进行问答，再对答案进行分析研判，从而实现风险监控与风险评估，这将是一个持续性的工作；在反馈阶段，服务将根据监控和评估结果形成定制服务报告以周、月形式提供给客户，如有需要，天际友盟还可协助用户进行定向AIGC平台的处置工作。

尾声

通过观察如今的立法监管趋势与各方安全实践，安全419总结认为，目前能够落地的安全方案主要集中解决当前的、已经显现的风险，如训练数据是否合法合规、生成内容是否准确或有害、模型是否被滥用于生成虚假信息等，围绕这些现实风险，既有整体方法论，也有具体风险点的应对措施。着眼未来，从大模型的全生命周期嵌入安全机制，从整体上对大模型的安全风险进行建模，能够更系统化地构建大模型的安全框架和系统。

更进一步，业界也对大模型潜在的、根本性的风险给予强烈的关注，即人工智能脱离人类控制，进而对人类生存等根本利益造成威胁。在立法及监管层面，需要制定安全标准在模型上线前对其危险能力进行评估，对功能达到一定规模的大模型服务提供者发放许可或撤销，相关措施和治理路径仍在探索之中。正如大模型技术及应用仍在不断进化一样，人们对它们的理解和安全治理也尚处于在初级阶段，在大模型等AI技术与传统产业、网络安全以及社会伦理等方面的碰撞中，挑战或许才刚刚开始。

AI 大模型安全

下一篇：安全419盘点 | 2024年第一季度勒索软件攻击趋势总结