最新报告提出大模型自身安全框架及大模型赋能安全框架

来源：安全419

发布于：2024-09-25

随着大模型商业化应用和产业化落地加速，大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险，也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。同时，大模型在逻辑推理、任务编排等方面的卓越能力，为解决网络空间安全瓶颈问题带来了新的机遇。

为有效防范和消减大模型的安全风险，并促进其在安全领域的应用，安全419关注到，阿里云联合中国信通院等三十余家行业单位共同编制的《大模型安全研究报告（2024年）》（以下简称《报告》）于近日发布，从大模型自身安全和大模型赋能安全两个维度，提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架，以及大模型赋能安全框架。

大模型自身安全

《报告》将大模型面临的安全挑战归纳为四大类：训练数据方面，存在数据违规获取、含有违法不良信息、数据投毒、数据质量低下且缺乏多样性等重点风险，可能违反法律法规或影响模型训练的效果；算法模型方面，可能存在鲁棒性不足、“幻觉”现象、偏见和歧视以及可解释性差的问题；系统平台方面，机器学习框架和开发工具链都存在安全隐患，并伴有系统逻辑缺陷及插件相关安全风险；业务应用方面，容易生成违法不良信息，造成数据泄露问题，同时还面临用户恶意使用的情况。

大模型自身安全框架

对此，《报告》从消减大模型面临的基础共性安全风险出发，构建如图所示大模型自身安全框架。大模型自身安全框架涵盖安全目标、安全属性、保护对象、安全措施四个层面，这四个层面基于自顶向下、层层递进的方式提出了构建大模型自身安全的整体解决方法。

为全面有效应对大模型安全风险，《报告》提出未来需从构建层次化治理体系和创新安全保护技术两个方面同时发力。在治理体系构建方面，应通过国际、区域和国家三个层面，针对不同层次的问题进行分层解决。在国际层面，以联合国为中心，围绕大模型的突出风险和治理原则等问题，建立全球共识的治理框架，以促进跨国界的威胁信息共享和治理政策的协同。在区域层面，依托区域联盟、经济共同体等国际组织，结合本区域内技术产业发展特点和治理需求，制定相应的区域治理法案或指南。在国家层面，各国政府需根据本国国情，制定本国治理法规和日常监管措施。

大模型赋能安全

根据《报告》，大模型赋能安全是指在网络安全、内容安全、数据安全等领域，利用大模型的信息处理、知识抽取、意图识别等能力，增强网络安全防御能力、数据安全保护能力、内容安全检测过滤能力，提高安全事件处理的效率和准确性，提升安全技术的智能化水平，促使安全防护更加主动、智能和高效。

大模型赋能安全框架

结合行业实践情况，《报告》重点阐述大模型在网络安全、数据安全、内容安全三个领域的探索应用情况。网络安全领域，大模型可应用于安全威胁识别、保护、检测、响应、恢复等多个保护环节中的关键场景。数据安全领域，大模型可应用于数据分类分级、APP（SDK）违规处理个人信息检测等场景。内容安全领域，大模型可应用于文本内容安全检测、图像视频内容安全检测和音频内容安全检测等场景。

短期来看，大模型将显著提升现有安全技术的性能和智能化水平。长期来看，大模型有潜力成为安全防护的核心，从而改变安全的工作模式，从依赖安全人员调度和使用安全工具，转变为以大模型为核心调度并智能化使用安全工具。

安全大模型大模型安全

下一篇：Gartner发布2024中国安全技术成熟度曲线 AI安全助手首次入选