AI智算中心的安全风险分析

发布时间：

2025-06-13 17:00

一、AI 智算中心概述

随着人工智能技术的飞速发展，AI智算中心作为支撑大模型训练与推理的核心基础设施，其战略地位日益凸显。然而伴随着算力的指数级增长和应用的广泛渗透，AI智算中心也面临着前所未有的安全风险与挑战。

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出：“以人工智能为代表的新一代信息技术，将成为我国“十四五”期间推动经济高质量发展、建设创新型国家，实现新型工业化、信息化、城镇化和农业现代化的重要技术保障和核心驱动力之一”。

二、AI智算中心技术架构

AI智算中心是为支持大规模AI模型训练和推理而设计的专用计算中心，其基本架构通常包括以下几个核心层次：

生产算力：基于GPU/TPU/FPGA等专用AI芯片，构建CPU+AI加速卡的异构计算架构，组建算力集群，形成高性能、高吞吐的计算系统，为AI训练和AI推理生产输出强大、高效、易用的算力服务。

聚合算力：基于智高速网络和高吞吐存储技术，保障计算节点间的高效协作，为算力集群构建高带宽、低延迟的通信系统和数据平台，提供弹性、可伸缩扩展的算力聚合能力，支持大规模分布式训练。

调度算力：通过容器化、云原生化等技术，将算力资源池化为标准算力单元，通过适应性策略及敏捷框架对算力进行精准调度配给，保障AI开发和AI业务的高效运行。

释放算力：部署TensorFlow、PyTorch等深度学习框架，结合复杂算法和模型的推理和训练，针对不同场景应用需求，产出高质量的AI模型或AI服务，提升AI应用生产效率，促进算力高效释放转化为生产力。

这种多层次架构使AI智算中心能够支持从基础研究到商业应用的各类AI工作负载，但同时也带来了复杂的安全挑战。

三、大模型应用面临的安全风险

大模型供应链投毒：攻击者在Hugging Face社区发布仿冒包，传播携带恶意代码的模型文件（如利用Pickle漏洞的.pkl文件），加载时触发远程代码执行，诱导开发者下载后窃取API密钥与环境变量，这些攻击利用了模型加载过程中的代码执行机制，具有很强的隐蔽性，恶意模型文件投毒是一种新兴的攻击方式，随着模型共享和复用的增加，其风险将进一步提升，需要建立专门的防护机制。

GPU资源劫持：GPU算力劫持是针对AI智算中心的一种新型攻击方式，攻击者通过各种手段非法获取和利用GPU资源，攻击者通过通过恶意代码注入修改模型训练过程、SSH暴力破解等手段入侵服务器，植入挖矿木马（如PwnRig门罗币挖矿程序），非法占用GPU/CPU算力进行加密货币挖矿（CVE-2023-4969）

攻击手法分析：

1、利用云平台API密钥泄露或权限配置错误获取GPU资源访问权

2、通过容器逃逸获取宿主机控制权，进而访问GPU资源

3、利用GPU驱动程序漏洞绕过访问控制

4、通过社会工程学手段获取管理员凭证

算力底座攻击：AI框架是智算中心的核心软件组件，其安全漏洞可能导致严重后果，例如Ollama是一个流行的本地大模型部署框架, 2024年初被发现存在严重的未授权访问漏洞。攻击者可以通过该漏洞远程执行任意代码，获取系统控制权。该漏洞影响了数万个部署实例，成为大模型安全领域的重要警示,而Ray作为主流的分布式计算框架，广泛用于大规模AI训练，2023年发现的权限提升漏洞允许攻击者从普通用户权限提升至系统管理员权限，进而控制整个集群。在云原生架构下，容器逃逸（如Ollama框架的CVE-2024-37032）更是允许攻击者突破隔离环境，执行远程命令或窃取数据。此类漏洞可能影响GPU集群调度系统，导致算力资源被恶意操控。

大模型提示词注入攻击：大模型本身存在一些固有的安全风险，这些风险源于模型的设计和训练过程，针对大模型自身最常见的攻击当属于大模型提示词注入攻击，攻击者通过精心设计的提示词，诱导模型生成有害内容或绕过安全限制。例如，2024年多个主流大模型被发现存在"越狱"漏洞，允许用户通过特定提示词绕过内容安全限制，ChatGPT存在的2起XSS漏洞，可以实现绕过限制实现账户接管，GPT中通过恶意提示词，可实现持久化攻击，窃取数据。

大模型合规风险：生成式人工智能服务管理暂行办法提出了大模型安全合规要求，要求建立健全数据标注管理制度，明确数据标注过程中的各项管理与安全要求，制定标注规则，明确标注目标、数据格式、方法和质量标准，区分功能性与安全性标注，确保规则覆盖数据标注和审核环节，对标注人员进行选拔与培训，确保标注任务有充足合理的时间完成。目前仍然存在大模型输出不符合标准的内容，通过诱导大模型输出暴力、色情、政治敏感等内容。

AI agent安全风险：AI Agent是利用AI模型进行应用，AI agent通常会使用大量数据训练和运行，可能因系统漏洞或恶意攻击导致敏感数据（如用户身份、交易记录等）泄露，也可能出现通过输入精心设计的干扰信息（如对抗样本），欺骗AI agent做出错误决策并且输出，并且AI Agent在输出时通常不会做安全检测，例如LLM APP在某些命令行工具中通过替换Clipboard来导致命令执行。

四、AI领域典型安全事件

某智算中心因“8220”团伙入侵，导致服务器CPU/GPU利用率异常飙升至90%以上，直接影响AI模型训练任务造成大量算力消耗。
某公司实习生利用Hugging Face的load_ckpt函数漏洞，在训练时动态修改梯度方向并插入随机Sleep操作，导致8000多张H100 GPU训练结果错误，造成千万级损失。
容器逃逸（如Ollama框架的CVE-2024-37032漏洞）允许攻击者突破隔离环境，执行远程命令或窃取数据，影响GPU集群调度系统，导致算力资源被恶意操控。
通过Hugging Face等平台上传携带恶意代码的模型文件（如利用Pickle漏洞的.pkl文件），加载时触发远程代码执行。例如，攻击者伪装合法模型传播反向Shell，窃取服务器权限。
PyPI发现仿冒deepseeek和deepseekai通过依赖混淆实施供应链投毒攻击，利用环境变量窃取API密钥等敏感数据，暴露开源生态的信任危机与供应链安全风险。
OmniGPT平台被黑客入侵导致3万用户隐私及3400万条对话记录外泄,暴露了智算中心存储的AI模型、训练数据等敏感信息可能遭勒索软件加密，或通过未授权访问泄露问题。