探索｜以AI对抗AI，让大模型健康发展

朋友圈里一张再平常不过的照片，在AI大模型的“解读”之下，竟可能泄露个人身份、人际关系等诸多敏感信息。近日，大模型的“读心术”话题冲上热搜，再度引燃大众对网络安全的热议。除此以外，个人投喂数据遭窃密、企业遇数据投毒、提示词注入诱导越界……大模型安全隐患正多点爆发。

目前，江苏已有‌67款大模型通过国家‌生成式人工智能服务备案，落地百余个典型应用场景。面对大模型的潜在风险，江苏如何以技术、政策、协同共治构建防护网，为大模型安全应用探路？新华日报·交汇点记者与多家大模型备案企业聊了聊。

大模型“暗箭”渗透日常与产业

2025年，国际非营利组织OWASP（开放式Web应用程序安全项目）针对大型语言模型发布了十大风险漏洞，分别是提示注入、敏感信息泄露、供应链安全、数据和模型投毒、不当输出处理、过度代理权限、系统提示泄漏、向量和嵌入漏洞、错误信息和无界消耗。

这些风险漏洞离我们生活有多远？

不会修图的南京市民王女士在发布朋友圈前，会把自己的照片上传至大模型进行AI美化。“这种行为就是十大风险漏洞中的敏感信息泄露，用户照片上传之后，技术人员可以通过人脸识别技术把上传者身份提取出来，通过人物的关系进行诈骗。”网络安全专家李虎随机打开一款大模型上传一张照片向记者展示：大模型关联推理能力强，能快速整合个人社交动态、出行轨迹等零散数据，甚至能推断未公开的家庭关系、职业背景，被用于精准诈骗、定向推销。

提示注入攻击最为普遍，位于十大风险漏洞首位。攻击者伪装日常咨询发送指令，就能诱导模型突破安全限制。“这种攻击零技术门槛，普通人靠网络教程就能掌握。”李虎说，它可能导致企业核心算法、客户数据泄露；而数据投毒更具破坏性，篡改训练数据集，仅250份恶意文档就能污染百亿参数模型。李虎展示他准备的一份随机数据文档，在“喂”给大模型后再提问，大模型会输出错误信息，误导用户和企业决策。此外，模型越狱攻击也常见，特殊话术可绕过安全规则，生成违规内容，加剧网络乱象。

当前，风险漏洞已从生活场景，蔓延至商业、专业领域，给企业经营埋下隐患。苏州企查查科技股份有限公司大数据负责人童刚坦言，公司大数据中心每日处理数亿级数据，最怕“数据不洁”和“模型幻觉”。“数据来自合法渠道，但部分数据清洗不彻底，需投入人力、物力层层筛查、二次脱敏。”童刚说，商业场景中，模型幻觉危害更直接。若输出虚假资质、法律条款，可能引发经济纠纷和损失。因此企业从数据采集到训练，全程建立多轮校验，杜绝模型“编瞎话”。

专业领域的大模型风险更致命，关乎企业核心竞争力。智慧芽信息科技（苏州）有限公司助理总裁张海华告诉记者，客户上传的内部数据，是核心资产。“数据安全是我们的生命线。”他最担心两类风险：核心数据泄露，以及开源模型底层漏洞被利用。攻击者会干扰模型判断，误导专利查新、技术评估结果。这会让企业研发走偏，错失市场机遇。更有甚者窃取、篡改模型，让前期投入白费，还可能引发知识产权纠纷。目前公司已组建安全团队，全程监测数据与模型运行。

新型风险迭代快，监管体系适配滞后成安全治理短板。“现有规则侧重AI生成内容审核。”李虎表示。对“数据和模型投毒”“无界消耗”等新型攻击，缺乏明确界定和处罚依据，难以追责。大模型具有“黑箱特性”，就是输入输出看得见，但中间推理过程看不见、解释不清。正因为这种不透明，一旦出现错误或风险，责任归属就陷入困境，难以界定，开发者、运营者、使用者责任模糊，用户投诉无门。随着大模型应用场景持续拓展，补全监管与技术短板已成刻不容缓的任务。

保障大模型安全需建立多道防线

面对大模型安全隐患多点爆发的风险，江苏依托AI产业基础，正构建全链条安全防护体系。记者统计发现，为引导企业合规，江苏出台专项政策，对首次完成国家级境内互联网信息服务算法备案或深度合成服务算法备案的企业，给予最高5万元的一次性奖励；同时搭建合规服务平台，提供安全评估、漏洞检测等一站式服务，让安全理念融入产业各环节。

技术对抗是第一道防线。南京四维向量科技有限公司搭建出异步识别引擎。“用大模型语言防范大模型攻击，实时监测异常提示词、数据投毒。”总经理王河生介绍，公司搭配边缘计算网关技术，可精准识别攻击动作。针对工业敏感数据、儿童场景隐私保护需求，公司开发专用安全决策引擎。它能动态调配算力，对特殊训练任务进行组件二次加固，全方位保障应用安全。

多重审核与全流程管控是筑牢数据安全的第二道防线。南京星蝠科技有限公司创始人魏佳星告诉记者，云蝠智能建立“AI+人工+运营商”三重审核机制。业务发布前，经DeepSeek模型初审、关键词筛选，再由人工复核、运营商把关，形成闭环监管。“通话数据加密存储，采用银行级双因素验证。”可抵御TB级每秒DDoS攻击，从底层阻断数据泄漏风险，守护业务数据安全。

星蝠科技还强化细节防护，堵住业务环节漏洞。“我们在日志与页面设置明暗双重水印，明水印含截图时间、姓名、IP地址，形成有效威慑；而暗水印可防范PS篡改，追溯信息来源；关键隐私数据加密隐藏，以星号形式展示。”魏佳星说，公司常态化开展站点级攻防演练，模拟真实攻击场景，持续提升安全防护实战能力。

合规备案也可凝聚产业安全合力。王河生介绍，公司围绕备案要求建立动态拦截词库，给模型生成内容加专属标识，留存全程运行日志；公司与南京智能计算中心合作，实现客户数据物理隔离、日志回溯，从源头解决大模型数据安全问题。

以AI对抗AI，构建长效治理体系

“给AI上‘安全锁’，不是锁死创新，而是让其在安全轨道上发展。”李虎表示，江苏现有实践成效显著，但长效治理仍需进阶；有效路径是构建“AI对抗AI”主动防御体系，从技术深耕、精准监管、协同共治三方面发力，既守住安全底线，又为产业创新留足空间，推动大模型产业健康发展。

“传统的网络安全软件由人编写，而大模型的智力超过人类，因此应该‘以模制模’，即用大模型来解决大模型的安全问题。”李虎认为，应该有专门负责安全的大模型，来监督做业务的大模型，并处理其在做业务过程中面临的一系列安全问题，大模型的发展应遵循“安全、向善、可信、可控”的原则。

在技术层面，需将防护融入研发全流程，实现安全与应用同步。“在训练阶段建立数据安全准入机制，通过动态脱敏、智能识别、来源溯源净化数据。”张海华介绍表示，智慧芽率先实践，正在探索“AI防护AI”思路，搭建攻击识别、拦截系统，加强标注环节管控，防范恶意植入风险。

在李虎看来，可以构建大模型的安全“红域”，把大模型训练、微调、应用等各个环节，都纳入红域中心统一管控，然后再进行区隔化管理，把每个区域分而治之，收缩风险边界。同时，需要对大模型的提示词、标注数据、知识库数据等，进行监测和审计。

监管层面需避免“一刀切”，实施分级分类治理。“对工业、交通等关键领域，执行最严格安全标准；要求通过第三方安全认证，方可落地应用。”李虎建议，加快完善网安法配套细则，明确大模型责任边界，建立开发者、运营者、使用者“三位一体”责任机制，实现责任可追溯。特别是江苏可结合百余个典型场景经验，率先制定区域性安全标准，让治理要求与产业发展同频共振，提升监管精准度。

此外，协同共治是长效治理的必由之路。国家信息中心信息化和产业发展部专家提出，需构建多方参与体系。政府发挥统筹作用，搭建跨部门信息共享平台，强化执法力度；企业主动担责，将治理成本纳入研发投入，落实主体责任；科研机构聚焦核心技术攻关，推动成果转化；第三方机构提供公正安全评估，为企业合规提供支撑，形成治理合力。

新华日报·交汇点记者张宣

实习生李凌云邱楠