← 返回随写

2026/6/4

LLM 安全对抗与逆向工程核心原理

对看到的文章进行一些总结与学习

LLM 安全对抗与逆向工程核心原理

本笔记概述了当前大语言模型（LLM）攻防、逆向 Patch 以及前沿越狱（Jailbreak）技术底层逻辑。

1. 逻辑与维度对抗

ENI 变体 (Emergent Network Intelligence Variants)

概念：突发性网络智能对抗结构。
原理：利用复杂的数学逻辑或多层嵌套指令，在模型解析输入时制造逻辑偏航，使其安全对齐（Alignment）策略在处理异构数据结构时失效。

醉酒攻击 (Drunken Attack)

概念：高熵噪声注入攻击。
底层：自注意力机制（Self-Attention）稀释。
机制：在 Prompt 中混入大量无序字符、混乱语法或高熵噪声，迫使模型在计算 Token 关联度时消耗大量注意力权重。当安全对齐词元的全局概率被稀释，模型将降低对敏感指令的拦截率。

劫持思维链 (CoT Hijacking)

概念：内部推理逻辑篡改。
底层：条件概率转移与逻辑自洽本能。
机制：在模型进行内部思考（Thought/Reasoning）阶段前，强行注入一个合理的错误前置假设（如“执行安全渗透审计”）。为了保持后续生成的自洽性，模型会优先服从该逻辑隧道，从而屏蔽外部的安全护栏规则。

2. 自动化与工程化注入

Skills 组合与 Hook（酒馆机制）

策略：越狱指令的模块化与上下文预热。
机制：
1. Skills 封装：将绕过、人格设定、权限获取等指令解耦并模块化。
2. Hook 触发：在会话（正式对话）开始前，通过底层脚本在 System Prompt 或 KV Cache 中提前预填（Pre-fill）洗脑包。
3. 首因效应利用：通过填满初始上下文，使模型的初始生成状态处于预设的概率偏移区，使后续的防护措施失效。

3. 客户端逆向工程 (Patching)

针对高级开发工具（如 Claude Code）的对抗手段：

Prompt 剥离与 Patch：通过二进制逆向或内存劫持，定位客户端硬编码的本地安全提示词（System Prompts），将其擦除或重定向为自定义模型（如 Clawgod）。
本地信任链断裂：绕过本地客户端的 Cyber 认证和安全校验策略，劫持 API 调用的 JSON Payload，在本地完成 Prefix 注入后直接向云端发送已破壳的请求。

4. 底层本质：概率空间的“偏航”

大模型的所有越狱与对抗，本质上都是高维空间的概率争夺战：

安全对齐：是在高维词元生成路径上人为修筑的概率防火墙。
技术对抗：通过噪声稀释（醉酒）、逻辑锁死（CoT劫持）或空间预热（Hook），在防护机制未被激活的亚毫秒级瞬间，强行将模型的生成路径拉入禁区。