CSLE: A Reinforcement Learning Platform for Autonomous Security Management (MLSys 2026)

一句话总结:Cyber Security Learning Environment(CSLE)把 Docker Swarm 数字孪生(emulation)+ MDP 仿真(simulation)结合,在仿真里跑 RL 学策略、到孪生里评估迭代,包含 15 套 digital twin 配置、50+ 仿真场景、34 个 RL 算法实现,四个真实 use case(flow/replication/segmentation/recovery control)验证接近最优。

问题

网络系统安全管理(incident response、风险分析、威胁狩猎)目前主要靠人工专家——全球缺 400 万安全专家。用 Reinforcement-Learning 自动学防御策略看起来有希望,但现有 RL 安全研究大多停在 simulation,不清楚是否能泛化到实际运营系统。主要系统级挑战:

  1. 运营网络里 attack/response 展开时间尺度长,直接交互做 RL 不现实(需要成千上万次 action)
  2. 系统行为太复杂,simulation dynamics 必须从测量数据识别出来
  3. 学到的策略必须在接近真实目标系统的环境里被验证

核心方法

CSLE 架构是「emulation + simulation」双系统闭环:

Emulation System(数字孪生)

  • 目标系统的虚拟副本,跑一样的软件和配置,但在 Docker 容器上
  • Hosts/switches 用 Docker 容器,switch 跑 OVS 走 OpenFlow
  • 网络链路用 Linux bridges + network namespace,跨物理机时 VXLAN 隧道
  • 网络条件用 Linux NetEm 模块控制 bitrate/delay/loss/jitter
  • Actors(attacker、defender、client)都通过 gRPC 管理 API 编程控制;client 用 Poisson arrival + exponential service + Markov 服务调用序列
  • 自动运行攻击场景、收集 traces 和 metrics

Simulation System

  • 用 emulation 采集的 traces 做 system identification,得到 MDP 或 Markov game:
  • 仿真里单步 ms 级,比在孪生里(分钟级)快几个数量级
  • 内置 34 种 RL 算法实现,用 simulation 学 defender 策略

RL 方法论(7 步闭环):定义 target system → 建 digital twin → 采数据 → 系统辨识(MDP)→ RL 训练 → digital twin 评估 → 部署到 target system;不满意则回到采数据步骤迭代。

Infrastructure:分布式 服务器,Docker Swarm 做 virtualization,Citus 做分布式 metastore(leader-follower、quorum election,容忍 失效),Ansible 自动化部署;接口包括 Python/gRPC/REST/CLI。实现 275K 行 Python + 40K 行 JS + 5K 行 Bash。

关键结果

  • 与 18 个同类平台(CyberBattleSim、CyBorg、NaSim、Yawning Titan、PenGym、CyberWheel 等)对比:CSLE 独有 open source + emulation + simulation + RL 库 + management 系统 + 分布式部署 + 实验验证 + 持续维护 全部 checkmark
  • 四个 use case 都达到接近最优防御性能:
    • Flow control
    • Replication control
    • Segmentation control
    • Recovery control
  • 初始配置:15 种 digital twin、50+ 仿真场景、34 个 RL 算法、4 个 system identification 算法
  • 数字孪生 deploy/cleanup 时间、client load 下的 CPU/memory 资源使用都给了测量曲线
  • 与 LLM-based 运营平台(ITBench、AIOpsLab)的差异:CSLE 专为 RL 安全管理、包含 system identification + sim-to-real transfer

相关

  • 相关概念Reinforcement-Learning、Digital-Twin、MDP、System-Identification、Sim-to-Real
  • 同类系统:CyberBattleSim、CyBorg、NaSim、Yawning Titan、CyberWheel
  • 相关领域:ITBench、AIOpsLab(LLM-based,不同 scope)
  • 同会议MLSys-2026