Automated Algorithm Design for Auto-Tuning Optimizers (MLSys 2026)

一句话总结：用 LLM + 进化算法（LLaMEA）自动生成针对 auto-tuning 问题的优化算法，集成进 Kernel Tuner，生成的优化器平均比 SOTA 人工设计 baseline 高 72.4%。

问题

HPC kernel auto-tuning 的搜索空间通常大、不规则、noisy，经典 metaheuristic（SA、GA、PSO）并非为 auto-tuning 场景设计，需要细致的超参 tuning 才能跨问题鲁棒。问题：能否让 LLM 自动合成针对特定 auto-tuning 搜索空间的优化算法？

核心方法

把 LLaMEA（LLM Evolutionary Algorithm）与 Kernel Tuner 集成：

Closed-loop evolution：LLM 生成一批候选优化算法代码 → Kernel Tuner 按 performance score P 评估 → 高分者被选为 parent → LLM 用 mutation prompt（探索/利用两种风格）生成子代。参数：4 parent + 12 offspring/iteration，elitism。
Prompt 注入：可选加入 tuning problem 描述（可调参数、允许值、约束）和 search space 特征（Cartesian size、constrained size、dimensions），让 LLM 生成 problem-specific 优化器。
Performance score P：基于先前工作的 autotuning 方法论，P_t = (S_baseline(t) - F_t) / (S_baseline(t) - S_opt)，归一化到 [0,1]，aggregate 跨多个 kernel/hardware/input 的曲线。
Robust to错误代码：生成的坏算法会被 EA selection 淘汰，stacktrace 作为 context 反馈给 LLM 实现 self-debug，不污染 kernel 执行路径。

评估用 BAT benchmark（dedispersion、2D convolution、hotspot、GEMM）x 6 GPU 架构。

关键结果

加入 application-specific 信息生成的算法平均提升 30.7%；加 search-space 信息提升 14.6%。
最优生成算法相对 SOTA baseline 平均 72.4% 的性能提升。
最佳算法已 merge 进 Kernel Tuner 供社区使用。

Awesome System Papers Wiki

探索

LLaMEA-KernelTuner-MLSys26

Automated Algorithm Design for Auto-Tuning Optimizers (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接