EarthSight: A Distributed Framework for Low-Latency Satellite Intelligence (MLSys 2026)

一句话总结：将 onboard 卫星图像分析视为地–轨联合决策：共享 backbone 多任务推理 + 地面 lookahead 调度（DNF 查询、优先级阈值 p*）+ 轨上 utility 驱动 filter 排序与自适应置信阈值；相对 SERVAL baseline，单图平均计算时间 1.9× 降低，首触达到交付的 p90 尾延迟 51→21 分钟，且不丢弃图像、仅优化下传顺序。

问题与动机

LEO 遥感瓶颈已从采集转向分析：全量下传再地面处理延迟达数小时至数天，对灾害响应不可接受。既有 onboard ML 将每颗卫星视为孤立节点、单任务 pipeline，冗余算力与能耗高，且无法在星座层面协调有限 downlink 窗口。

关键观察 / 隐含假设

观察 1：单任务 onboard inference 在多应用并发时重复 backbone 计算，功耗与算力浪费显著。 多任务 hard parameter sharing + 可条件执行的 head 可摊销特征提取。
- 依赖假设：任务可按域聚类（海事 vs 沙漠），域内特征可共享；head 依赖 backbone latent 的串行依赖可由调度解决。
- 可能失效场景：跨域强耦合任务强行单 backbone 会损精度或超边缘内存。
观察 2：filter 执行顺序影响期望计算量；最优顺序为 NP-hard SBFE，但地面提供的 pass 概率 pi 使 greedy utility 可早期拒绝低价值图像。 错误先验只增加 false positive 带宽成本，β 固定保证 negative 判定逻辑正确。
- 依赖假设：历史/地面真值校准的 pi、tpri 足够准；utility 中 ni（DNF 项数）反映逻辑影响。
- 可能失效场景：新灾害类型分布漂移导致 pi 失效，α 动态升高→过多高优先级下传。
观察 3：星座级 downlink 竞争需要地面 lookahead 预测 p（下一窗口可下传最低优先级）与 rreject，指导轨上算力预算。* 单星孤立优先级无法全局最优。
- 依赖假设：轨道与捕获计划可预测；模拟数小时在地面 O(分钟) 可完成。
- 可能失效场景：突发云量/姿态异常使预测失准；contact 间隔数小时放大调度误差。

核心方法

多任务架构：域专用 EfficientNet backbone + MLP head；图可只算 backbone 再稀疏执行所需 head（非 monolithic forward）。

地面调度器：布尔查询 + 优先级 p∈{1..5}；R-tree AOI 映射；lookahead 模拟 downlink 窗口与 priority-weighted 字节；生成 per-image DNF 公式与 p*、rreject、filter 成功率先验。

轨上 runtime：自适应上界 α（随功耗 rpower、deprioritize 率 rdep、目标 rreject 调整），固定小 β；greedy 选最大 Uϕ 的 filter；CPU–xPU pipeline 预取下一 filter；telemetry 回传校准地面模型。

开销缓解：DNF 查表压缩 ~25×；协调网络开销 <0.1% 日下传量。

设计取舍

不丢图 vs 纯 onboard 丢弃：保全数据、只重排下传，赢得灾害场景召回，代价是带宽仍可能传低价值图（false positive）。
Heuristic filter 序 vs 精确 SBFE：可实时，但次优期望计算量；依赖先验质量。
多 backbone 聚类 vs 单模型：内存与 specialization 平衡，运维需 uplink 新 head。
边界条件：Coral TPU / Jetson 实测 + trace-driven 模拟；未建模空间辐射/热力学全效应。

实验与结果

三场景（灾害、情报、城市）多任务模型：multi-task 在相近精度下更小 footprint、更短推理时间（Fig. 5）。
端到端：平均计算时间/图 1.9×；p90 首触→交付 51→21 min vs SERVAL。
算力占发电比例等系统指标在 Table 3（论文）；schedule 压缩与 pipelining 降低 idle。

Critical Analysis

论证链条

「孤立 onboard 不够」→ 地轨联合调度 + 多任务 + utility 序，模拟与硬件 profiling 支撑尾延迟 claim。外推到千星规模需假设模拟器忠实反映 contact 争用。

假设压力测试

先验 pi 系统性偏差时主要伤效率不伤 negative 正确性（论文结构化论证）；α 升高可能导致带宽拥塞；多租户查询聚合复杂度未在生产验证。

实验可信度

沿用 OEC 社区主流 trace+硬件方法；baseline SERVAL 强。缺真实在轨长期 A/B。

系统性缺陷

论文承认模拟难覆盖全部空间环境效应；operator 添加新任务的 4 选项流程增加运维负担。

局限与 Future Work

局限：NP-hard 最优序用 greedy；在轨实测有限；多星座异构硬件泛化未充分验证。
Future work：在线 pi 校正与鲁棒 utility；与下传压缩/语义摘要联合优化；多租户公平性与优先级博弈。

Awesome System Papers Wiki

探索

EarthSight-MLSys26