Awesome System Papers Wiki

标签: fault-tolerance

此标签下有13条笔记。

  • 2026年6月20日

    DeepSpeed

    • llm-training
    • distributed-training
    • zero
    • memory-optimization
    • pipeline-parallelism
    • checkpointing
    • fault-tolerance
    • microsoft
  • 2026年6月20日

    AdaCheck-FAST26

    • llm-training
    • checkpointing
    • fault-tolerance
    • parallelism
    • redundancy
  • 2026年6月20日

    ByteRobust-SOSP25

    • llm-training
    • fault-tolerance
    • gpu-infrastructure
    • checkpointing
    • sdc
  • 2026年6月20日

    GhostServe-MLSys26

    • llm-inference
    • fault-tolerance
    • kv-cache
    • erasure-coding
    • serving
  • 2026年6月20日

    Guard-MLSys26

    • straggler
    • training
    • fault-tolerance
    • gpu-cluster
    • observability
  • 2026年6月20日

    Nostor-OSDI25

    • erasure-coding
    • in-memory-storage
    • rdma
    • key-value-store
    • fault-tolerance
  • 2026年6月20日

    PHOENIX-SOSP25

    • high-availability
    • recovery
    • fault-tolerance
    • os
    • static-analysis
  • 2026年6月20日

    PhoenixOS-SOSP25

    • gpu
    • checkpoint-restore
    • migration
    • serverless
    • fault-tolerance
  • 2026年6月20日

    Quirk-Sparing-MLSys26

    • llm-training
    • fault-tolerance
    • sparing
    • goodput
    • meta-infrastructure
  • 2026年6月20日

    RCuckoo-ATC25

    • rdma
    • disaggregated-memory
    • key-value-store
    • cuckoo-hashing
    • one-sided-rdma
    • fault-tolerance
  • 2026年6月20日

    RaidServe-MLSys26

    • llm-serving
    • fault-tolerance
    • tensor-parallel
    • kv-cache
    • resilience
  • 2026年6月20日

    SAVE-ATC25

    • fault-tolerance
    • gpu
    • inference
    • edge-ai
    • bit-flip
  • 2026年6月20日

    UCP-ATC25

    • llm-training
    • checkpointing
    • parallelism
    • deepspeed
    • reconfiguration
    • fault-tolerance

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community