Awesome System Papers Wiki
Search
搜索
暗色模式
亮色模式
探索
标签: llm-training
此标签下有35条笔记。
2026年6月20日
Data-Parallelism
distributed-training
parallelism
gradient-sync
llm-training
2026年6月20日
Flash-Attention
attention
gpu-kernel
llm-training
llm-inference
2026年6月20日
LLM
llm-inference
llm-training
foundation-model
agents
serving
2026年6月20日
LoRA
fine-tuning
peft
llm-training
model-compression
2026年6月20日
Sparse-Attention
attention
long-context
efficiency
llm-inference
llm-training
2026年6月20日
DeepSpeed
llm-training
distributed-training
zero
memory-optimization
pipeline-parallelism
checkpointing
fault-tolerance
microsoft
2026年6月20日
Megatron
llm-training
distributed-training
tensor-parallel
pipeline-parallel
expert-parallel
2026年6月20日
AdaCheck-FAST26
llm-training
checkpointing
fault-tolerance
parallelism
redundancy
2026年6月20日
Barre-ATC25
congestion-control
rdma
rocev2
ai-cluster
programmable-nic
llm-training
2026年6月20日
ByteRobust-SOSP25
llm-training
fault-tolerance
gpu-infrastructure
checkpointing
sdc
2026年6月20日
CAGE-MLSys26
quantization
qat
llm-training
ste
optimization
2026年6月20日
CrossPipe-ATC25
llm-training
pipeline-parallelism
cross-datacenter
scheduling
distributed-training
performance-modeling
2026年6月20日
DCP-SOSP25
long-context
context-parallelism
llm-training
attention
hypergraph-partitioning
2026年6月20日
DistCA-MLSys26
llm-training
long-context
attention
disaggregation
load-balancing
2026年6月20日
DreamDDP-MLSys26
distributed-training
local-sgd
geo-distributed
communication-overlap
llm-training
2026年6月20日
FlashAttention-2-ICLR24
attention
gpu-kernel
transformer
long-context
llm-training
2026年6月20日
FlexPipe-ATC25
pipeline-parallelism
llm-training
variable-length
dynamic-reconfiguration
transformer
2026年6月20日
FlexTrain-MLSys26
llm-training
elastic-training
pipeline-parallelism
scheduling
cluster
2026年6月20日
Greyhound-ATC25
llm-training
fail-slow
straggler
hybrid-parallelism
characterization
2026年6月20日
HexiScale-MLSys26
llm-training
heterogeneous-gpus
scheduling
pipeline-parallel
mfU
2026年6月20日
Mycroft-SOSP25
llm-training
collective-communication
tracing
nccl
reliability
2026年6月20日
NSA-ACL25
sparse-attention
long-context
attention-kernel
llm-training
llm-inference
2026年6月20日
Obscura-ATC25
llm-training
pipeline-parallelism
activation-recomputation
activation-swapping
memory-optimization
scheduling
2026年6月20日
Optimus-ATC25
llm-training
multimodal
3d-parallelism
pipeline-bubble
distributed-training
2026年6月20日
PROMPTS-MLSys26
llm-training
auto-tuning
sharding
multi-agent
tpu
2026年6月20日
ProTrain-MLSys26
llm-training
memory-management
zero
gradient-checkpointing
auto-tuning
2026年6月20日
Quirk-Sparing-MLSys26
llm-training
fault-tolerance
sparing
goodput
meta-infrastructure
2026年6月20日
ReSpec-MLSys26
reinforcement-learning
speculative-decoding
llm-training
knowledge-distillation
grpo
2026年6月20日
SMon-OSDI25
llm-training
stragglers
distributed-training
what-if-analysis
bytedance
2026年6月20日
SakuraONE-MLSys26
hpc
llm-training
open-networking
sonic
workload-telemetry
2026年6月20日
TrainVerify-SOSP25
formal-verification
distributed-training
parallelism
llm-training
equivalence-checking
2026年6月20日
UCP-ATC25
llm-training
checkpointing
parallelism
deepspeed
reconfiguration
fault-tolerance
2026年6月20日
WLB-LLM-OSDI25
llm-training
pipeline-parallelism
context-parallelism
workload-balance
4d-parallelism
2026年6月20日
Zorse-MLSys26
distributed-training
heterogeneous-gpu
pipeline-parallelism
zero
llm-training
2026年6月20日
mTuner-ATC25
peft
llm-training
memory-management
tensor-parallelism
distributed-training
elastic-tensor