Awesome System Papers Wiki
Search
搜索
暗色模式
亮色模式
探索
标签: quantization
此标签下有19条笔记。
2026年6月20日
AttributionSparseActivation-MLSys26
llm-inference
sparsity
runtime-adaptation
attribution
quantization
2026年6月20日
CAGE-MLSys26
quantization
qat
llm-training
ste
optimization
2026年6月20日
ContextAwareMoE-CXLNDP-arXiv25
llm-inference
moe
cxl
ndp
quantization
expert-offloading
2026年6月20日
DecDEC-OSDI25
llm-inference
quantization
on-device
gpu
heterogeneous-memory
2026年6月20日
DeepSeek-V4-arXiv26
foundation
llm
moe
long-context
sparse-attention
quantization
2026年6月20日
DiffKV-SOSP25
kv-cache
llm-serving
compression
gpu-memory
quantization
2026年6月20日
DriftBench-MLSys26
llm-serving
monitoring
infrastructure-drift
safety
quantization
2026年6月20日
ExecuTorch-MLSys26
edge-inference
pytorch
on-device
quantization
deployment
2026年6月20日
FP8FlowMoE-MLSys26
fp8
quantization
moe
training
mixed-precision
2026年6月20日
IntAttention-MLSys26
quantization
attention
edge-inference
softmax
arm
int8
2026年6月20日
Kitty-MLSys26
kv-cache
quantization
llm-inference
mixed-precision
triton
2026年6月20日
MixLLM-MLSys26
quantization
llm-inference
mixed-precision
gpu-kernel
w4a8
2026年6月20日
MoE-nD-arXiv26
llm-inference
kv-cache
compression
quantization
long-context
routing
2026年6月20日
OD-MoE-arXiv25
llm-inference
moe
edge-inference
expert-loading
distributed-inference
quantization
2026年6月20日
OptiKit-MLSys26
quantization
enterprise-ml
ray
llm-serving
automation
slo-tuning
2026年6月20日
QFactory-ATC25
quantization
llm-inference
compiler
gpu-kernel
qtile
2026年6月20日
ScaleSearch-MLSys26
quantization
nvfp4
attention
kv-cache
block-floating-point
2026年6月20日
Shannonic-MLSys26
lossless-compression
quantization
federated-learning
ans
edge-inference
2026年6月20日
veScale-FSDP-MLSys26
fsdp
distributed-training
sharding
moe
quantization
zero-copy