publications

*co-primary authors

2024

ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models

Yao Fu , Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete , Dmitrii Ustiugov, Yuvraj Patel, and Luo Mai

OSDI, 2024
MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE Serving

Leyang Xue, Yao Fu , Zhan Lu , Luo Mai, and Mahesh Marina

arXiv preprint arXiv:2401.14361, 2024

2023

TorchOpt: An Efficient Library for Differentiable Optimization

Jie Ren*, Xidong Feng* , Bo Liu* , Xuehai Pan* , Yao Fu , Luo Mai, and Yaodong Yang

JMLR, 2023

2022

Ekko: A Large-Scale deep learning recommender system with Low-Latency model update

Chijun Sima*, Yao Fu* , Man-Kit Sit, Liyi Guo , Xuri Gong , Feng Lin , Junyu Wu , Yongsheng Li , Haidong Rong , Pierre-Louis Aublin , and Luo Mai

OSDI, 2022