英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理

谷途2025-11-09阅读 466
DistServe通过将prefill与decode拆分为独立的计算池,彻底打破二者的干扰,并首次实现了独立伸缩,使其可以各自独立地满足TTFT和TPOT的延迟要求,同时保持高整体效率。 在2024年的大部分时间里,开源社区都对这一思路持保留态度,因为对原有推理系统进行深度的架构重构,需要大量工程投入。