Improve First Token Latency for multi-GPU projects (by flash attention or alternative) #10897

moutainriver · 2024-04-26T10:26:39Z

For multi-GPU solution, we still have challenges for First Token Latency. The breakdown data is shared in offline.
please help add more optimization features (like SDP/Flash Attention etc) to improve the First Token Latency.

qiuxin2012 added the user issue label Apr 28, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve First Token Latency for multi-GPU projects (by flash attention or alternative) #10897

Improve First Token Latency for multi-GPU projects (by flash attention or alternative) #10897

moutainriver commented Apr 26, 2024

Improve First Token Latency for multi-GPU projects (by flash attention or alternative) #10897

Improve First Token Latency for multi-GPU projects (by flash attention or alternative) #10897

Comments

moutainriver commented Apr 26, 2024