Why AXPY? #185

richardweii · 2024-05-13T05:48:00Z

非常感谢PowerInfer的工作和开源，本人对具体的实现非常感兴趣，在经过仔细代码阅读之后，有些地方还是不太理解。

请问为什么要在下投影层实现AXPY算子来计算稀疏矩阵，而上投影层则是正常的vec_dot形式的矩阵乘法？在设计上是有什么独到的考虑吗？

YixinSong-e · 2024-05-14T07:19:55Z

这是考虑到了神经元的激活在下投影层是按列的，导致了下投影层加载时的不连续性，decoding阶段LLM推理是memory bandwidth bound的，实现思路就是尽可能保证连续的load，并且跳过不必要的memory access。尽管GPU上shared memory是可以从HBM先不连续的load进来再进行计算，但是CPU上的cache没办法显式控制，AXPY可以保证CPU/GPU都能做到连续的memory access，因此设计了AXPY。

richardweii · 2024-05-14T07:29:12Z

很好的设计思路，非常感谢解答！

richardweii added the question Further information is requested label May 13, 2024

richardweii closed this as completed May 14, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Why AXPY? #185

Why AXPY? #185

richardweii commented May 13, 2024

YixinSong-e commented May 14, 2024

richardweii commented May 14, 2024

Why AXPY? #185

Why AXPY? #185

Comments

richardweii commented May 13, 2024

YixinSong-e commented May 14, 2024

richardweii commented May 14, 2024