TernaryBERT如何实现模型size降低的 #238

saggitarxm · 2023-05-16T06:21:06Z

你好，看了您的论文和代码，word_embedding, q，k，v等weight采用了TWN的方式进行量化，但是TWN的量化方法其实是对weight的取值进行量化，weight的size还是32bit，并不是2bit，保存的模型size和原始模型是一样大的，推理的时间也不能降低，请问是哪里理解错了呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TernaryBERT如何实现模型size降低的 #238

TernaryBERT如何实现模型size降低的 #238

saggitarxm commented May 16, 2023

TernaryBERT如何实现模型size降低的 #238

TernaryBERT如何实现模型size降低的 #238

Comments

saggitarxm commented May 16, 2023