[Feature] 是否支持enc-dec类型模型中decoder的persistent batch #1581

Oldpan · 2024-05-10T10:46:54Z

Motivation

我们有一些多模态模型，比如nougat是由一个vision encoder模型和llm decoder模型组成的.
其中encoder模型就是传统的cv模型，类似于vit用于提取图像的特征为encoder_hidden_feature，然后再传入decoder中，这个时候decoder中开始传入初始input_id和encoder_hidden_feature，decoder中会有cross attention的部分；
encoder部分可以忽略，主要是decoder部分，这部分支持 persistent batch 吗，这个decoder的输入对比传统的llm-decoder还会额外有 encoder_hidden_feature 输入，会在decoder中进行cross attention。
目前static batching在trt-llm可以的，但是如果想要提升性能，想问lmdeploy是否支持类似这种decoder的persistent batch？

Related resources

No response

Additional context

No response

lvhan028 · 2024-05-11T07:21:56Z

lmdeploy 没有支持 enc-dec 模型。中短期来看，也没有这方面的规划

lzhangzz · 2024-05-11T07:24:53Z

大概看了一下 nougat 不知道有没有理解对。看起来是最开始一段的 KV 来自 encoder model，需要把 encoder 输出的 KV 填到 KV cache 中，然后再使用 decoder 生成？

Oldpan · 2024-05-16T07:50:25Z

@lvhan028 @lzhangzz 感谢回复，在nougat中，encoder输出的feature会和初始input_ids一同传入decoder中，在docoder内部是这么操作的：

这里有两个kv cache以及两个attn

lzhangzz · 2024-05-22T08:59:34Z

大概了解了，看了一下短期内应该支持不了 😅

lvhan028 added the awaiting response label May 13, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] 是否支持enc-dec类型模型中decoder的persistent batch #1581

[Feature] 是否支持enc-dec类型模型中decoder的persistent batch #1581

Oldpan commented May 10, 2024

lvhan028 commented May 11, 2024

lzhangzz commented May 11, 2024 •

edited

Oldpan commented May 16, 2024

lzhangzz commented May 22, 2024

[Feature] 是否支持enc-dec类型模型中decoder的persistent batch #1581

[Feature] 是否支持enc-dec类型模型中decoder的persistent batch #1581

Comments

Oldpan commented May 10, 2024

Motivation

Related resources

Additional context

lvhan028 commented May 11, 2024

lzhangzz commented May 11, 2024 • edited

Oldpan commented May 16, 2024

lzhangzz commented May 22, 2024

lzhangzz commented May 11, 2024 •

edited