About audio and video frames align #129

zyhsuperman · 2024-04-21T06:23:58Z

非常感谢您的分享。
想问您一个我一直没搞清楚的问题：
对于使用mel的模型，我清楚mel是怎么和每个视频帧对齐的。
但是使用wav2vec2的模型，音频特征是怎么和每个视频帧对齐的呢？

Zejun-Yang · 2024-04-22T02:36:54Z

#131
感谢您的关注。可以参考我们在这个issue中公开的代码，采用audio_encoder将音频特征转换为与视频帧对应的分片。

zyhsuperman · 2024-04-22T02:41:12Z

感谢！

zyhsuperman · 2024-04-26T03:43:56Z

在看了您的131问题中提供的代码片段之后，有一个问题：
我有观察到似乎所有的数据都是共用了同一个neutral_face，所以想问一下您这个neutral_face是怎么得到的呢？

zyhsuperman closed this as completed Apr 22, 2024

zyhsuperman reopened this Apr 26, 2024

Provide feedback