作者您好,论文中提到训练是分3阶段完成的,在第三阶段因为变成了单步dit,所以可以引入感知loss,那么请问在第一阶段训练时,由于只有flow matching loss,该阶段的网络对于视频细节还原能足够好吗?