about train stage 1

作者您好，论文中提到训练是分3阶段完成的，在第三阶段因为变成了单步dit，所以可以引入感知loss，那么请问在第一阶段训练时，由于只有flow matching loss，该阶段的网络对于视频细节还原能足够好吗？