请问telechat支持rlhf训练吗,还有就是有训练时强有力的baseline的超参数组合吗
请问telechat支持rlhf训练吗,还有就是有训练时强有力的baseline的超参数组合吗