在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了