Understanding Reinforcement Learning from Human Feedback (RLHF): Part 1