Пост-обучение на LLM с TRL: SFT, DPO, GRPO | encorp.ai