YanCotta/post_training_llms - 2 Help Wanted Issues

Open Issues Need Help

enhancement good first issue

Different post-training techniques for LLMs, including: SFT, DPO and Online RL

Python

#alignment#dpo#fine-tuning#huggingface#huggingface-transformers#llm#pytorch#reinforcement-learning#sft#trl

enhancement good first issue

Different post-training techniques for LLMs, including: SFT, DPO and Online RL

Python

#alignment#dpo#fine-tuning#huggingface#huggingface-transformers#llm#pytorch#reinforcement-learning#sft#trl