Yanxi Chen's picture

4 2

Yanxi Chen

yanxi-chen

AI & ML interests

None yet

Organizations

None yet

upvoted a paper 4 months ago

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Paper • 2509.24203 • Published Sep 29, 2025 • 7

upvoted a paper 8 months ago

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Paper • 2505.17826 • Published May 23, 2025 • 9