Entity

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estim

Paper · arXiv

cs.AI

Authors: Saket Reddy, Ke Yang, ChengXiang Zhai
Published: 2026-06-03
Categories: cs.AIcs.CLcs.CYcs.LG

Abstract ↗

via arXiv · 2606.04807