[algo] feat: return loss and metrics from policy_loss_fn (volcengine#4062)

tongyx361 · gemini-code-assist[bot] · web-flow · commit a7f58cd4bef7 · 2025-11-10T14:18:09.000+08:00
### What does this PR do? This PR refactors `policy_loss_fn` to return `loss` and `metrics`, allowing more flexible definitions returning any metrics. ### Test See the CI tests. ### API and Usage Example See [core_algos.py](https://github.com/volcengine/verl/blob/main/trainer/ppo/core_algos.py) for examples. --------- Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
diff --git a/recipe/flowrl/flowrl_actor.py b/recipe/flowrl/flowrl_actor.py
@@ -356,16 +356,6 @@ def update_policy(self, data: DataProto):
                     # vanilla -> verl.trainer.ppo.core_algos.compute_policy_loss_vanilla
                     # gpg -> verl.trainer.ppo.core_algos.compute_policy_loss_gpg
                     # clip_cov -> verl.trainer.ppo.core_algos.compute_policy_loss_clip_cov
-                    # policy_loss_fn = get_policy_loss_fn(loss_mode)
-                    # pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower = policy_loss_fn(
-                    #     old_log_prob=old_log_prob,
-                    #     log_prob=log_prob,
-                    #     advantages=advantages,
-                    #     response_mask=response_mask,
-                    #     loss_agg_mode=loss_agg_mode,
-                    #     config=self.config,
-                    #     rollout_log_probs=rollout_log_probs,
-                    # )
                     # Compute FlowRL trajectory balance loss
                     policy_loss, flowrl_metrics = self.compute_flowrl_objective(
                         log_prob=log_prob,
diff --git a/tests/trainer/ppo/test_rollout_corr_integration.py b/tests/trainer/ppo/test_rollout_corr_integration.py
@@ -77,7 +77,7 @@ def test_policy_loss_with_rollout_is(self, sample_data, config_with_rollout_is):
         rollout_is_weights = rollout_is_weights_proto.batch["rollout_is_weights"]
 
         # Policy loss function receives pre-computed IS weights
-        pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower = compute_policy_loss_vanilla(
+        pg_loss, _ = compute_policy_loss_vanilla(
             old_log_prob=sample_data["old_log_prob"],
             log_prob=sample_data["log_prob"],
             advantages=sample_data["advantages"],
@@ -234,7 +234,7 @@ def test_metrics_only_mode(self, sample_data, config_with_rollout_is):
 
         # In metrics-only mode, we compute loss WITHOUT applying weights
         # (simulating rollout_is=False)
-        pg_loss_no_weights, _, _, _ = compute_policy_loss_vanilla(
+        pg_loss_no_weights, _ = compute_policy_loss_vanilla(
             old_log_prob=sample_data["old_log_prob"],
             log_prob=sample_data["log_prob"],
             advantages=sample_data["advantages"],
@@ -246,7 +246,7 @@ def test_metrics_only_mode(self, sample_data, config_with_rollout_is):
 
         # Compare to loss WITH weights (rollout_is=True)
         rollout_is_weights = rollout_is_weights_proto.batch["rollout_is_weights"]
-        pg_loss_with_weights, _, _, _ = compute_policy_loss_vanilla(
+        pg_loss_with_weights, _ = compute_policy_loss_vanilla(
             old_log_prob=sample_data["old_log_prob"],
             log_prob=sample_data["log_prob"],
             advantages=sample_data["advantages"],
diff --git a/verl/trainer/ppo/core_algos.py b/verl/trainer/ppo/core_algos.py
@@ -44,7 +44,7 @@
         Optional[DictConfig | AlgoConfig],  # config
         torch.Tensor | None,  # rollout_log_probs
     ],
-    tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor],
+    tuple[torch.Tensor, dict[str, Any]],
 ]
 
 POLICY_LOSS_REGISTRY: dict[str, PolicyLossFn] = {}
@@ -893,7 +893,7 @@ def compute_policy_loss_vanilla(
     loss_agg_mode: str = "token-mean",
     config: Optional[DictConfig | AlgoConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """
     Compute the clipped policy objective and related metrics for PPO.
 
@@ -968,7 +968,12 @@ def compute_policy_loss_vanilla(
 
     pg_loss = agg_loss(loss_mat=pg_losses, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)
 
-    return pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower
+    pg_metrics = {
+        "actor/pg_clipfrac": pg_clipfrac.detach().item(),
+        "actor/ppo_kl": ppo_kl.detach().item(),
+        "actor/pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),
+    }
+    return pg_loss, pg_metrics
 
 
 @register_policy_loss("gspo")
@@ -980,7 +985,7 @@ def compute_policy_loss_gspo(
     loss_agg_mode: str = "seq-mean-token-mean",
     config: Optional[DictConfig | ActorConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """
     Compute the clipped policy objective and related metrics for GSPO.
 
@@ -1037,8 +1042,12 @@ def compute_policy_loss_gspo(
     pg_clipfrac_lower = torch.tensor(0.0, device=pg_loss.device)
 
     ppo_kl = verl_F.masked_mean(-negative_approx_kl, response_mask)
-
-    return pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower
+    pg_metrics = {
+        "actor/pg_clipfrac": pg_clipfrac.detach().item(),
+        "actor/ppo_kl": ppo_kl.detach().item(),
+        "actor/pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),
+    }
+    return pg_loss, pg_metrics
 
 
 @register_policy_loss("gpg")
@@ -1050,7 +1059,7 @@ def compute_policy_loss_gpg(
     loss_agg_mode: str = "token-mean",
     config: Optional[DictConfig | AlgoConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """Adapted from
     https://github.com/AMAP-ML/GPG/blob/main/VisualThinker-R1-Zero/src/open-r1-multimodal/src/open_r1/trainer/grpo_trainer.py#L495
     Args:
@@ -1071,7 +1080,7 @@ def compute_policy_loss_gpg(
         pg_losses = pg_losses * rollout_is_weights
 
     pg_loss = agg_loss(loss_mat=pg_losses, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)
-    return pg_loss, torch.tensor(0.0), torch.tensor(0.0), torch.tensor(0.0)
+    return pg_loss, {}
 
 
 @register_policy_loss("clip_cov")
@@ -1083,7 +1092,7 @@ def compute_policy_loss_clip_cov(
     loss_agg_mode: str = "token-mean",
     config: Optional[DictConfig | AlgoConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """
     Compute the clipped policy objective and related metrics for Clip-Cov.
 
@@ -1170,8 +1179,11 @@ def compute_policy_loss_clip_cov(
         pg_losses = pg_losses * rollout_is_weights
 
     pg_loss = agg_loss(loss_mat=pg_losses, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)
-
-    return pg_loss, pg_clipfrac, ppo_kl, torch.tensor(0.0)
+    pg_metrics = {
+        "actor/pg_clipfrac": pg_clipfrac.detach().item(),
+        "actor/ppo_kl": ppo_kl.detach().item(),
+    }
+    return pg_loss, pg_metrics
 
 
 @register_policy_loss("kl_cov")
@@ -1183,7 +1195,7 @@ def compute_policy_loss_kl_cov(
     loss_agg_mode: str = "token-mean",
     config: Optional[DictConfig | AlgoConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """
     Compute the clipped policy objective and related metrics for Clip-Cov.
 
@@ -1246,8 +1258,10 @@ def compute_policy_loss_kl_cov(
         pg_losses = pg_losses * rollout_is_weights
 
     pg_loss = agg_loss(loss_mat=pg_losses, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)
-
-    return pg_loss, torch.tensor(0.0), ppo_kl_abs, torch.tensor(0.0)
+    pg_metrics = {
+        "actor/ppo_kl": ppo_kl_abs.detach().item(),
+    }
+    return pg_loss, pg_metrics
 
 
 @register_policy_loss("geo_mean")
@@ -1259,7 +1273,7 @@ def compute_policy_loss_geo_mean(
     loss_agg_mode: str = "token-mean",
     config: Optional[DictConfig | AlgoConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """
     Compute the clipped policy objective and related metrics for GMPO.
 
@@ -1328,8 +1342,12 @@ def compute_policy_loss_geo_mean(
     clipped = torch.ne(negative_approx_kl, negative_approx_kl_clamp)
     pg_clipfrac = verl_F.masked_mean((clipped * (advantages > 0)).float(), response_mask)
     pg_clipfrac_lower = verl_F.masked_mean((clipped * (advantages < 0)).float(), response_mask)
-
-    return pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower
+    pg_metrics = {
+        "actor/pg_clipfrac": pg_clipfrac.detach().item(),
+        "actor/ppo_kl": ppo_kl.detach().item(),
+        "actor/pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),
+    }
+    return pg_loss, pg_metrics
 
 
 def compute_entropy_loss(logits, response_mask, loss_agg_mode: str = "token-mean"):
@@ -1672,12 +1690,14 @@ def compute_policy_loss_with_rollout_correction(
     negative_approx_kl = log_prob - rollout_log_prob
     kl_divergence = verl_F.masked_mean(-negative_approx_kl, effective_mask)
 
-    # No clipping in pure rollout correction mode
-    clip_fraction = torch.tensor(0.0)
+    pg_metrics = rollout_metrics
+    pg_metrics.update(
+        {
+            "actor/ppo_kl": kl_divergence.detach().item(),
+        }
+    )
 
-    # Return tuple matching compute_policy_loss signature: (loss, clip_fraction, kl, clip_fraction_lower)
-    # Note: Algorithm metrics (rollout_metrics) should be handled separately by caller
-    return pg_loss, clip_fraction, kl_divergence, clip_fraction
+    return pg_loss, pg_metrics
 
 
 @register_policy_loss("rollout_correction")
@@ -1689,7 +1709,7 @@ def compute_policy_loss_rollout_correction_wrapper(
     loss_agg_mode: str = "token-mean",
     config: Optional[DictConfig | AlgoConfig] = None,
     rollout_is_weights: torch.Tensor | None = None,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+) -> tuple[torch.Tensor, dict[str, Any]]:
     """Wrapper for compute_policy_loss_with_rollout_correction to match PolicyLossFn interface.
 
     This function is used when algorithm.rollout_correction.use_pure_rollout_correction=True.
diff --git a/verl/workers/actor/dp_actor.py b/verl/workers/actor/dp_actor.py
@@ -452,8 +452,8 @@ def update_policy(self, data: DataProto):
                     # clip_cov -> verl.trainer.ppo.core_algos.compute_policy_loss_clip_cov
                     policy_loss_fn = get_policy_loss_fn(loss_mode)
 
-                    # Compute policy loss (all functions return 4 values)
-                    pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower = policy_loss_fn(
+                    # Compute policy loss (any function is expected to return 2 values)
+                    pg_loss, pg_metrics = policy_loss_fn(
                         old_log_prob=old_log_prob,
                         log_prob=log_prob,
                         advantages=advantages,
@@ -462,6 +462,7 @@ def update_policy(self, data: DataProto):
                         config=self.config,
                         rollout_is_weights=rollout_is_weights,
                     )
+                    micro_batch_metrics.update(pg_metrics)
 
                     if entropy_coeff != 0:
                         entropy_loss = agg_loss(loss_mat=entropy, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)
@@ -490,14 +491,7 @@ def update_policy(self, data: DataProto):
                         loss = policy_loss * loss_scale_factor
                     loss.backward()
 
-                    micro_batch_metrics.update(
-                        {
-                            "actor/pg_loss": pg_loss.detach().item() * loss_scale_factor,
-                            "actor/pg_clipfrac": pg_clipfrac.detach().item(),
-                            "actor/ppo_kl": ppo_kl.detach().item(),
-                            "actor/pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),
-                        }
-                    )
+                    micro_batch_metrics["actor/pg_loss"] = pg_loss.detach().item() * loss_scale_factor
                     append_to_dict(metrics, micro_batch_metrics)
 
                 grad_norm = self._optimizer_step()
diff --git a/verl/workers/actor/megatron_actor.py b/verl/workers/actor/megatron_actor.py
@@ -451,12 +451,7 @@ def loss_func(output, data, meta_info):
                 # Extract pre-computed rollout correction weights if present
                 # Weights are computed centrally in trainer and added when algorithm.rollout_is=True
                 rollout_is_weights = data.get("rollout_is_weights", None)
-
-                # NOTE: Both mismatch diagnostic metrics (PPL, KL, etc.) and IS weight metrics
-                # are computed centrally in ray_trainer.py for consistency and efficiency.
-                # This ensures metrics are computed uniformly across all batches at the trainer level
-                # and avoids redundant computation across workers and micro-batches.
-                pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower = policy_loss_fn(
+                pg_loss, pg_metrics = policy_loss_fn(
                     old_log_prob=old_log_prob,
                     log_prob=log_prob,
                     advantages=advantages,
@@ -465,15 +460,8 @@ def loss_func(output, data, meta_info):
                     config=self.config,
                     rollout_is_weights=rollout_is_weights,
                 )
-
-                stats.update(
-                    {
-                        "actor/pg_loss": pg_loss.detach().item(),
-                        "actor/pg_clipfrac": pg_clipfrac.detach().item(),
-                        "actor/ppo_kl": ppo_kl.detach().item(),
-                        "actor/pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),
-                    }
-                )
+                stats.update(pg_metrics)
+                stats["actor/pg_loss"] = pg_loss.detach().item()
                 policy_loss = pg_loss
 
             if calculate_entropy:
diff --git a/verl/workers/roles/utils/losses.py b/verl/workers/roles/utils/losses.py
@@ -73,23 +73,16 @@ def ppo_loss(config: ActorConfig, model_output, data: TensorDict, dp_group=None)
     loss_mode = config.policy_loss.get("loss_mode", "vanilla")
 
     policy_loss_fn = get_policy_loss_fn(loss_mode)
-    pg_loss, pg_clipfrac, ppo_kl, pg_clipfrac_lower = policy_loss_fn(
+    pg_loss, pg_metrics = policy_loss_fn(
         old_log_prob=old_log_prob,
         log_prob=log_prob,
         advantages=advantages,
         response_mask=response_mask,
         loss_agg_mode=loss_agg_mode,
         config=config,
     )
-
-    metrics.update(
-        {
-            "pg_loss": pg_loss.detach().item(),
-            "pg_clipfrac": pg_clipfrac.detach().item(),
-            "ppo_kl": ppo_kl.detach().item(),
-            "pg_clipfrac_lower": pg_clipfrac_lower.detach().item(),
-        }
-    )
+    metrics.update(pg_metrics)
+    metrics["actor/pg_loss"] = pg_loss.detach().item()
     policy_loss = pg_loss
 
     # add entropy loss