Make amp_ppo compatible with rsl-rl v2.3.0 (#4)

GiulioRomualdi · web-flow · commit cdd25e5c3dad · 2025-04-11T16:11:52.000+02:00
diff --git a/amp_rsl_rl/algorithms/amp_ppo.py b/amp_rsl_rl/algorithms/amp_ppo.py
@@ -106,7 +106,7 @@ def __init__(
         # The discriminator expects concatenated observations, so the replay buffer uses half the dimension.
         obs_dim: int = self.discriminator.input_dim // 2
         self.amp_storage: ReplayBuffer = ReplayBuffer(
-            obs_dim, amp_replay_buffer_size, device
+            obs_dim=obs_dim, buffer_size=amp_replay_buffer_size, device=device
         )
         self.amp_data: AMPLoader = amp_data
         self.amp_normalizer: Optional[Any] = amp_normalizer
@@ -172,11 +172,13 @@ def init_storage(
             Shape of the actions taken by the policy.
         """
         self.storage = RolloutStorage(
-            num_envs,
-            num_transitions_per_env,
-            actor_obs_shape,
-            critic_obs_shape,
-            action_shape,
+            training_type="rl",
+            num_envs=num_envs,
+            num_transitions_per_env=num_transitions_per_env,
+            obs_shape=actor_obs_shape,
+            privileged_obs_shape=critic_obs_shape,
+            actions_shape=action_shape,
+            rnd_state_shape=None,
             device=self.device,
         )
 
diff --git a/amp_rsl_rl/runners/amp_on_policy_runner.py b/amp_rsl_rl/runners/amp_on_policy_runner.py
@@ -9,27 +9,22 @@
 import os
 import statistics
 import time
-import rsl_rl.utils
-import torch
 from collections import deque
+
+import torch
 from torch.utils.tensorboard import SummaryWriter as TensorboardSummaryWriter
 
 import rsl_rl
+import rsl_rl.utils
+from rsl_rl.env import VecEnv
+from rsl_rl.modules import ActorCritic, ActorCriticRecurrent, EmpiricalNormalization
+from rsl_rl.utils import store_code_state
+
 from amp_rsl_rl.utils import Normalizer
 from amp_rsl_rl.utils import AMPLoader
 from amp_rsl_rl.algorithms import AMP_PPO
 from amp_rsl_rl.networks import Discriminator
-
-from isaaclab_rl.rsl_rl import (
-    export_policy_as_onnx,
-)
-
-from rsl_rl.env import VecEnv
-
-from rsl_rl.modules import ActorCritic, ActorCriticRecurrent, EmpiricalNormalization
-
-
-from rsl_rl.utils import store_code_state
+from amp_rsl_rl.utils import export_policy_as_onnx
 
 
 class AMPOnPolicyRunner:
@@ -508,13 +503,24 @@ def log(self, locs: dict, width: int = 80, pad: int = 35):
             #   f"""{'Mean episode length/episode:':>{pad}} {locs['mean_trajectory_length']:.2f}\n""")
 
         log_string += ep_string
+
+        # make the eta in H:M:S
+        eta_seconds = (
+            self.tot_time
+            / (locs["it"] + 1)
+            * (locs["num_learning_iterations"] - locs["it"])
+        )
+
+        # Convert seconds to H:M:S
+        eta_h, rem = divmod(eta_seconds, 3600)
+        eta_m, eta_s = divmod(rem, 60)
+
         log_string += (
             f"""{'-' * width}\n"""
             f"""{'Total timesteps:':>{pad}} {self.tot_timesteps}\n"""
             f"""{'Iteration time:':>{pad}} {iteration_time:.2f}s\n"""
             f"""{'Total time:':>{pad}} {self.tot_time:.2f}s\n"""
-            f"""{'ETA:':>{pad}} {self.tot_time / (locs['it'] + 1) * (
-                               locs['num_learning_iterations'] - locs['it']):.1f}s\n"""
+            f"""{'ETA:':>{pad}} {int(eta_h)}h {int(eta_m)}m {int(eta_s)}s\n"""
         )
         print(log_string)
 
diff --git a/amp_rsl_rl/utils/__init__.py b/amp_rsl_rl/utils/__init__.py
@@ -8,5 +8,6 @@
 
 from .utils import Normalizer, RunningMeanStd
 from .motion_loader import AMPLoader, download_amp_dataset_from_hf
+from .exporter import export_policy_as_onnx
 
-__all__ = ["Normalizer", "RunningMeanStd", "AMPLoader", "download_amp_dataset_from_hf"]
+__all__ = ["Normalizer", "RunningMeanStd", "AMPLoader", "download_amp_dataset_from_hf", "export_policy_as_onnx"]
diff --git a/amp_rsl_rl/utils/exporter.py b/amp_rsl_rl/utils/exporter.py
@@ -0,0 +1,149 @@
+# Copyright (c) 2022-2025, The Isaac Lab Project Developers.
+# All rights reserved.
+#
+# SPDX-License-Identifier: BSD-3-Clause
+#
+# Code taken from https://github.com/isaac-sim/IsaacLab/blob/5716d5600a1a0e45345bc01342a70bd81fac7889/source/isaaclab_rl/isaaclab_rl/rsl_rl/exporter.py
+
+import copy
+import os
+import torch
+
+
+def export_policy_as_onnx(
+    actor_critic: object,
+    path: str,
+    normalizer: object | None = None,
+    filename="policy.onnx",
+    verbose=False,
+):
+    """Export policy into a Torch ONNX file.
+
+    Args:
+        actor_critic: The actor-critic torch module.
+        normalizer: The empirical normalizer module. If None, Identity is used.
+        path: The path to the saving directory.
+        filename: The name of exported ONNX file. Defaults to "policy.onnx".
+        verbose: Whether to print the model summary. Defaults to False.
+    """
+    if not os.path.exists(path):
+        os.makedirs(path, exist_ok=True)
+    policy_exporter = _OnnxPolicyExporter(actor_critic, normalizer, verbose)
+    policy_exporter.export(path, filename)
+
+
+"""
+Helper Classes - Private.
+"""
+
+
+class _TorchPolicyExporter(torch.nn.Module):
+    """Exporter of actor-critic into JIT file."""
+
+    def __init__(self, actor_critic, normalizer=None):
+        super().__init__()
+        self.actor = copy.deepcopy(actor_critic.actor)
+        self.is_recurrent = actor_critic.is_recurrent
+        if self.is_recurrent:
+            self.rnn = copy.deepcopy(actor_critic.memory_a.rnn)
+            self.rnn.cpu()
+            self.register_buffer(
+                "hidden_state",
+                torch.zeros(self.rnn.num_layers, 1, self.rnn.hidden_size),
+            )
+            self.register_buffer(
+                "cell_state", torch.zeros(self.rnn.num_layers, 1, self.rnn.hidden_size)
+            )
+            self.forward = self.forward_lstm
+            self.reset = self.reset_memory
+        # copy normalizer if exists
+        if normalizer:
+            self.normalizer = copy.deepcopy(normalizer)
+        else:
+            self.normalizer = torch.nn.Identity()
+
+    def forward_lstm(self, x):
+        x = self.normalizer(x)
+        x, (h, c) = self.rnn(x.unsqueeze(0), (self.hidden_state, self.cell_state))
+        self.hidden_state[:] = h
+        self.cell_state[:] = c
+        x = x.squeeze(0)
+        return self.actor(x)
+
+    def forward(self, x):
+        return self.actor(self.normalizer(x))
+
+    @torch.jit.export
+    def reset(self):
+        pass
+
+    def reset_memory(self):
+        self.hidden_state[:] = 0.0
+        self.cell_state[:] = 0.0
+
+    def export(self, path, filename):
+        os.makedirs(path, exist_ok=True)
+        path = os.path.join(path, filename)
+        self.to("cpu")
+        traced_script_module = torch.jit.script(self)
+        traced_script_module.save(path)
+
+
+class _OnnxPolicyExporter(torch.nn.Module):
+    """Exporter of actor-critic into ONNX file."""
+
+    def __init__(self, actor_critic, normalizer=None, verbose=False):
+        super().__init__()
+        self.verbose = verbose
+        self.actor = copy.deepcopy(actor_critic.actor)
+        self.is_recurrent = actor_critic.is_recurrent
+        if self.is_recurrent:
+            self.rnn = copy.deepcopy(actor_critic.memory_a.rnn)
+            self.rnn.cpu()
+            self.forward = self.forward_lstm
+        # copy normalizer if exists
+        if normalizer:
+            self.normalizer = copy.deepcopy(normalizer)
+        else:
+            self.normalizer = torch.nn.Identity()
+
+    def forward_lstm(self, x_in, h_in, c_in):
+        x_in = self.normalizer(x_in)
+        x, (h, c) = self.rnn(x_in.unsqueeze(0), (h_in, c_in))
+        x = x.squeeze(0)
+        return self.actor(x), h, c
+
+    def forward(self, x):
+        return self.actor(self.normalizer(x))
+
+    def export(self, path, filename):
+        self.to("cpu")
+        if self.is_recurrent:
+            obs = torch.zeros(1, self.rnn.input_size)
+            h_in = torch.zeros(self.rnn.num_layers, 1, self.rnn.hidden_size)
+            c_in = torch.zeros(self.rnn.num_layers, 1, self.rnn.hidden_size)
+            actions, h_out, c_out = self(obs, h_in, c_in)
+            torch.onnx.export(
+                self,
+                (obs, h_in, c_in),
+                os.path.join(path, filename),
+                export_params=True,
+                opset_version=11,
+                verbose=self.verbose,
+                input_names=["obs", "h_in", "c_in"],
+                output_names=["actions", "h_out", "c_out"],
+                dynamic_axes={},
+            )
+        else:
+            obs = torch.zeros(1, self.actor[0].in_features)
+            torch.onnx.export(
+                self,
+                obs,
+                os.path.join(path, filename),
+                export_params=True,
+                opset_version=11,
+                verbose=self.verbose,
+                input_names=["obs"],
+                output_names=["actions"],
+                dynamic_axes={},
+            )
diff --git a/pyproject.toml b/pyproject.toml
@@ -35,7 +35,7 @@ dependencies = [
     "numpy>=1.21.0",
     "scipy>=1.7.0",
     "torch>=1.10.0",
-    "rsl-rl-lib>=1.0.0",
+    "rsl-rl-lib>=2.3.0",
 ]
 dynamic = ["version"]
 

Original file line number	Diff line number	Diff line change
`@@ -35,7 +35,7 @@ dependencies = [`
`35`	`35`	`"numpy>=1.21.0",`
`36`	`36`	`"scipy>=1.7.0",`
`37`	`37`	`"torch>=1.10.0",`
`38`		`- "rsl-rl-lib>=1.0.0",`
	`38`	`+ "rsl-rl-lib>=2.3.0",`
`39`	`39`	`]`
`40`	`40`	`dynamic = ["version"]`
`41`	`41`