meta-recsys · melody-lui3 · Jan 13, 2026
diff --git a/generative_recommenders/modules/stu.py b/generative_recommenders/modules/stu.py
@@ -346,7 +346,8 @@ def forward(
                 group_norm=self._use_group_norm,
                 num_heads=self._num_heads,
                 linear_dim=self._hidden_dim,
-                concat_ux=True,
+                concat_u=True,
+                concat_x=True,
                 training=self.training,
                 kernel=self.hammer_kernel(),
                 recompute_y_in_backward=self._recompute_y,
@@ -412,7 +413,8 @@ def cached_forward(
                 group_norm=self._use_group_norm,
                 num_heads=self._num_heads,
                 linear_dim=self._hidden_dim,
-                concat_ux=True,
+                concat_u=True,
+                concat_x=True,
                 training=self.training,
                 kernel=self.hammer_kernel(),
                 recompute_y_in_backward=self._recompute_y,

diff --git a/generative_recommenders/ops/hstu_compute.py b/generative_recommenders/ops/hstu_compute.py
@@ -101,7 +101,8 @@ def hstu_compute_output(
     linear_dim: int,
     dropout_ratio: float,
     training: bool,
-    concat_ux: bool,
+    concat_u: bool,
+    concat_x: bool,
     group_norm: bool,
     recompute_y_in_backward: bool,
     kernel: HammerKernel = HammerKernel.PYTORCH,
@@ -117,7 +118,8 @@ def hstu_compute_output(
             eps=norm_eps,
             dropout_ratio=dropout_ratio,
             training=training,
-            concat_ux=concat_ux,
+            concat_u=concat_u,
+            concat_x=concat_x,
             group_norm=group_norm,
             num_heads=num_heads,
             linear_dim=linear_dim,
@@ -134,7 +136,7 @@ def hstu_compute_output(
                 eps=norm_eps,
                 dropout_ratio=dropout_ratio,
                 training=training,
-                concat_ux=concat_ux,
+                concat_ux=concat_u and concat_x,
                 num_heads=num_heads,
                 linear_dim=linear_dim,
             )
@@ -147,7 +149,8 @@ def hstu_compute_output(
                 eps=norm_eps,
                 dropout_ratio=dropout_ratio,
                 training=training,
-                concat_ux=concat_ux,
+                concat_u=concat_u,
+                concat_x=concat_x,
             )
         return triton_cc_addmm(x, y, output_weight)
     else:
@@ -161,7 +164,8 @@ def hstu_compute_output(
             eps=norm_eps,
             dropout_ratio=dropout_ratio,
             training=training,
-            concat_ux=concat_ux,
+            concat_u=concat_u,
+            concat_x=concat_x,
             group_norm=group_norm,
             num_heads=num_heads,
             linear_dim=linear_dim,

diff --git a/generative_recommenders/ops/pytorch/pt_hstu_linear.py b/generative_recommenders/ops/pytorch/pt_hstu_linear.py
@@ -29,7 +29,8 @@ def pytorch_norm_mul_dropout(
     dropout_ratio: float,
     training: bool,
     silu_u: bool = False,
-    concat_ux: bool = False,
+    concat_u: bool = False,
+    concat_x: bool = False,
     group_norm: bool = False,
     num_heads: int = 1,
     linear_dim: int = -1,
@@ -47,6 +48,8 @@ def pytorch_norm_mul_dropout(
             bias=bias.to(torch.float32),
             eps=eps,
         ).view(-1, num_heads * linear_dim)
+        if concat_u and concat_x:
+            y = torch.cat([u, x, y], dim=1)
     else:
         y = u * F.layer_norm(
             x,
@@ -55,8 +58,12 @@ def pytorch_norm_mul_dropout(
             bias=bias.to(torch.float32),
             eps=eps,
         )
-    if concat_ux:
-        y = torch.cat([u, x, y], dim=1)
+        if concat_u and concat_x:
+            y = torch.cat([u, x, y], dim=1)
+        elif concat_u:
+            y = torch.cat([u, y], dim=1)
+        elif concat_x:
+            y = torch.cat([x, y], dim=1)
     y = F.dropout(
         y,
         p=dropout_ratio,
@@ -76,7 +83,8 @@ def pytorch_hstu_compute_output(
     dropout_ratio: float,
     training: bool,
     silu_u: bool = False,
-    concat_ux: bool = False,
+    concat_u: bool = False,
+    concat_x: bool = False,
     group_norm: bool = False,
     num_heads: int = 1,
     linear_dim: int = -1,
@@ -91,7 +99,8 @@ def pytorch_hstu_compute_output(
         dropout_ratio=dropout_ratio,
         training=training,
         silu_u=silu_u,
-        concat_ux=concat_ux,
+        concat_u=concat_u,
+        concat_x=concat_x,
         group_norm=group_norm,
         num_heads=num_heads,
         linear_dim=linear_dim,

diff --git a/generative_recommenders/ops/tests/hstu_compute_test.py b/generative_recommenders/ops/tests/hstu_compute_test.py
@@ -37,7 +37,8 @@ class HSTUComputeTest(unittest.TestCase):
         N=st.integers(min_value=1000, max_value=1000),
         D=st.integers(min_value=128, max_value=128),
         L=st.integers(min_value=512, max_value=512),
-        concat_ux=st.booleans(),
+        concat_u=st.booleans(),
+        concat_x=st.booleans(),
         group_norm=st.booleans(),
         num_heads=st.sampled_from([4]),
         training=st.just(False),
@@ -69,7 +70,8 @@ def test_compute_output(self, *args, **kwargs) -> None:
         N=st.just(1500000),
         D=st.just(512),
         L=st.just(512),
-        concat_ux=st.sampled_from([True]),
+        concat_u=st.sampled_from([True]),
+        concat_x=st.sampled_from([True]),
         group_norm=st.sampled_from([False]),
         num_heads=st.sampled_from([4]),
         training=st.just(False),
@@ -97,7 +99,8 @@ def _test_compute_output(
         N: int,
         D: int,
         L: int,
-        concat_ux: bool,
+        concat_u: bool,
+        concat_x: bool,
         group_norm: bool,
         num_heads: int,
         training: bool,
@@ -145,10 +148,17 @@ def _test_compute_output(
             .requires_grad_()
         )
         norm_eps = 1e-6
+        # When group_norm=True, only concat_ux = concat_u and concat_x is supported
+        if group_norm:
+            L_mult = 3 if (concat_u and concat_x) else 1
+        else:
+            L_mult = 1
+            if concat_u:
+                L_mult += 1
+            if concat_x:
+                L_mult += 1
         output_weight = (
-            torch.empty(
-                (L * 3 if concat_ux else L, D), dtype=dtype, device=torch.device("cuda")
-            )
+            torch.empty((L * L_mult, D), dtype=dtype, device=torch.device("cuda"))
             .uniform_(-0.1, 0.1)
             .requires_grad_()
         )
@@ -168,7 +178,8 @@ def _test_compute_output(
             norm_eps=norm_eps,
             dropout_ratio=dropout_ratio,
             output_weight=output_weight,
-            concat_ux=concat_ux,
+            concat_u=concat_u,
+            concat_x=concat_x,
             group_norm=group_norm,
             num_heads=num_heads,
             linear_dim=L // num_heads,
@@ -204,7 +215,8 @@ def _test_compute_output(
             norm_eps=norm_eps,
             dropout_ratio=dropout_ratio,
             output_weight=output_weight,
-            concat_ux=concat_ux,
+            concat_u=concat_u,
+            concat_x=concat_x,
             group_norm=group_norm,
             num_heads=num_heads,
             linear_dim=L // num_heads,