From 607fadea787473fbe86ac4011c1b7bd568875c7e Mon Sep 17 00:00:00 2001
From: Kai Xu <kaix@nvidia.com>
Date: Fri, 20 Feb 2026 22:57:45 -0800
Subject: [PATCH] Fix the example test

Signed-off-by: Kai Xu <kaix@nvidia.com>
---
 tests/examples/llm_eval/test_llm_eval.py | 17 -----------------
 1 file changed, 17 deletions(-)

diff --git a/tests/examples/llm_eval/test_llm_eval.py b/tests/examples/llm_eval/test_llm_eval.py
index 88d29dedc..0abf78b53 100644
--- a/tests/examples/llm_eval/test_llm_eval.py
+++ b/tests/examples/llm_eval/test_llm_eval.py
@@ -36,20 +36,3 @@ def test_llama_eval_fp8():
     finally:
         # Force kill llm-serve if it's still running
         subprocess.run(["pkill", "-f", "llm-serve"], check=False)
-
-
-def test_llama_eval_sparse_attention(tiny_llama_path):
-    """Test sparse attention with llm_eval integration."""
-    try:
-        # Test with default sparse attention config (no quantization)
-        run_llm_ptq_command(
-            model=tiny_llama_path,
-            quant="none",  # No quantization, only sparse attention
-            tasks="lm_eval",
-            lm_eval_tasks="hellaswag",
-            lm_eval_limit=0.05,  # Small limit for fast test
-            sparse_cfg="SKIP_SOFTMAX_DEFAULT",
-            batch=4,
-        )
-    finally:
-        subprocess.run(["pkill", "-f", "llm-serve"], check=False)