[Iluvatar] wint8 量化推理报错 CUINFER_STATUS_BAD_PARAM，且 debug 需要全量编译，耗时太长

### 问题描述
在 Iluvatar BI-V150S 上使用 FastDeploy 部署 ERNIE-4.5-21B-A3B-Paddle 模型，开启 `--quantization wint8` 后，服务启动失败，报错如下：

```
Error in file /home/aistudio/FastDeploy/custom_ops/iluvatar_ops/w8a16_group_gemv.cu on line 113: CUINFER_STATUS_BAD_PARAM
terminate called after throwing an instance of 'std::runtime_error'
what(): CUINFER_CHECK ERROR
```

### 环境信息
```bash
硬件: 4x Iluvatar BI-V150S (32GB)
操作系统: Ubuntu 20.04
FastDeploy: fastdeploy-iluvatar-gpu 2.5.0.dev0
PaddlePaddle: paddlepaddle 3.3.0
Paddle Iluvatar: paddle-iluvatar-gpu 3.3.0
aistudio-sdk: 0.3.8
模型: PaddlePaddle/ERNIE-4.5-21B-A3B-Paddle
```

### 启动命令
```bash
export PADDLE_XCCL_BACKEND=iluvatar_gpu
export INFERENCE_MSG_QUEUE_ID=232132
export LD_PRELOAD=/usr/local/corex/lib64/libcuda.so.1
export FD_SAMPLING_CLASS=rejection

python3 -m fastdeploy.entrypoints.openai.api_server \
       --model ./ERNIE-4.5-21B-A3B \
       --port 8180 \
       --tensor-parallel-size 4 \
       --quantization wint8 \
       --max-model-len 32768 \
       --block-size 16
```

### 调试困难
尝试通过修改源码添加 printf 来定位问题，但 FastDeploy 的编译方式只有 `bash build.sh`，每次修改都需要全量编译，耗时很长，调试效率极低。

### 期望
1. 希望官方能够复现并修复这个 wint8 算子的 bug
2. 如果可能，能否提供更轻量的编译方式（如增量编译）方便调试


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Iluvatar] wint8 量化推理报错 CUINFER_STATUS_BAD_PARAM，且 debug 需要全量编译，耗时太长 #7063

问题描述

环境信息

启动命令

调试困难

期望

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Iluvatar] wint8 量化推理报错 CUINFER_STATUS_BAD_PARAM，且 debug 需要全量编译，耗时太长 #7063

Description

问题描述

环境信息

启动命令

调试困难

期望

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions