Skip to content

[Iluvatar] wint8 量化推理报错 CUINFER_STATUS_BAD_PARAM,且 debug 需要全量编译,耗时太长 #7063

@PlumBlossomMaid

Description

@PlumBlossomMaid

问题描述

在 Iluvatar BI-V150S 上使用 FastDeploy 部署 ERNIE-4.5-21B-A3B-Paddle 模型,开启 --quantization wint8 后,服务启动失败,报错如下:

Error in file /home/aistudio/FastDeploy/custom_ops/iluvatar_ops/w8a16_group_gemv.cu on line 113: CUINFER_STATUS_BAD_PARAM
terminate called after throwing an instance of 'std::runtime_error'
what(): CUINFER_CHECK ERROR

环境信息

硬件: 4x Iluvatar BI-V150S (32GB)
操作系统: Ubuntu 20.04
FastDeploy: fastdeploy-iluvatar-gpu 2.5.0.dev0
PaddlePaddle: paddlepaddle 3.3.0
Paddle Iluvatar: paddle-iluvatar-gpu 3.3.0
aistudio-sdk: 0.3.8
模型: PaddlePaddle/ERNIE-4.5-21B-A3B-Paddle

启动命令

export PADDLE_XCCL_BACKEND=iluvatar_gpu
export INFERENCE_MSG_QUEUE_ID=232132
export LD_PRELOAD=/usr/local/corex/lib64/libcuda.so.1
export FD_SAMPLING_CLASS=rejection

python3 -m fastdeploy.entrypoints.openai.api_server \
       --model ./ERNIE-4.5-21B-A3B \
       --port 8180 \
       --tensor-parallel-size 4 \
       --quantization wint8 \
       --max-model-len 32768 \
       --block-size 16

调试困难

尝试通过修改源码添加 printf 来定位问题,但 FastDeploy 的编译方式只有 bash build.sh,每次修改都需要全量编译,耗时很长,调试效率极低。

期望

  1. 希望官方能够复现并修复这个 wint8 算子的 bug
  2. 如果可能,能否提供更轻量的编译方式(如增量编译)方便调试

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions