-
Notifications
You must be signed in to change notification settings - Fork 735
[Iluvatar] wint8 量化推理报错 CUINFER_STATUS_BAD_PARAM,且 debug 需要全量编译,耗时太长 #7063
Copy link
Copy link
Open
Description
问题描述
在 Iluvatar BI-V150S 上使用 FastDeploy 部署 ERNIE-4.5-21B-A3B-Paddle 模型,开启 --quantization wint8 后,服务启动失败,报错如下:
Error in file /home/aistudio/FastDeploy/custom_ops/iluvatar_ops/w8a16_group_gemv.cu on line 113: CUINFER_STATUS_BAD_PARAM
terminate called after throwing an instance of 'std::runtime_error'
what(): CUINFER_CHECK ERROR
环境信息
硬件: 4x Iluvatar BI-V150S (32GB)
操作系统: Ubuntu 20.04
FastDeploy: fastdeploy-iluvatar-gpu 2.5.0.dev0
PaddlePaddle: paddlepaddle 3.3.0
Paddle Iluvatar: paddle-iluvatar-gpu 3.3.0
aistudio-sdk: 0.3.8
模型: PaddlePaddle/ERNIE-4.5-21B-A3B-Paddle启动命令
export PADDLE_XCCL_BACKEND=iluvatar_gpu
export INFERENCE_MSG_QUEUE_ID=232132
export LD_PRELOAD=/usr/local/corex/lib64/libcuda.so.1
export FD_SAMPLING_CLASS=rejection
python3 -m fastdeploy.entrypoints.openai.api_server \
--model ./ERNIE-4.5-21B-A3B \
--port 8180 \
--tensor-parallel-size 4 \
--quantization wint8 \
--max-model-len 32768 \
--block-size 16调试困难
尝试通过修改源码添加 printf 来定位问题,但 FastDeploy 的编译方式只有 bash build.sh,每次修改都需要全量编译,耗时很长,调试效率极低。
期望
- 希望官方能够复现并修复这个 wint8 算子的 bug
- 如果可能,能否提供更轻量的编译方式(如增量编译)方便调试
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels