개선 대상 및 현재 한계점
현재 prod vLLM은 5090 GPU에서 Qwen/Qwen3.5-9B를 사용 중입니다.
AI 힌트 기능은 문제 지문과 사용자 코드를 분석해야 하므로 9B 모델은 품질 측면에서 낮을 수 있습니다.
제안하는 개선 사항
5090 GPU를 더 효과적으로 활용하기 위해 모델 상향을 검토합니다.
- 27B AWQ/GPTQ 등 양자화 모델
- Qwen 3.6 27B FP8
27B 양자화 모델은 max-num-seqs=8, gpu-memory-utilization=0.86~0.88 정도로 보수적으로 시작해 안정성을 확인합니다.
참고 자료
kubernetes/base/vllm/deployment.yaml
backend/problem/llm_hint.py
kubernetes/monitoring/grafana-dashboard-ai-inference.yaml
확인 메트릭:
- KV cache usage
- waiting queue
- p95 latency / TTFT
- GPU memory / utilization / temperature
- vLLM pod OOM 또는 restart 여부
Acceptance Criteria
개선 대상 및 현재 한계점
현재 prod vLLM은 5090 GPU에서
Qwen/Qwen3.5-9B를 사용 중입니다.AI 힌트 기능은 문제 지문과 사용자 코드를 분석해야 하므로 9B 모델은 품질 측면에서 낮을 수 있습니다.
제안하는 개선 사항
5090 GPU를 더 효과적으로 활용하기 위해 모델 상향을 검토합니다.
27B 양자화 모델은
max-num-seqs=8,gpu-memory-utilization=0.86~0.88정도로 보수적으로 시작해 안정성을 확인합니다.참고 자료
kubernetes/base/vllm/deployment.yamlbackend/problem/llm_hint.pykubernetes/monitoring/grafana-dashboard-ai-inference.yaml확인 메트릭:
Acceptance Criteria