[Improvement] vLLM 모델 상향 검토

## 개선 대상 및 현재 한계점

현재 prod vLLM은 5090 GPU에서 `Qwen/Qwen3.5-9B`를 사용 중입니다.

AI 힌트 기능은 문제 지문과 사용자 코드를 분석해야 하므로 9B 모델은 품질 측면에서 낮을 수 있습니다. 

## 제안하는 개선 사항

5090 GPU를 더 효과적으로 활용하기 위해 모델 상향을 검토합니다.

- 27B AWQ/GPTQ 등 양자화 모델
- Qwen 3.6 27B FP8

27B 양자화 모델은 `max-num-seqs=8`, `gpu-memory-utilization=0.86~0.88` 정도로 보수적으로 시작해 안정성을 확인합니다.

## 참고 자료

- `kubernetes/base/vllm/deployment.yaml`
- `backend/problem/llm_hint.py`
- `kubernetes/monitoring/grafana-dashboard-ai-inference.yaml`

확인 메트릭:

- KV cache usage
- waiting queue
- p95 latency / TTFT
- GPU memory / utilization / temperature
- vLLM pod OOM 또는 restart 여부

## Acceptance Criteria

- [ ] 14B 이상 또는 27B 양자화 모델 후보를 선정한다.
- [ ] 5090 단일 GPU에서 후보 모델이 정상 기동되는지 확인한다.
- [ ] AI 힌트 스트리밍 응답이 정상 동작하는지 확인한다.
- [ ] KV cache, queue, latency, GPU memory/temperature 기준으로 운영 가능 여부를 판단한다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Improvement] vLLM 모델 상향 검토 #722

개선 대상 및 현재 한계점

제안하는 개선 사항

참고 자료

Acceptance Criteria

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Uh oh!

[Improvement] vLLM 모델 상향 검토 #722

Description

개선 대상 및 현재 한계점

제안하는 개선 사항

참고 자료

Acceptance Criteria

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions