Skip to content

[Improvement] vLLM 모델 상향 검토 #722

Description

@Neibce

개선 대상 및 현재 한계점

현재 prod vLLM은 5090 GPU에서 Qwen/Qwen3.5-9B를 사용 중입니다.

AI 힌트 기능은 문제 지문과 사용자 코드를 분석해야 하므로 9B 모델은 품질 측면에서 낮을 수 있습니다.

제안하는 개선 사항

5090 GPU를 더 효과적으로 활용하기 위해 모델 상향을 검토합니다.

  • 27B AWQ/GPTQ 등 양자화 모델
  • Qwen 3.6 27B FP8

27B 양자화 모델은 max-num-seqs=8, gpu-memory-utilization=0.86~0.88 정도로 보수적으로 시작해 안정성을 확인합니다.

참고 자료

  • kubernetes/base/vllm/deployment.yaml
  • backend/problem/llm_hint.py
  • kubernetes/monitoring/grafana-dashboard-ai-inference.yaml

확인 메트릭:

  • KV cache usage
  • waiting queue
  • p95 latency / TTFT
  • GPU memory / utilization / temperature
  • vLLM pod OOM 또는 restart 여부

Acceptance Criteria

  • 14B 이상 또는 27B 양자화 모델 후보를 선정한다.
  • 5090 단일 GPU에서 후보 모델이 정상 기동되는지 확인한다.
  • AI 힌트 스트리밍 응답이 정상 동작하는지 확인한다.
  • KV cache, queue, latency, GPU memory/temperature 기준으로 운영 가능 여부를 판단한다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Fields

    No fields configured for Feature.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions