Skip to content

Intelligent Doc Parser TOC/Metadata LLM 설정값 정리 및 메뉴얼 보완 요청 #119

@yspaik

Description

@yspaik

프로젝트

삼성디스플레이

상세 설명

Background

  • 현재 Intelligent Doc Parser 전처리기에서 toc_model, metadata_model, toc_api_base_url, metadata_api_base_url 설정 구조가 직관적이지 않음

  • 고객사가 직접 셋팅하기에는 난이도가 높아, 솔루션 내 기본 전처리기 + 명확한 메뉴얼 제공이 필요함
    (한국은행향 메뉴얼에는 일부 설명이 있으나, 언어·내용이 BOK 특화라 main branch 공용 메뉴얼로 반영 필요)

  • enrichment 전처리기는 문서 text → LLM/VLM 호출 → key-value/메타데이터 추출 역할

  • toc_model, metadata_model

    • 로컬 모델 또는 OpenRouter 등 GenOS 운영망 serving 을 사용하지 않을 때 쓰는 옵션값
    • 모델 이름(e.g. google/gemma-3-27b-it) 또는 local path 를 넣는 구조
  • toc_api_base_url, metadata_api_base_url

    • GenOS 내부 LLM/VLM serving 주소 (보통 이 값을 사용하는 것이 기본 케이스)
    • 해당 값이 있을 경우, 별도 model 인자 없이 GenOS 내부 로직으로 동작

현 구조가 과거 로컬/외부 모델 사용 구조의 잔재가 섞여 있어, 필드 의미가 명확하지 않고 메뉴얼만 보고는 이해하기 어려움

  • Intelligent Doc Parser(지능형 전처리기) 공용 메뉴얼(main branch)에서 아래 내용 명시
    • enrichment 전처리기에서 LLM/VLM endpoint 지정 방식 개요

GenOS 운영망 기준 기본 사용 패턴

  • toc_api_base_url, metadata_api_base_url 위주로 설정

    • 이 경우 toc_model, metadata_model 은 일반적으로 입력 불필요(옵션)
  • 로컬 모델 / OpenRouter 등 예외 케이스

    • GenOS serving 을 사용하지 않을 때만 toc_model, metadata_model 사용

To Do

  • 단기

    • 메뉴얼에 “고객사가 임의로 튜닝/설정하기보다는, 기본 제공 전처리기를 사용하는 것이 권장(best)” 문구 추가
    • 한국은행향 메뉴얼에만 들어가 있는 관련 설명을 정리하여, 공용 메뉴얼로 PR
  • 중/장기

    • Genos 에서 화면상으로 지정하고 해당 지정값을 DB 에서 읽어오는 식으로 수정

See Also

Metadata

Metadata

Assignees

Labels

documentationImprovements or additions to documentationgood first issueGood for newcomers

Type

No fields configured for Task.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions