Skip to content

VLM 활용을 위한 Table 이미지 저장 및 메타데이터 설계 #130

@yspaik

Description

@yspaik

프로젝트

중부발전, 가스공사, 한국해양 BMT

대상 페이지

BMT 최종 벡터 DB(ID: 1571)

상세 설명

복잡 Table 에 대해 “검색은 청크 기반 / 답변은 표 이미지 기반” 지원을 위한 Table 이미지 + 메타데이터 구조 도입

배경

현재는:

  • VLM이 추출한 마크다운 테이블로 기존 청크 내 표 영역을 대체.
  • 전수 조사 후 이슈가 있는 표는 HWPX 표 파싱 결과로 다시 대체하는 임시 방편을 사용.
  • 마크다운 테이블은 필수적으로 헤더 컬럼이 있어야 하고, 다양한 표 양식을 모두 수용하기 어려움.
  • 복잡한 병합/레이아웃을 가진 표는 “텍스트 형태로 완전하게 정규화”하는 데 모델적/구조적 한계 존재.

이에 따라,

  • “검색은 청크 기반 / 답변은 표 이미지 기반”
    전략을 UI/파이프라인 차원에서 지원할 필요성이 제기됨.

요구사항

  • Table 을 텍스트로만 보지 않고, 이미지(시각적 표) 로도 함께 보관할 수 있는 구조 도입.
  • 추후 VLM 혹은 별도 Table-VLM 이 해당 이미지와 함께 사용될 수 있도록 메타데이터 설계.
    Facade/전처리기 옵션에서:
  • “표를 이미지로 저장할지 여부”
  • “이미지 기반 표 답변 전략을 사용할지 여부”
    를 선택할 수 있도록 확장.

문서 파싱 과정에서:

  • Table bounding box를 추출 (Doc Parser 레이아웃 분석 결과 활용).
  • 해당 영역을 잘라 별도 이미지(PNG/JPEG 등)로 저장.
    저장된 이미지에 대해:
  • 문서 ID, 페이지 번호, 테이블 인덱스, bounding box 좌표 등 메타데이터를 함께 기록할때 table 을 picture 와 동일하게 대응

검색 시:
여전히 텍스트 청크 기반으로 검색 수행.

답변 생성 시:
해당 청크가 “표 관련 질의”로 판단되면, 연결된 table_image_url 을 사용해

  • VLM 호출 시 이미지 입력으로 함께 전달할 수 있는 구조 지원.

Facade 옵션화
프로젝트별로:

  • “표를 텍스트로만 쓸 것인지”,
  • “텍스트 + 이미지 하이브리드로 쓸 것인지”
    선택 가능하도록 설계.

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request
No fields configured for Feature.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions