프로젝트
중부발전, 가스공사, 한국해양 BMT
대상 페이지
BMT 최종 벡터 DB(ID: 1571)
상세 설명
복잡 Table 에 대해 “검색은 청크 기반 / 답변은 표 이미지 기반” 지원을 위한 Table 이미지 + 메타데이터 구조 도입
배경
현재는:
- VLM이 추출한 마크다운 테이블로 기존 청크 내 표 영역을 대체.
- 전수 조사 후 이슈가 있는 표는 HWPX 표 파싱 결과로 다시 대체하는 임시 방편을 사용.
- 마크다운 테이블은 필수적으로 헤더 컬럼이 있어야 하고, 다양한 표 양식을 모두 수용하기 어려움.
- 복잡한 병합/레이아웃을 가진 표는 “텍스트 형태로 완전하게 정규화”하는 데 모델적/구조적 한계 존재.
이에 따라,
- “검색은 청크 기반 / 답변은 표 이미지 기반”
전략을 UI/파이프라인 차원에서 지원할 필요성이 제기됨.
요구사항
- Table 을 텍스트로만 보지 않고, 이미지(시각적 표) 로도 함께 보관할 수 있는 구조 도입.
- 추후 VLM 혹은 별도 Table-VLM 이 해당 이미지와 함께 사용될 수 있도록 메타데이터 설계.
Facade/전처리기 옵션에서:
- “표를 이미지로 저장할지 여부”
- “이미지 기반 표 답변 전략을 사용할지 여부”
를 선택할 수 있도록 확장.
문서 파싱 과정에서:
- Table bounding box를 추출 (Doc Parser 레이아웃 분석 결과 활용).
- 해당 영역을 잘라 별도 이미지(PNG/JPEG 등)로 저장.
저장된 이미지에 대해:
- 문서 ID, 페이지 번호, 테이블 인덱스, bounding box 좌표 등 메타데이터를 함께 기록할때 table 을 picture 와 동일하게 대응
검색 시:
여전히 텍스트 청크 기반으로 검색 수행.
답변 생성 시:
해당 청크가 “표 관련 질의”로 판단되면, 연결된 table_image_url 을 사용해
- VLM 호출 시 이미지 입력으로 함께 전달할 수 있는 구조 지원.
Facade 옵션화
프로젝트별로:
- “표를 텍스트로만 쓸 것인지”,
- “텍스트 + 이미지 하이브리드로 쓸 것인지”
선택 가능하도록 설계.
프로젝트
중부발전, 가스공사, 한국해양 BMT
대상 페이지
BMT 최종 벡터 DB(ID: 1571)
상세 설명
복잡 Table 에 대해 “검색은 청크 기반 / 답변은 표 이미지 기반” 지원을 위한 Table 이미지 + 메타데이터 구조 도입
배경
현재는:
이에 따라,
전략을 UI/파이프라인 차원에서 지원할 필요성이 제기됨.
요구사항
Facade/전처리기 옵션에서:
를 선택할 수 있도록 확장.
문서 파싱 과정에서:
저장된 이미지에 대해:
검색 시:
여전히 텍스트 청크 기반으로 검색 수행.
답변 생성 시:
해당 청크가 “표 관련 질의”로 판단되면, 연결된 table_image_url 을 사용해
Facade 옵션화
프로젝트별로:
선택 가능하도록 설계.