프로젝트
한국투자공사/배포버전(v1.7.4.1)
사용자
administrator
버그의 증상
한글파일을 PDF로 변환 시에 표형식일 경우 표안의 문자열만 추출되는 현상 등
버그의 증상 발생 빈도
재현
적용된 버전 혹은 실험한 위치
한국투자공사 클러스터
전처리 입력 파일
한글파일(hwp)
증상을 확인할 수 있는 step
- 한글 파일 페이지가 가로 형태로 변형되어 있어도 확인할 수 없어 PDF로 변환할 때 표의 일부가 잘리게 됨
- 전처리기가 한글 파일(.hwp)을 PDF로 변환했을 때의 모습
- 실제 청크에 입력된 데이터에도 잘린 부분의 내역인 ‘법인카드 사용내역’에 대한 내용은 존재하지 않음
- 데이터를 가져올 때 레이아웃을 그대로 가져오는 것이 아닌 표 내부의 텍스트만 가져오는 형태로 AI에 입력하는 경우 표의 형태를 알아볼 수 없어 사용자가 원하는 대답이 나오지 않는 경우가 다수 있음.
- 위 : 기본 전처리기 청크 텍스트 결과값 / 아래 : 실제 표 형태
[별표 제3호] \n숙박급지\n구분\n갑지\n을지\n(※ 갑지 제외)\n병지\n아시아주,\n오세아니아주\n•\n싱가포르 \n•\n(아제르바이잔) 바쿠 \n•\n(일본) 도쿄 \n•\n(중국) 홍콩 \n•\n(카자흐스탄) 아스타나 \n•\n(터키) 이스탄불 \n•\n(호주) 다윈, 멜버른, 시드니 \n•\n아제르바이잔 \n•\n일본, 중국, 대만\n•\n스리랑카, 캄보디\n아\n•\n카자흐스탄 \n•\n코트디부아르 \n•\n터키, 호주, 레바논\n•\n뉴질랜드\n•\n인도네시아 \n•\n인도, 베트남\n•\n말레이시아\n•\n브루나이\n•\n태국, 필리핀\n•\n피지\n•\n한국 \n남․북\n아메리카주\n•\n(미국) 뉴욕, 보스톤, 워싱턴 샌프\n란시스코(실리콘밸리지역 포함), \nLA(Greater LA지역포함)\n•\n(브라질) 상파울로, 리오데자네이\n루 \n•\n(캐나다) 캘거리, 퀘벡, 토론토 \n•\n(콜롬비아) 보고타\n•\n(칠레) 산티아고\n•\n미국, 브라질 \n•\n캐나다 \n•\n페루\n•\n케이만제도\n•\n콜롬비아\n•\n칠레",
- 관련 내용에서는 [ 말레이시아·브루나이·태국, 필리핀·피지·한국 ] 이 실제로는 병지에 속해 있으나 AI가 위의 내용을 참고해서 도출한 답변은 을지였음
- 지정된 글자 수만큼 chunk를 분할하므로 데이터 연결성 저하
- ‘[별표 제 3호] 숙박급지’라는 타이틀과 실제 숙박급지 테이블이 chunk 길이 분할에 따라 함께 들어가지 않는 경우가 있음
- ‘숙박급지’를 검색해도 실제 표 안의 값을 확인할 수 없음
프로젝트
한국투자공사/배포버전(v1.7.4.1)
사용자
administrator
버그의 증상
한글파일을 PDF로 변환 시에 표형식일 경우 표안의 문자열만 추출되는 현상 등
버그의 증상 발생 빈도
재현
적용된 버전 혹은 실험한 위치
한국투자공사 클러스터
전처리 입력 파일
한글파일(hwp)
증상을 확인할 수 있는 step
[별표 제3호] \n숙박급지\n구분\n갑지\n을지\n(※ 갑지 제외)\n병지\n아시아주,\n오세아니아주\n•\n싱가포르 \n•\n(아제르바이잔) 바쿠 \n•\n(일본) 도쿄 \n•\n(중국) 홍콩 \n•\n(카자흐스탄) 아스타나 \n•\n(터키) 이스탄불 \n•\n(호주) 다윈, 멜버른, 시드니 \n•\n아제르바이잔 \n•\n일본, 중국, 대만\n•\n스리랑카, 캄보디\n아\n•\n카자흐스탄 \n•\n코트디부아르 \n•\n터키, 호주, 레바논\n•\n뉴질랜드\n•\n인도네시아 \n•\n인도, 베트남\n•\n말레이시아\n•\n브루나이\n•\n태국, 필리핀\n•\n피지\n•\n한국 \n남․북\n아메리카주\n•\n(미국) 뉴욕, 보스톤, 워싱턴 샌프\n란시스코(실리콘밸리지역 포함), \nLA(Greater LA지역포함)\n•\n(브라질) 상파울로, 리오데자네이\n루 \n•\n(캐나다) 캘거리, 퀘벡, 토론토 \n•\n(콜롬비아) 보고타\n•\n(칠레) 산티아고\n•\n미국, 브라질 \n•\n캐나다 \n•\n페루\n•\n케이만제도\n•\n콜롬비아\n•\n칠레",. https://www.notion.so/genonai/2b5fea8aef3c807ab768c3ff8a231e48?p=2edfea8aef3c804a9b6aeabbc24124f2&pm=s