연구보고서 PDF, 텍스트 기반과 이미지 기반의 차이 이해하기연구보고서 PDF는 크게 두 가지 유형으로 나뉩니다:- 텍스트 기반 PDF: 최신 연구기관 보고서는 한글(HWP)이나 워드 문서에서 변환된 경우가 많아 PDF 내에 텍스트 계층이 살아있습니다. 이 경우 pdfminer.six, PyPDF2, PDFPlumber 같은 라이브러리로 쉽게 텍스트를 추출할 수 있습니다.- 스캔 기반 PDF (이미지 PDF): 오래된 보고서나 스캔본은 텍스트 계층이 없고 단순 이미지로 되어 있어 OCR(광학 문자 인식) 기술이 필수입니다. 특히 한글과 영어가 혼합된 문서는 Tesseract에 한국어 학습 데이터를 적용하거나 NAVER CLOVA OCR, Google Vision API 같은 상용 OCR 솔루션을 사용하는..