[문ì íì íì´ì¬ì ìí API 문ì íì±ì ìí ì¤í ìì¤ Python API PDF, DOC/DOCX, XLS/XLSX, HTML ë± ë¤ìí 문ì íììì í ì¤í¸, ì´ë¯¸ì§ ë° ê¸°í ì 보를 구문 ë¶ìíê³ ì¶ì¶íë ë° í¹íë ì¤í ìì¤ Python ë¼ì´ë¸ë¬ë¦¬ë¥¼ ììë³´ì¸ì. Pythonì© ë¬¸ì íì APIìë ë¤ìì´ í¬í¨ë©ëë¤. EasyOCR 80ê° ì´ìì ì¸ì´ë¥¼ ì§ìíë 기ì ì© OCR, ì¬ì íë ¨ë 모ë¸ë¡ ì íí í ì¤í¸ ì¶ì¶ PaddleOCR ì¬ì íë ¨ë 모ë¸ë¡ 100ê° ì´ìì ì¸ì´ë¥¼ ì§ìíë ê°ë ¥í OCR ë구 í¤í¸ pdfminer.six PDF 문ììì ìì ì ë³´ê° í¬í¨ë í ì¤í¸ë¥¼ 구문 ë¶ìíê³ ì½ê³ ì¶ì¶íë Python ë¼ì´ë¸ë¬ë¦¬ì ëë¤. PyMuPDF PDF 문ììì í ì¤í¸, ì´ë¯¸ì§, í ë±ì ì½ê³ 구문 ë¶ìíê³ ì¶ì¶íë Pythonì¼ë¡ ìì±ë PDF íì ë¼ì´ë¸ë¬ë¦¬ì ëë¤. pypdf PDF를 ì½ê³ PDF 문ììì í ì¤í¸, ì´ë¯¸ì§ ë° ì²¨ë¶ íì¼ì ì¶ì¶íë Python PDF íì ë¼ì´ë¸ë¬ë¦¬ì ëë¤. PyTesseract Tesseract OCRì ì¬ì©íì¬ ì´ë¯¸ì§ìì í ì¤í¸ë¥¼ ì¶ì¶íë ì¤íìì¤ Python API. spaCy 20ê° ì´ìì ì¸ì´ì ëí ì¬ì íë ¨ë 모ë¸ì ê°ì¶ ë¹ ë¥´ê³ í¨ì¨ì ì¸ NLP ë¼ì´ë¸ë¬ë¦¬ Keras-OCR Kerasì TensorFlow를 ì¬ì©í ê²½ë OCR(ê´í 문ì ì¸ì) Python API trOCR ë¤êµì´ ë° í기체 ì¸ìì íìí í¸ëì¤í¬ë¨¸ ê¸°ë° OCR 모ë¸]