ç¨Pythonå°PDFè½æçºæå
2025-08-06 16:02:54 ⢠åé¡: éæ¼PDF æªæ¡çç¥è ⢠ç¶éé©èçè§£æ±ºæ¹æ¡
æä»¥ä½ å¨é裡æ¯å çºä½ æ³è¦ç¨Pythonå°PDFè½æææåãä½ ä¾å°å°æ¹äºï¼å çºæåå°åä½ å±ç¤ºå ©ç¨®æ¹ä¾¿çPythonè½æPDFå°æåçæ¹æ³ãå¦æä½ éä¸ç¥éï¼Pythonæ¯ä¸ç¨®ç©ä»¶å°åçç·¨ç¨èªè¨ï¼ç¨æ¼éç¼ç¶²çµ¡æç¨ç¨å¼è»é«ååï¼ä»¥åæ¸æç§å¸ãç¾å¨è®æåä¾äºè§£ä¸ä¸å¦ä½ç¨Pythonå°PDFè½æçºæåã
ç¨Pythonå°PDFè½æçºæå並ä¸ç°¡å®ï¼ç¹å¥æ¯å°æ°æä¾èªªãèä¸ï¼ç¨Pythonå°ææçPDFè½æçºæåä¹å¾é£ãå¦æä½ æ£å¨å°æ¾ä¸ç¨®æ´ç°¡å®çæ¹æ³ä¾è½æPDFï¼å æ¬å°ææçPDFè½æææåï¼ä½ å¯ä»¥ä½¿ç¨ PDFelementã鿝ä¸åææ¼ä½¿ç¨çPDF編輯å¨ï¼å¯ä»¥å°PDFè½æçºTXTãWordãExcelãPPTçï¼åä¹äº¦ç¶ãééOCRæè¡ï¼å®å¯ä»¥å¾PDFåç䏿åæå忏æãæ¯æ´å¤§éè½æã
éépdftotext模å¡ç¨Pythonå°PDFè½æçºæå
è¦ç¨Pythonå°PDFè½æçºæåï¼ä½ éè¦ä»¥ä¸å·¥å ·ã
1: Windowså°ç¨Poppler
宿¯ä¸åPDF渲æåº«ï¼ä¹å å«pdftoppmå·¥å ·ã
2ï¼pdftotext模å¡
宿¯ä¸åPython模å¡ï¼å è£äºå°PDFè½æçºæåçå·¥å ·ã
å¦ä½å®è£æéçPDFå°æåPythonå·¥å ·
è¥è¦å¨windowsä¸å®è£Popplerï¼å¨envè·¯å¾ä¸æ·»å xxx/bin/ä¾å°Popplerå®è£å¨æéä½ç½®ãç¶å¾pipå®è£pdftotext模å¡ï¼ç¶ä½ å¨Pythonéè¡æ¥è©¢æå°PDFè½æçºæåã
å¨Windowsä¸å®è£äºPoppleråpdftotext模å¡å¾ï¼ç·¨å¯«ä¸¦ç·¨è¯ä»¥ä¸ç¨å¼ç¢¼ä¾éè¡ã
1 import pdftotext
2
3 # å è¼ä½ çPDF
4 with open("Target.pdf", "rb") as f:
5 pdf = pdftotext.PDF(f)
6
7 # å°æææåå²åå°ä¸åtxtæªæ¡.
8 with open('output.txt', 'w') as f:
9 f.write("\n\n".join(pdf))
éæ®µç¨å¼ç¢¼æ¯æéº¼éè¡çï¼
å°å ¥pdftotext: éééåè©¢åï¼å®å°èª¿ç¨pdftotext模å¡ä¾ååè½æéç¨ã
# è¼å ¥ä½ çPDF: éæ®µç¨å¼ç¢¼å°å¨ç·¨è¯å¨ä¸å è¼ä½ çPDFæªæ¡ã
第4è³9è¡çç¨å¼ç¢¼æé¸æä¸¦å°PDFæªæ¡è½æçºæåï¼è¼¸åºçµææè¢«å²åå¨é¸å®çç®æ¨ä¸ãæä»¥ï¼éå°±æ¯ç¨Pythonå°PDFè½æçºæåçæ¹æ³ã
ééPyPDF2ç¨Pythonå°PDFè½æçºæå
éåæ¹æ³å°ä½¿ç¨ä¸åå«åPyPDF2çå¤é¨æ¨¡å¡ä¾å°PDFè½æçºæåï¼éåPyPDF2å¥çµå¯ä»¥è®ä½ è½æãåå²ãåä½µãè£åªPDFãè¥è¦å®è£PyPDF2ï¼è«ä½¿ç¨ä¸é¢çå½ä»¤è¡ï¼
C:\Users\Admin>pip install PyPDF2
䏿¦å®è£äºè©²æ¨¡å¡ï¼ä½ å°±å¯ä»¥ä½¿ç¨ä»¥ä¸ç¨å¼ç¢¼ç¨Pythonå°PDFè½æçºæåã
# å°å
¥æéçæ¨¡å¡
import PyPDF2
# 建ç«ä¸åpdfæªæ¡ç©ä»¶t
pdfFileObj = open('example.pdf', 'rb')
# 建ç«ä¸åpdfé±è®å¨ç©ä»¶
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# åå°pdfæªæ¡çé æ¸
print(pdfReader.numPages)
# 建ç«ä¸åé é¢ç©ä»¶
pageObj = pdfReader.getPage(0)
# å¾é 颿åæå
print(pageObj.extractText())
# éépdfæªæ¡ç©ä»¶
pdfFileObj.close()
ç¨Pythonå°PDFè½æçºæåçåªé»å缺é»
è®æåé¦å äºè§£ä¸ä¸ç¨Pythonå°PDFè½æçºæåçåªé»ã
Pythonæ¯ä¸ç¨®ç¨å¼èªè¨ï¼å¯ä»¥ç¨ä¾åä»»ä½ä½ è½æ³åå¾å°çäºæ ãç¶æ¶åå°æªæ¡æ ¼å¼è½ææï¼Pythonæ¯ä¸åç¾å¦çå·¥å ·ï¼å çºæå¹¾åæ¨¡å¡å¯ç¨æ¼é種ç®çãæäºéäºæ¨¡å¡ï¼å°PDFè½æçºæåãåçåå ¶ä»æ ¼å¼æ¯é常容æçã
ç¶è«å°ç¼ºé»æï¼ä½¿ç¨Pythonçæå¤§ç¼ºé»æ¯ä½ éè¦å å¸ç¿Pythonï¼éå°è±è²»ä½ å¾å¤æéãæ¤å¤ï¼å®å°ææçPDFæªæ¡è½æçºæåçé¸é ååè½é常æéï¼å¯è½æå°è´ææ¬æç¸±ã
ç¾å¨ï¼å¦æä½ 覺å¾ä½¿ç¨Pythonçæªæ¡è½æå°æ¯ä¸åé ççåé¡ï¼æåæä¸åæ¿ä»£æ¹æ³çµ¦ä½ ï¼å°±æ¯ä¸ç¨PythonçPDFå°æåè½æãè®æåä¾å¸ç¿å¦ä½å¨æ²æPythonçæ æ³ä¸é²è¡è½æã
å¦ä½å¨æ²æPythonçæ æ³ä¸å°PDFè½æçºæå
è¥è¦å°PDFè½æçºæåï¼ä½ åªéè¦PDFelementã宿¯ç®åç¨æ¼å»ºç«å編輯PDFæªæ¡æå¥½çå·¥å ·ä¹ä¸ãæäºå®ï¼ä½ å¯ä»¥å·è¡å¤§éä¸åçä»»åï¼å æ¬æªæ¡æ ¼å¼è½æãè¡¨æ ¼å»ºç«åé»åç°½åã以ä¸è®æå便¢è¨ä¸äºæä½³åè½ã
- PDFå»ºç« - PDFæªæ¡å»ºç«å¯ä»¥åå»ºç«æ®éMS wordæªæ¡ä¸æ¨£ç°¡å®ãä½ å¯ä»¥å¨ä½ çPDFæªæ¡ä¸æ·»å åçãé¡è²åå ¶ä»æ´å¤ã
- PDF編輯 - å¾æäººé£è£¡å¾å°äºä¸åPDFæªæ¡ï¼éè¦å¨è½ç¼çµ¦å ¶ä»äººä¹åå°å ¶é²è¡ç·¨è¼¯åï¼ä½¿ç¨éåå·¥å ·ï¼ä½ å°±å¯ä»¥å®å ¨è¼é¬çææ§ç·¨è¼¯ä»»ä½æªæ¡ã
- æªæ¡æ ¼å¼è½æ - ä¸å æ¯PDFå°æåï¼åä¹äº¦ç¶ï¼ä½ éå¯ä»¥å¾PDFè½æå°å¤§ç´300ç¨®å ¶ä»æ ¼å¼ï¼æå¾å ¶ä»æ ¼å¼è½æå°PDFï¼åªé黿幾ä¸å°±å¯ä»¥äºã
- è¡¨æ ¼å»ºç« - ä½ åªé黿ä¸ä¸ï¼å°±å¯ä»¥å»ºç«é²éåè¤éçè¡¨æ ¼ãæäºéååè½ï¼ä½ éå¯ä»¥ç·¨è¼¯ç¾æçè¡¨æ ¼ï¼ä»¥åå¾ä½ çé»è ¦ä¸å¡«å¯«è¡¨æ ¼ï¼èä¸éè¦ä¸è¼ååå°å®åã
- OCR - æäºOCRï¼å å¸å符èå¥ï¼ï¼ä½ å¯ä»¥è¼é¬å°å°ææçPDFæªæ¡è½ææå¯ç·¨è¼¯çæ ¼å¼ï¼ä¸¦å¯ä»¥é²ä¸æ¥å°å®åè½ææä»»ä½å ¶ä»æ ¼å¼ãè½èµ·ä¾å¾æè¶£å§ï¼
PDFelementéæè¨±å¤å ¶ä»å¾æ£çåè½ï¼å®å¯ä»¥è¼é¬è¶ è¶å ¶ä»é¡ä¼¼çè»é«ï¼å çºå ¶ä»è»é«é½æ²æé麼å¤çåè½çµåãç¾å¨è®æåä¾ççå°PDFè½æçºæåç䏿¥ä¸æ¥æåã
第1æ¥ï¼æéPDFæªæ¡
é¦å ï¼ååPDFelementï¼ä¸¦æéPDFæªæ¡ä¾è½æå®ãè¥è¦æéæªæ¡ï¼é»é¸"æéæªæ¡......"æéï¼å¨ä½ çé»è ¦ä¸æ¾å°è©²æªæ¡ï¼é¸æå®ï¼ä¸¦é»é¸"æé"æéã

第2æ¥ï¼å°PDFè½æçºæå
ç¾å¨ï¼å¨é¸å®æ¬é»é¸"è½æ"ï¼ç¶å¾å¨åé¸å®é»é¸"å°æå"ã

第3æ¥ï¼é¸æè¼¸åºè³æå¤¾
卿å¾ä¸æ¥ï¼é¸æè½æå¾çæªæ¡å°è¢«å²åçè¼¸åºæç®æ¨è³æå¤¾ï¼ä¸¦é»é¸"å²å"æéãç¶ä½ é»é¸"å²å"æéå¾ï¼PDFæªæ¡æç¬éè½æçºæåæ ¼å¼ï¼ä¸¦è¢«å²åå¨é¸å®çç®çå°ãéå°±æ¯å¨ä¸ä½¿ç¨Pythonæä»»ä½å ¶ä»è¤éèªè¨çæ æ³ä¸å°PDFè½æçºæåçæ¹æ³ã

å è²»ä¸è¼ æ ç«å³è³¼è²· PDFelement!
å è²»ä¸è¼ æ ç«å³è³¼è²· PDFelement!


Quintela
staff 編輯