راÙâØÙ Ø´ÙØ§Ø³Ø§ÛÛ ÙÙÛØ³Ù ÙÙØ±Û ٠بتÙÛ Ø¨Ø± ÛØ§Ø¯Ú¯ÛØ±Û Ø¹Ù Û٠در Ù¾Ø§ÛØªÙÙ
با Ø§Ø³ØªÙØ§Ø¯Ù از docTRØ Ø§Ø³ØªØ®Ø±Ø§Ø¬ Ù Ø´ÙØ§Ø³Ø§ÛÛ Ù ØªÙ Ø§Ø² تصاÙÛØ± را با Ø¯ÙØª Ø¨Ø§ÙØ§ Ø§ÙØ¬Ø§Ù دÙÛØ¯.
API docTR در Ù¾Ø§ÛØªÙÙ ÚÛØ³ØªØ
docTR (ØªØ´Ø®ÛØµ Ù ØªÙ Ø³ÙØ¯) ÛÚ© کتابخاÙ٠٠تÙâØ¨Ø§Ø² ٠بتÙÛ Ø¨Ø± ÛØ§Ø¯Ú¯ÛØ±Û Ø¹Ù ÛÙ Ø¨Ø±Ø§Û Ø´ÙØ§Ø³Ø§ÛÛ ÙÙÛØ³Ù ÙÙØ±Û (OCR) در Ù¾Ø§ÛØªÙ٠است. اÛ٠کتابخاÙÙ Ø§Ù Ú©Ø§Ù ØªØ´Ø®ÛØµ Ù Ø´ÙØ§Ø³Ø§ÛÛ Ù ØªÙ Ø±Ø§ در Ø§Ø³ÙØ§Ø¯ اسکÙâØ´Ø¯ÙØ تصاÙÛØ± Ù ÙØ§ÛÙâÙØ§Û PDF با Ø¯ÙØª Ø¨Ø§ÙØ§ ÙØ±Ø§ÙÙ Ù ÛâÚ©ÙØ¯. با Ø¨ÙØ±ÙâÚ¯ÛØ±Û از ٠ع٠ارÛâÙØ§Û Ù¾ÛØ´Ø±ÙØªÙ ÛØ§Ø¯Ú¯ÛØ±Û Ø¹Ù ÛÙØ docTR Ø¯ÙØª ٠کاراÛÛ Ø¨Ø§ÙØ§ÛÛ Ø±Ø§ در استخراج ٠ت٠ارائ٠٠ÛâØ¯ÙØ¯ ٠ساختار Ø³ÙØ¯ را ØÙظ Ù ÛâÚ©ÙØ¯.
اÛ٠ابزار Ø¨Ø±Ø§Û Ø¯ÛØ¬ÛتاÙÛâØ³Ø§Ø²Û Ø§Ø³ÙØ§Ø¯Ø استخراج Ø®ÙØ¯Ú©Ø§Ø± دادÙâÙØ§ Ù Ú©Ø§Ø±Ø¨Ø±Ø¯ÙØ§Û Ù¾ÛØ´Ø±ÙØªÙ ØªØ´Ø®ÛØµ Ù ØªÙ Ø§Ø³ØªÙØ§Ø¯Ù Ù ÛâØ´ÙØ¯. ÙÙ ÚÙÛ٠از ÚÙØ¯ÛÙ Ø²Ø¨Ø§ÙØ Ø´ÙØ§Ø³Ø§ÛÛ Ø¯Ø³ØªâØ®Ø· Ù Ø´ØªØ§Ø¨âØ¯ÙÛ GPU Ù¾Ø´ØªÛØ¨Ø§ÙÛ Ù ÛâÚ©ÙØ¯.
ÙÛÚÚ¯ÛâÙØ§Û Ú©ÙÛØ¯Û API docTR
- OCR ٠بتÙÛ Ø¨Ø± ÛØ§Ø¯Ú¯ÛØ±Û Ø¹Ù ÛÙ: Ø§Ø³ØªÙØ§Ø¯Ù از شبکÙâÙØ§Û Ø¹ØµØ¨Û Ø¨Ø±Ø§Û ØªØ´Ø®ÛØµ Ù Ø´ÙØ§Ø³Ø§ÛÛ Ø¯ÙÛ٠٠تÙ.
- Ù¾Ø´ØªÛØ¨Ø§ÙÛ Ø§Ø² ÚÙØ¯ÛÙ ÙØ±Ù ت: Ø³Ø§Ø²Ú¯Ø§Ø±Û Ø¨Ø§ تصاÙÛØ±Ø ÙØ§ÛÙâÙØ§Û PDF Ù Ø§Ø³ÙØ§Ø¯ اسکÙâØ´Ø¯Ù.
- Ø´ÙØ§Ø³Ø§ÛÛ Ø¯Ø³ØªâØ®Ø·: ÙØ§Ø¨ÙÛØª ØªØ´Ø®ÛØµ ٠استخراج ٠ت٠دستâÙÙÛØ³ با Ø¯ÙØª Ø¨Ø§ÙØ§.
- Ù¾Ø´ØªÛØ¨Ø§ÙÛ Ø§Ø² ÚÙØ¯Û٠زباÙ: ØªÙØ§ÙاÛÛ Ø´ÙØ§Ø³Ø§ÛÛ Ù ØªÙ٠در زباÙâÙØ§ ٠خطâÙØ§Û ٠ختÙÙ.
- بÙÛÙÙâØ´Ø¯Ù Ø¨Ø±Ø§Û Ø³Ø±Ø¹Øª: استخراج Ø³Ø±ÛØ¹ ٠ت٠با Ø§Ø³ØªÙØ§Ø¯Ù از Ø´ØªØ§Ø¨âØ¯ÙÛ GPU.
- ØÙظ ساختار Ø³ÙØ¯: ØªØ´Ø®ÛØµ ٠ت٠بدÙ٠تغÛÛØ± ساختار Ø³ÙØ¯.
- ٠تÙâØ¨Ø§Ø² Ù Ù ÙÛØ§Ø³âÙ¾Ø°ÛØ±: راÛÚ¯Ø§Ù Ø¨Ø±Ø§Û Ø§Ø³ØªÙØ§Ø¯Ù ٠در ØØ§Ù ØªÙØ³Ø¹Ù ٠داÙÙ .
Ø´Ø±ÙØ¹ کار با API docTR
Ø¨Ø±Ø§Û ÙØµØ¨ docTRØ Ø§Ø² Ø¯Ø³ØªÙØ± pip Ø²ÛØ± Ø§Ø³ØªÙØ§Ø¯Ù Ú©ÙÛØ¯:
ÙØµØ¨ docTR
pip install python-doctr
Ø¨Ø±Ø§Û ÙØ¹Ø§ÙâØ³Ø§Ø²Û Ø´ØªØ§Ø¨âØ¯ÙÛ GPU Ø¬ÙØª پردازش Ø³Ø±ÛØ¹âØªØ±Ø Ø¨Ø³ØªÙâÙØ§Û اضاÙÛ Ø²ÛØ± را ÙØµØ¨ Ú©ÙÛØ¯:
ÙØµØ¨ ÙØ§Ø¨Ø³ØªÚ¯ÛâÙØ§Û GPU
pip install tensorflow-gpu torch torchvision
ÙÙ ÙÙÙ Ú©Ø¯ÙØ§Û استخراج ٠ت٠با Ø§Ø³ØªÙØ§Ø¯Ù از API docTR
٠ثا٠۱: استخراج ٠ت٠از تصÙÛØ±
استخراج ٠ت٠از تصÙÛØ±
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
٠ثا٠۲: پردازش Ø§Ø³ÙØ§Ø¯ PDF ÚÙØ¯ØµÙØÙâØ§Û
استخراج ٠ت٠از PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
٠ثا٠۳: ØªØ´Ø®ÛØµ ٠ت٠دستâÙÙÛØ³
استخراج ٠ت٠دستâÙÙÛØ³
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ÙØªÛجÙâÚ¯ÛØ±Û
API docTR ÛÚ© راÙâØÙ ÙØ¯Ø±ØªÙ ÙØ¯ OCR ٠بتÙÛ Ø¨Ø± ÛØ§Ø¯Ú¯ÛØ±Û Ø¹Ù Û٠است ک٠استخراج ٠ت٠از تصاÙÛØ±Ø ÙØ§ÛÙâÙØ§Û PDF Ù Ø§Ø³ÙØ§Ø¯ دستâÙÙÛØ³ را تسÙÛÙ Ù ÛâÚ©ÙØ¯. اÛ٠ابزار Ø¯ÙØª Ø¨Ø§ÙØ§ÛÛ Ø±Ø§ در ØªØ´Ø®ÛØµ ٠ت٠ارائ٠داد٠٠ساختار Ø³ÙØ¯ را ØÙظ Ù ÛâÚ©ÙØ¯.
Ú٠در ØØ§Ù کار بر رÙÛ Ø¯ÛØ¬ÛتاÙÛâØ³Ø§Ø²Û Ø§Ø³ÙØ§Ø¯Ø ÙØ±Ùد Ø®ÙØ¯Ú©Ø§Ø± دادÙâÙØ§ ÛØ§ ØªØ´Ø®ÛØµ ٠ت٠٠بتÙÛ Ø¨Ø± ÙÙØ´ ٠صÙÙØ¹Û Ø¨Ø§Ø´ÛØ¯Ø docTR ÛÚ© راÙکار Ø§ÙØ¹Ø·Ø§ÙâÙ¾Ø°ÛØ± ٠کارآ٠د را ÙØ±Ø§ÙÙ Ù ÛâØ¢ÙØ±Ø¯.