ØÙ OCR ÙØ§Ø¦Ù عÙÙ Ø§ÙØªØ¹ÙÙ Ø§ÙØ¹Ù ÙÙ ÙÙ Ø¨Ø§ÙØ«ÙÙ
Ø§Ø³ØªÙØ¯ Ù Ù docTR ÙØ§Ø³ØªØ®Ø±Ø§Ø¬ اÙÙØµÙص Ø¨Ø¯ÙØ© عاÙÙØ© Ù Ù Ø§ÙØµÙر.
٠ا ÙÙ docTR API ÙØ¨Ø§ÙØ«ÙÙØ
docTR (Ø§ÙØªØ¹Ø±Ù عÙ٠اÙÙØµÙص Ù٠اÙÙ Ø³ØªÙØ¯Ø§Øª) ÙÙ Ù ÙØªØ¨Ø© Ù ÙØªÙØØ© اÙ٠صدر تعت٠د عÙÙ Ø§ÙØªØ¹ÙÙ Ø§ÙØ¹Ù ÙÙ ÙØ§Ø³ØªØ®Ø±Ø§Ø¬ اÙÙØµÙص Ù Ù Ø§ÙØµÙر ÙØ§ÙÙ Ø³ØªÙØ¯Ø§Øª اÙÙ Ù Ø³ÙØØ© Ø¶ÙØ¦ÙÙØ§ ÙÙ ÙÙØ§Øª PDF.
ÙØªÙ استخدا٠docTR عÙÙ ÙØ·Ø§Ù ÙØ§Ø³Ø¹ Ù٠رÙÙ ÙØ© اÙÙ Ø³ØªÙØ¯Ø§ØªØ ÙØ§Ø³ØªØ®Ø±Ø§Ø¬ Ø§ÙØ¨ÙØ§ÙØ§Øª تÙÙØ§Ø¦ÙÙØ§Ø ÙØ§Ùتعر٠عÙ٠اÙÙØµÙص اÙ٠دعÙÙ Ø¨Ø§ÙØ°Ùاء Ø§ÙØ§ØµØ·ÙاعÙ.
اÙÙ ÙØ²Ø§Øª Ø§ÙØ±Ø¦ÙØ³ÙØ© ÙÙØ§Ø¬ÙØ© docTR API
- Ø§Ø³ØªØ®Ø¯Ø§Ù Ø§ÙØªØ¹ÙÙ Ø§ÙØ¹Ù ÙÙ: ÙÙÙØ± Ø¯ÙØ© عاÙÙØ© ÙÙ Ø§ÙØªØ´Ø§Ù اÙÙØµÙص ÙØ§Ùتعر٠عÙÙÙØ§.
- Ø¯Ø¹Ù ØªÙØ³ÙÙØ§Øª ٠تعددة: ÙØ¹Ù ٠٠ع Ø§ÙØµÙر ÙÙ ÙÙØ§Øª PDF ÙØ§ÙÙ Ø³ØªÙØ¯Ø§Øª اÙÙ Ù Ø³ÙØØ© Ø¶ÙØ¦ÙÙØ§.
- Ø§ÙØªØ¹Ø±Ù عÙ٠اÙÙØªØ§Ø¨Ø© اÙÙØ¯ÙÙØ©: استخراج اÙÙØµÙص اÙÙ ÙØªÙبة بخط اÙÙØ¯ Ø¨Ø¯ÙØ©.
- ÙØ¯Ø¹Ù عدة ÙØºØ§Øª: ÙØ¹Ù ٠٠ع ÙØºØ§Øª ÙØ³ÙØ±ÙØ¨ØªØ§Øª ٠ختÙÙØ©.
- أداء Ø³Ø±ÙØ¹: ØªØ³Ø±ÙØ¹ Ø¨Ø§Ø³ØªØ®Ø¯Ø§Ù ÙØØ¯Ø§Øª Ù Ø¹Ø§ÙØ¬Ø© Ø§ÙØ±Ø³Ù٠ات.
Ø§ÙØ¨Ø¯Ø¡ ٠ع docTR API
ÙØªØ«Ø¨Ùت docTRØ Ø§Ø³ØªØ®Ø¯Ù Ø§ÙØ£Ù ر Ø§ÙØªØ§ÙÙ:
ØªØ«Ø¨ÙØª docTR
pip install python-doctr
ÙØªÙعÙÙ ØªØ³Ø±ÙØ¹ GPU:
ØªØ«Ø¨ÙØª Ù ØªØ·ÙØ¨Ø§Øª GPU
pip install tensorflow-gpu torch torchvision
Ø£Ù Ø«ÙØ© عÙ٠استخراج اÙÙØµÙص باستخدا٠docTR API
Ø£Ø¯ÙØ§Ù Ø£Ù Ø«ÙØ© عÙ٠استخراج اÙÙØµÙص Ù Ù Ø§ÙØµÙر ÙØ§ÙÙ Ø³ØªÙØ¯Ø§Øª.

اÙ٠ثا٠1: استخراج اÙÙØµÙص Ù Ù ØµÙØ±Ø©
استخراج اÙÙØµÙص Ù Ù ØµÙØ±Ø©
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
اÙ٠ثا٠2: Ù Ø¹Ø§ÙØ¬Ø© Ù Ø³ØªÙØ¯ PDF ٠تعدد Ø§ÙØµÙØØ§Øª
استخراج اÙÙØµÙص Ù Ù PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
اÙ٠ثا٠3: Ø§ÙØªØ¹Ø±Ù عÙ٠اÙÙØµÙص اÙÙ ÙØªÙبة بخط اÙÙØ¯
استخراج اÙÙØµÙص اÙÙ ÙØªÙبة بخط اÙÙØ¯
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Ø§ÙØ®Ø§ØªÙ Ø©
docTR API ÙÙ ØÙ ÙÙÙ ÙØ§Ø¦Ù عÙÙ Ø§ÙØªØ¹ÙÙ Ø§ÙØ¹Ù ÙÙ ÙØ§Ø³ØªØ®Ø±Ø§Ø¬ اÙÙØµÙص Ø¨Ø¯ÙØ© عاÙÙØ© ٠٠اÙÙ Ø³ØªÙØ¯Ø§Øª ÙØ§ÙØµÙØ±Ø ٠٠ا ÙØ¬Ø¹Ù٠أداة Ù ÙÙØ¯Ø© ÙÙ Ø¹Ø§ÙØ¬Ø© اÙÙ Ø³ØªÙØ¯Ø§Øª اÙ٠دعÙÙ Ø© Ø¨Ø§ÙØ°Ùاء Ø§ÙØ§ØµØ·ÙاعÙ.
Ù ÙØªØ¬Ø§Øª Ù Ù Ø§Ø«ÙØ©
- PyMuPDF Python API | تØÙÙÙ ÙØ§Ø³ØªØ®Ø±Ø§Ø¬ PDF Ù ØªÙØ¯Ù
- pypdf | Ù ÙØªØ¨Ø© Ø¨Ø§ÙØ«ÙÙ ÙØªØÙÙÙ Ù ÙÙØ§Øª PDF بÙÙØ§Ø¡Ø©
- Ù ÙØªØ¨Ø© pdfminer.six Python | استخراج اÙÙØµ Ù Ù Ù ÙÙØ§Øª PDF
- ÙØ§Ø¬ÙØ© EasyOCR - Ø§ÙØªØ¹Ø±Ù Ø§ÙØ¨ØµØ±Ù اÙÙ ØªÙØ§Ù ٠عÙÙ Ø§ÙØØ±ÙÙ ÙÙ Ø¨Ø§ÙØ«ÙÙ