OCR-ÑеÑение на оÑнове глÑбокого обÑÑÐµÐ½Ð¸Ñ Ð´Ð»Ñ Python
ÐÑполÑзÑйÑе docTR Ð´Ð»Ñ ÑоÑного извлеÑÐµÐ½Ð¸Ñ Ð¸ ÑаÑÐ¿Ð¾Ð·Ð½Ð°Ð²Ð°Ð½Ð¸Ñ ÑекÑÑа из изобÑажений.
ЧÑо Ñакое API docTR Ð´Ð»Ñ Python?
docTR (Document Text Recognition) - ÑÑо оÑкÑÑÑÐ°Ñ Ð±Ð¸Ð±Ð»Ð¸Ð¾Ñека опÑиÑеÑкого ÑаÑÐ¿Ð¾Ð·Ð½Ð°Ð²Ð°Ð½Ð¸Ñ Ñимволов (OCR) на оÑнове глÑбокого обÑÑÐµÐ½Ð¸Ñ Ð´Ð»Ñ Python. Ðна пÑедоÑÑавлÑÐµÑ ÑовÑеменнÑе возможноÑÑи обнаÑÑÐ¶ÐµÐ½Ð¸Ñ Ð¸ ÑаÑÐ¿Ð¾Ð·Ð½Ð°Ð²Ð°Ð½Ð¸Ñ ÑекÑÑа Ð´Ð»Ñ ÑканиÑованнÑÑ Ð´Ð¾ÐºÑменÑов, изобÑажений и PDF-Ñайлов. ÐÑполÑзÑÑ ÑовÑеменнÑе аÑÑ Ð¸ÑекÑÑÑÑ Ð³Ð»Ñбокого обÑÑениÑ, docTR обеÑпеÑÐ¸Ð²Ð°ÐµÑ Ð²ÑÑокÑÑ ÑоÑноÑÑÑ Ð¸ ÑÑÑекÑивноÑÑÑ Ð¿Ñи извлеÑении ÑекÑÑа Ñ ÑÐ¾Ñ Ñанением ÑÑÑÑкÑÑÑÑ Ð´Ð¾ÐºÑменÑа.
docTR ÑиÑоко иÑполÑзÑеÑÑÑ Ð´Ð»Ñ Ð¾ÑиÑÑовки докÑменÑов, авÑомаÑиÑеÑкого извлеÑÐµÐ½Ð¸Ñ Ð´Ð°Ð½Ð½ÑÑ Ð¸ пÑиложений ÑаÑÐ¿Ð¾Ð·Ð½Ð°Ð²Ð°Ð½Ð¸Ñ ÑекÑÑа на оÑнове ÐÐ. ÐоддеÑÐ¶Ð¸Ð²Ð°ÐµÑ Ð½ÐµÑколÑко ÑзÑков, ÑаÑпознавание ÑÑкопиÑного ввода и ÑÑкоÑение GPU Ð´Ð»Ñ Ð¿Ð¾Ð²ÑÑÐµÐ½Ð¸Ñ Ð¿ÑоизводиÑелÑноÑÑи.
ÐлÑÑевÑе возможноÑÑи API docTR
- ÐÑодвинÑÑÑй OCR на глÑбоком обÑÑении: ÐÑполÑзÑÐµÑ Ð½ÐµÐ¹ÑоннÑе ÑеÑи Ð´Ð»Ñ ÑоÑного обнаÑÑÐ¶ÐµÐ½Ð¸Ñ Ð¸ ÑаÑÐ¿Ð¾Ð·Ð½Ð°Ð²Ð°Ð½Ð¸Ñ ÑекÑÑа
- ÐоддеÑжка неÑколÑÐºÐ¸Ñ ÑоÑмаÑов: РабоÑÐ°ÐµÑ Ñ Ð¸Ð·Ð¾Ð±ÑажениÑми, PDF и ÑканиÑованнÑми докÑменÑами
- РаÑпознавание ÑÑкопиÑного ÑекÑÑа: ÐбнаÑÑÐ¶Ð¸Ð²Ð°ÐµÑ Ð¸ Ð¸Ð·Ð²Ð»ÐµÐºÐ°ÐµÑ ÑÑкопиÑнÑй ÑекÑÑ Ñ Ð²ÑÑокой ÑоÑноÑÑÑÑ
- ÐногоÑзÑÑное ÑаÑпознавание: ÐоддеÑÐ¶Ð¸Ð²Ð°ÐµÑ ÑазлиÑнÑе ÑзÑки и ÑиÑÑÐµÐ¼Ñ Ð¿Ð¸ÑÑма
- ÐпÑимизиÑован Ð´Ð»Ñ ÑкоÑоÑÑи: ÐÑÑекÑивное извлеÑение ÑекÑÑа Ñ ÑÑкоÑением GPU
- Ð¡Ð¾Ñ Ñанение ÑÑÑÑкÑÑÑÑ Ð´Ð¾ÐºÑменÑа: Ð¡Ð¾Ñ ÑанÑÐµÑ Ð¼Ð°ÐºÐµÑ Ð¿Ñи ÑаÑпознавании ÑекÑÑа
- ÐаÑÑÑабиÑÑемоÑÑÑ Ð¸ оÑкÑÑÑÑй код: ÐеÑплаÑен в иÑполÑзовании и поÑÑоÑнно ÑовеÑÑенÑÑвÑеÑÑÑ
ÐаÑало ÑабоÑÑ Ñ API docTR
ÐÐ»Ñ ÑÑÑановки docTR иÑполÑзÑйÑе ÑледÑÑÑÑÑ ÐºÐ¾Ð¼Ð°Ð½Ð´Ñ pip:
УÑÑановка docTR
pip install python-doctr
ÐÐ»Ñ Ð²ÐºÐ»ÑÑÐµÐ½Ð¸Ñ ÑÑкоÑÐµÐ½Ð¸Ñ GPU и более бÑÑÑÑой обÑабоÑки ÑÑÑановиÑе дополниÑелÑнÑе завиÑимоÑÑи:
УÑÑановка завиÑимоÑÑей GPU
pip install tensorflow-gpu torch torchvision
ÐÑимеÑÑ ÐºÐ¾Ð´Ð° Ð´Ð»Ñ Ð¸Ð·Ð²Ð»ÐµÑÐµÐ½Ð¸Ñ ÑекÑÑа Ñ Ð¸ÑполÑзованием API docTR
Ðиже пÑÐ¸Ð²ÐµÐ´ÐµÐ½Ñ Ð½ÐµÑколÑко пÑимеÑов извлеÑÐµÐ½Ð¸Ñ ÑекÑÑа из изобÑажений и докÑменÑов Ñ Ð¸ÑполÑзованием docTR.

ÐÑÐ¸Ð¼ÐµÑ 1: ÐзвлеÑение ÑекÑÑа из изобÑажениÑ
ÐÑÐ¾Ñ Ð¿ÑÐ¸Ð¼ÐµÑ Ð¿Ð¾ÐºÐ°Ð·ÑваеÑ, как загÑÑзиÑÑ Ð¸Ð·Ð¾Ð±Ñажение, пÑимениÑÑ OCR Ñ docTR и извлеÑÑ ÑекÑÑ. ÐзвлеÑеннÑй ÑекÑÑ Ð²ÐºÐ»ÑÑÐ°ÐµÑ ÐµÐ³Ð¾ положение на изобÑажении, ÑÑо полезно Ð´Ð»Ñ ÑÑÑÑкÑÑÑиÑованной обÑабоÑки докÑменÑов.
ÐзвлеÑение ÑекÑÑа из изобÑажениÑ
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ÐÑÐ¸Ð¼ÐµÑ 2: ÐбÑабоÑка многоÑÑÑаниÑного PDF-докÑменÑа
ÐÑли вам нÑжно извлеÑÑ ÑекÑÑ Ð¸Ð· PDF-Ñайла, ÑодеÑжаÑего неÑколÑко ÑÑÑаниÑ, docTR ÑпÑоÑÐ°ÐµÑ ÑÑÐ¾Ñ Ð¿ÑоÑеÑÑ. Ð ÑледÑÑÑем пÑимеÑе показано, как ÑÑÑекÑивно извлекаÑÑ ÑекÑÑ Ñ ÐºÐ°Ð¶Ð´Ð¾Ð¹ ÑÑÑаниÑÑ.
ÐзвлеÑение ÑекÑÑа из PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ÐÑÐ¸Ð¼ÐµÑ 3: РаÑпознавание ÑÑкопиÑного ÑекÑÑа
docTR Ñакже Ð¼Ð¾Ð¶ÐµÑ ÑаÑпознаваÑÑ ÑÑкопиÑнÑй ÑекÑÑ, ÑÑо Ð´ÐµÐ»Ð°ÐµÑ ÐµÐ³Ð¾ идеалÑнÑм Ð´Ð»Ñ Ð¾ÑиÑÑовки ÑÑкопиÑнÑÑ Ð·Ð°Ð¼ÐµÑок, ÑоÑм или иÑÑоÑиÑеÑÐºÐ¸Ñ Ð´Ð¾ÐºÑменÑов. ÐÑÐ¾Ñ Ð¿ÑÐ¸Ð¼ÐµÑ Ð´ÐµÐ¼Ð¾Ð½ÑÑÑиÑÑÐµÑ Ð¸Ð·Ð²Ð»ÐµÑение ÑекÑÑа из ÑинÑеÑиÑеÑкого ÑÑкопиÑного докÑменÑа.
ÐзвлеÑение ÑÑкопиÑного ÑекÑÑа
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ÐаклÑÑение
API docTR - ÑÑо моÑное OCR-ÑеÑение на оÑнове глÑбокого обÑÑениÑ, коÑоÑое ÑпÑоÑÐ°ÐµÑ Ð¸Ð·Ð²Ð»ÐµÑение ÑекÑÑа из изобÑажений, PDF-Ñайлов и ÑÑкопиÑнÑÑ Ð´Ð¾ÐºÑменÑов. Ðно обеÑпеÑÐ¸Ð²Ð°ÐµÑ Ð²ÑÑокÑÑ ÑоÑноÑÑÑ Ð¿Ñи ÑÐ¾Ñ Ñанении ÑÑÑÑкÑÑÑÑ Ð´Ð¾ÐºÑменÑа, ÑÑо Ð´ÐµÐ»Ð°ÐµÑ ÐµÐ³Ð¾ ÑеннÑм инÑÑÑÑменÑом Ð´Ð»Ñ Ð¾Ð±ÑабоÑки докÑменÑов на оÑнове ÐÐ, авÑомаÑизаÑии и извлеÑÐµÐ½Ð¸Ñ Ð´Ð°Ð½Ð½ÑÑ .
ÐезавиÑимо Ð¾Ñ Ñого, ÑабоÑаеÑе ли Ð²Ñ Ð½Ð°Ð´ оÑиÑÑовкой докÑменÑов, авÑомаÑиÑеÑким вводом даннÑÑ Ð¸Ð»Ð¸ ÑаÑпознаванием ÑекÑÑа на оÑнове ÐÐ, docTR пÑедоÑÑавлÑÐµÑ Ð³Ð¸Ð±ÐºÐ¾Ðµ и ÑÑÑекÑивное ÑеÑение, адапÑиÑованное к ваÑим поÑÑебноÑÑÑм.
ÐÐ¾Ñ Ð¾Ð¶Ð¸Ðµ ÐÑодÑкÑÑ
- API spaCy â ÐÑомÑÑленно-ÑÑÐ¾Ð²Ð½ÐµÐ²Ð°Ñ Ð¾Ð±ÑабоÑка еÑÑеÑÑвенного ÑзÑка
- EasyOCR API â ÐолноÑенное опÑиÑеÑкое ÑаÑпознавание Ñимволов на Python
- PaddleOCR API â ÐÑÑокопÑоизводиÑелÑное опÑиÑеÑкое ÑаÑпознавание Ñимволов
- PyMuPDF Python API | РаÑÑиÑеннÑй анализ и извлеÑение PDF-Ñайлов