RozwiÄ zanie OCR oparte na uczeniu gÅÄbokim w Pythonie
Wykorzystaj docTR do precyzyjnego wydobywania i rozpoznawania tekstu z obrazów.
Czym jest interfejs API docTR dla Pythona?
docTR (Document Text Recognition) to otwartoźródÅowa biblioteka optycznego rozpoznawania znaków (OCR) oparta na uczeniu gÅÄbokim dla Pythona. Zapewnia zaawansowane wykrywanie i rozpoznawanie tekstu w zeskanowanych dokumentach, obrazach i plikach PDF. WykorzystujÄ c nowoczesne architektury uczenia gÅÄbokiego, docTR zapewnia wysokÄ dokÅadnoÅÄ i wydajnoÅÄ w wydobywaniu tekstu przy zachowaniu struktury dokumentu.
docTR jest szeroko stosowany w digitalizacji dokumentów, automatycznym wydobywaniu danych oraz aplikacjach rozpoznawania tekstu opartych na sztucznej inteligencji. ObsÅuguje wiele jÄzyków, rozpoznawanie pisma odrÄcznego oraz przyspieszenie GPU dla lepszej wydajnoÅci.
Kluczowe funkcje interfejsu API docTR
- Zaawansowane OCR oparte na uczeniu gÅÄbokim: Wykorzystuje sieci neuronowe do precyzyjnego wykrywania i rozpoznawania tekstu
- ObsÅuga wielu formatów: DziaÅa bezproblemowo z obrazami, PDF-ami i zeskanowanymi dokumentami
- Rozpoznawanie pisma odrÄcznego: Wykrywa i wydobywa tekst odrÄczny z niezwykÅÄ dokÅadnoÅciÄ
- Rozpoznawanie wielojÄzyczne: ObsÅuguje różne jÄzyki i systemy pisma
- Zoptymalizowany pod kÄ tem szybkoÅci: Wydajne wydobywanie tekstu z wykorzystaniem przyspieszenia GPU
- Zachowuje ukÅad dokumentu: Utrzymuje strukturÄ podczas rozpoznawania tekstu
- Skalowalny i otwartoźródÅowy: Darmowy w użyciu i stale rozwijany
RozpoczÄcie pracy z interfejsem API docTR
Aby zainstalowaÄ docTR, użyj nastÄpujÄ cej komendy pip:
Zainstaluj docTR
pip install python-doctr
JeÅli chcesz wÅÄ czyÄ przyspieszenie GPU dla szybszego przetwarzania, zainstaluj dodatkowe zależnoÅci:
Zainstaluj zależnoÅci GPU
pip install tensorflow-gpu torch torchvision
PrzykÅady kodu do wydobywania tekstu za pomocÄ interfejsu API docTR
Poniżej znajduje siÄ kilka przykÅadów demonstrujÄ cych wydobywanie tekstu z obrazów i dokumentów przy użyciu docTR.

PrzykÅad 1: Wydobywanie tekstu z obrazu
Ten przykÅad pokazuje, jak zaÅadowaÄ obraz, zastosowaÄ OCR za pomocÄ docTR i wydobyÄ tekst. Wydobyty tekst zawiera swoje poÅożenie na obrazie, co jest przydatne w strukturalnym przetwarzaniu dokumentów.
WydobÄ dź tekst z obrazu
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
PrzykÅad 2: Przetwarzanie wielostronicowego dokumentu PDF
JeÅli potrzebujesz wydobyÄ tekst z pliku PDF zawierajÄ cego wiele stron, docTR upraszcza ten proces. Poniższy przykÅad pokazuje, jak wydajnie wydobyÄ tekst z każdej strony.
WydobÄ dź tekst z PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
PrzykÅad 3: Rozpoznawanie tekstu odrÄcznego
docTR może również rozpoznawaÄ tekst odrÄczny, co czyni go idealnym do digitalizacji odrÄcznych notatek, formularzy lub historycznych dokumentów. Ten przykÅad demonstruje wydobywanie tekstu z syntetycznego dokumentu odrÄcznego.
WydobÄ dź tekst odrÄczny
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Podsumowanie
Interfejs API docTR to potÄżne rozwiÄ zanie OCR oparte na uczeniu gÅÄbokim, które upraszcza wydobywanie tekstu z obrazów, PDF-ów i dokumentów odrÄcznych. Zapewnia wysokÄ dokÅadnoÅÄ przy zachowaniu struktury dokumentu, co czyni go cennym narzÄdziem do przetwarzania dokumentów opartego na sztucznej inteligencji, automatyzacji i wydobywania danych.
Niezależnie od tego, czy pracujesz nad digitalizacjÄ dokumentów, automatycznym wprowadzaniem danych, czy rozpoznawaniem tekstu opartym na sztucznej inteligencji, docTR oferuje elastyczne i wydajne rozwiÄ zanie dostosowane do Twoich potrzeb.