ÅeÅ¡enà OCR založené na hlubokém uÄenà v Pythonu
Využijte docTR pro pÅesnou extrakci a rozpoznánà textu z obrázků.
Co je docTR API pro Python?
docTR (Document Text Recognition) je open-source knihovna OCR založená na hlubokém uÄenà v Pythonu. Poskytuje Å¡piÄkovou detekci a rozpoznávánà textu pro naskenované dokumenty, obrázky a PDF. DÃky modernÃm architekturám hlubokého uÄenà zajišťuje docTR vysokou pÅesnost a efektivitu pÅi extrakci textu, pÅiÄemž zachovává strukturu dokumentu.
docTR se Å¡iroce využÃvá pro digitalizaci dokumentů, automatizovanou extrakci dat a aplikace AI pro rozpoznávánà textu. Podporuje vÃce jazyků, rozpoznávánà rukopisu a akceleraci pomocà GPU pro vyššà výkon.
Kl̀ov̩ vlastnosti docTR API
- PokroÄilé OCR založené na hlubokém uÄenÃ: PoužÃvá neuronové sÃtÄ pro pÅesnou detekci a rozpoznávánà textu.
- Podpora vÃce formátů: Funguje bez problémů s obrázky, PDF a naskenovanými dokumenty.
- Rozpoznávánà rukopisu: Detekuje a extrahuje ruÄnÄ psaný text s pozoruhodnou pÅesnostÃ.
- Podpora vÃce jazyků: Rozpoznává text v různých jazycÃch a pÃsmech.
- Optimalizováno pro rychlost: Efektivnà extrakce textu s akceleracà pomocà GPU.
- Zachovánà rozloženà dokumentu: PÅi rozpoznávánà textu zachovává strukturu dokumentu.
- Å kálovatelné a open source: Zdarma k použità a aktivnÄ udržované pro neustálé zlepÅ¡ovánÃ.
ZaÄÃnáme s docTR API
Pro instalaci docTR použijte následujÃcà pÅÃkaz pip:
Instalace docTR
pip install python-doctr
Pokud chcete povolit akceleraci pomocà GPU pro rychlejšà zpracovánÃ, nainstalujte dalšà závislosti:
Instalace závislostà pro GPU
pip install tensorflow-gpu torch torchvision
Ukázky kódu pro extrakci textu pomocà docTR API
NÞe jsou uvedeny pÅÃklady demonstrujÃcà extrakci textu z obrázků a dokumentů pomocà docTR.

PÅÃklad 1: Extrakce textu z obrázku
Extrakce textu z obrázku
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
PÅÃklad 2: Zpracovánà vÃce stránkového PDF
Extrakce textu z PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
PÅÃklad 3: Rozpoznánà ruÄnÄ psaného textu
Extrakce ruÄnÄ psaného textu
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ZávÄr
docTR API je výkonné OCR ÅeÅ¡enà založené na hlubokém uÄenÃ, které zjednoduÅ¡uje extrakci textu z obrázků, PDF a ruÄnÄ psaných dokumentů. Zajišťuje vysokou pÅesnost pÅi zachovánà struktury dokumentu, což z nÄj Äinà cenný nástroj pro AI-driven zpracovánà dokumentů, automatizaci a extrakci dat.
AÅ¥ už pracujete na digitalizaci dokumentů, automatizovaném zadávánà dat nebo AI-based rozpoznávánà textu, docTR poskytuje flexibilnà a efektivnà ÅeÅ¡enà pÅizpůsobené vaÅ¡im potÅebám.