PaddleOCR: Průmyslové OCR pro vÃcejazyÄnou extrakci textu
Detekujte a rozpoznávejte text z obrázků a dokumentů s vysokou pÅesnostà a rychlostÃ.
Co je PaddleOCR API?
PaddleOCR Python API je výkonná a snadno použitelná sada nástrojů pro úlohy optického rozpoznávánà znaků (OCR), navržená pro vývojáÅe k extrakci a analýze textu z obrázků s vysokou pÅesnostÃ. Postavená na frameworku pro hluboké uÄenà PaddlePaddle, PaddleOCR podporuje Å¡irokou Å¡kálu jazyků a obsahuje pÅedtrénované modely pro detekci textu, rozpoznávánà a analýzu rozvrženÃ. DÃky své intuitivnà Python rozhranà mohou uživatelé rychle integrovat OCR schopnosti do svých aplikacÃ, aÅ¥ už pro digitalizaci dokumentů, extrakci textu z fotografià nebo automatizované zpracovánà dat. PaddleOCR Python API je ideálnà pro každého, kdo hledá robustnà OCR ÅeÅ¡enà s minimálnà konfiguracà a maximálnà flexibilitou.
KlÃÄové výhody PaddleOCR:
- VÃcejazyÄná podpora: PÅedtrénované modely pro 100+ jazyků (vÄetnÄ ÄÃnÅ¡tiny, angliÄtiny, arabÅ¡tiny atd.)
- Vysoká pÅesnost: Modely Åady PP-OCR dosahujà špiÄkových výsledků na datasetech ICDAR
- Kompletnà ÅeÅ¡enÃ: Od detekce textu pÅes rozpoznánà až po analýzu rozvrženÃ
- OdlehÄené modely: Optimalizované pro mobilnà a edge zaÅÃzenà (napÅ. PP-OCRv3)
Od naskenovaných dokumentů po pouliÄnà cedule, PaddleOCR extrahuje text s průmyslovÄ vedoucà pÅesnostÃ.
ProÄ zvolit PaddleOCR?
- Excelence open-source: VÃce než 30 000 hvÄzd na GitHubu a aktivnà pÅispÄvatelská komunita
- Univerzálnà nasazenÃ: Podpora pro Python, C++ a mobilnà platformy (Android/iOS)
- Analýza rozvrženÃ: Identifikuje textové oblasti, tabulky a obrázky ve složitých dokumentech
- PrůbÄžné aktualizace: Pravidelné vydávánà modelů (napÅ. PP-OCRv4)
- Vhodné pro komerÄnà použitÃ: Licence Apache 2.0 pro podnikové využitÃ
Instalace
PaddleOCR vyžaduje Python 3.7+ a lze jej nainstalovat pomocà pip. Podpora GPU vyžaduje CUDA/cuDNN.
Základnà instalace
pip install paddleocr paddlepaddle #Verze pro CPU
Pro GPU akceleraci:
Podpora GPU
pip install paddleocr paddlepaddle-gpu #Vyžaduje CUDA 10.2+
Poznámka: PÅedtrénované modely se stáhnou automaticky pÅi prvnÃm použità nebo ruÄnÄ pomocà paddleocr --lang en.
PÅÃklady kódu
Prozkoumejte možnosti PaddleOCR s tÄmito pÅÃklady. VÅ¡echny pÅÃklady pÅedpokládajÃ, že máte nainstalován anglický model.

PÅÃklad 1: Základnà OCR
Pro extrakci textu z obrázku pomocà PaddleOCR s výchozÃmi modely staÄà inicializovat OCR engine se standardnà konfiguracÃ, která zahrnuje podporu angliÄtiny a klasifikaci úhlu pro zlepÅ¡enà pÅesnosti. PaddleOCR použÃvá pÅedtrénované modely pro detekci, rozpoznávánà a klasifikaci k identifikaci a interpretaci textu ve vstupnÃm obrázku. Po zpracovánà obrázku OCR engine vrátà detekovaný text spolu s jeho pozicà a skóre spolehlivosti pro každý výsledek. Toto nastavenà poskytuje rychlý a efektivnà způsob extrakce textového obsahu z obrázků bez nutnosti vlastnÃho trénovánà modelů nebo složitých konfiguracÃ.
OCR obrázku
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='en') # Inicializace
result = ocr.ocr('image.jpg', cls=True) # Zpracovánà obrázku
# Výpis rozpoznaného textu
for line in result:
print(line[-1][0]) # Textový obsah
Výstup obsahuje:
- Textový obsah a skóre spolehlivosti
- SouÅadnice ohraniÄujÃcÃho rámeÄku
PÅÃklad 2: Dávkové zpracovánÃ
Pro efektivnà zpracovánà vÃce obrázků pomocà PaddleOCR můžete využÃt techniky dávkového zpracovánÃ, které minimalizujà redundantnà inicializace a optimalizujà výkon. MÃsto inicializace OCR engine pro každý obrázek se doporuÄuje vytvoÅit jednu instanci OCR modelu a znovu ji použÃt pro vÅ¡echny vstupnà obrázky. Tento pÅÃstup výraznÄ snižuje Äas zpracovánà a spotÅebu prostÅedků. PÅedánÃm seznamu cest k obrázkům OCR engine ve smyÄce nebo pomocà paralelnÃho zpracovánà (když je to vhodné) můžete rychle a efektivnÄ extrahovat text z velkých sad obrázků, což je ideálnà pro pracovnà postupy zahrnujÃcà dávky dokumentů, skenované archivy nebo hromadnou analýzu obrázků.
Dávkové OCR
image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4) # Paralelnà zpracovánÃ
PÅÃklad 3: Analýza rozvrženÃ
PaddleOCR lze použÃt nejen pro rozpoznávánà textu, ale také pro identifikaci specifických textových oblastà a detekci strukturovaných prvků jako jsou tabulky v obrázku. Systém nejprve lokalizuje textové oblasti prostÅednictvÃm svého detekÄnÃho modelu, který ohraniÄuje každou textovou oblast ohraniÄovacÃm rámeÄkem, což uživatelům umožÅuje pochopit, kde se text v obrázku nacházÃ. Pro složitÄjšà rozvrženÃ, jako jsou formuláÅe nebo dokumenty obsahujÃcà tabulky, PaddleOCR podporuje analýzu rozvrženà a rozpoznávánà struktury tabulek. To umožÅuje detekci Åádků, sloupců a hranic bunÄk, což umožÅuje extrakci tabulkových dat v organizovaném formátu. Tyto schopnosti jsou zvláštÄ užiteÄné pro digitalizaci skenovaných dokumentů, faktur nebo tabulek, kde se volný text a tabulková data vyskytujà spoleÄnÄ.
Detekce rozvrženÃ
from paddleocr import PPStructure
structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')
PokroÄilé funkce
PaddleOCR podporuje složité pracovnà postupy:
- Vlastnà trénink: Upravte modely na svých datech:
Trénink modelu
python tools/train.py -c configs/det/det_mv3_db.yml - Kombinovánà jazyků: Zpracovánà vÃcejazyÄných dokumentů:
VÃcejazyÄné OCR
ocr = PaddleOCR(lang='chinese+english') - Podpora PDF: PÅÃmá extrakce textu z PDF souborů:
Zpracovánà PDF
result = ocr.ocr('document.pdf', type='pdf')
ZávÄr
PaddleOCR poskytuje produkÄnÄ pÅipravená OCR ÅeÅ¡enà s bezkonkurenÄnà vÃcejazyÄnou podporou a Å¡kálovatelnostÃ. Ideálnà pro:
- Digitalizaci dokumentů: Skenované PDF, faktury, úÄtenky
- VÃcejazyÄné aplikace: Rozpoznávánà pasů, vÃcejazyÄné knihy
- Nasazenà na edge zaÅÃzenÃch: Mobilnà aplikace s OCR pÅÃmo na zaÅÃzenÃ
S podporou ekosystému hlubokého uÄenà PaddlePaddle, PaddleOCR i nadále stanovuje standardy v pÅesnosti a efektivitÄ OCR.