PaÅ¾angus OCR Å¡iuolaikiniams dokumentÅ³ iÅ¡Å¡Å«kiams

Tiksliai iÅ¡gaukite tekstÄ iÅ¡ nuskaitytÅ³ dokumentÅ³, nuotraukÅ³ ir PDF naudodami giluminio mokymo technologijas

Kas yra EasyOCR?

EasyOCR yra atviro kodo optinio simboliÅ³ atpaÅ¾inimo (OCR) biblioteka, kuriÄ sukÅ«rÄ Jaided AI, skirta tekstui iÅ¡gauti iÅ¡ vaizdÅ³ ir nuskaitytÅ³ dokumentÅ³ su dideliu tikslumu. Sukurta naudojant PyTorch, ji palaiko daugiau nei 80 kalbÅ³, Ä¯skaitant lotynÅ³, kinÅ³, arabÅ³ ir kitas. EasyOCR Å¾inoma dÄl savo paprastumo - reikia tik keliÅ³ kodo eiluÄiÅ³, kad bÅ«tÅ³ galima jÄ naudoti, todÄl ji puikiai tinka kÅ«rÄjams ir mokslininkams, dirbantiems su teksto atpaÅ¾inimo projektais. TurÄdama iÅ¡ anksto apmokytus giluminio mokymo modelius, ji gali efektyviai aptikti ir atpaÅ¾inti tekstÄ Ä¯vairiais Å¡riftais, rankraÅ¡Äio stiliais ir sudÄtingame fone. Nesvarbu, ar tai automatizuotas dokumentÅ³ apdorojimas, valstybinio numerio atpaÅ¾inimas, ar teksto iÅ¡gavimas iÅ¡ vaizdÅ³ - EasyOCR siÅ«lo galingÄ ir lengvÄ sprendimÄ. Sistema apima:

Daugelio modeliÅ³ aptikimas: CRAFT pagrÄ¯stas teksto lokalizavimas su ResNet pagrindu
Adaptyvus atpaÅ¾inimas: RaÅ¡to specifiniai modeliai (CRNN lotynÅ³ kalboms, Transformer CJK kalboms)
KontekstiÅ¡kai sÄmoningas apdorojimas: PastraipÅ³ rekonstravimas ir skaitymo eilÄs iÅ¡saugojimas

NaÅ¡umo rezultatai rodo nuoseklius rezultatus tarp skirtingÅ³ dokumentÅ³ tipÅ³:

Dokumento tipas	Tikslumas	Sparta	AparatinÄ Ä¯ranga
Verslo dokumentai	98,6%	42 puslapiai/min	NVIDIA T4
Mobiliojo telefono nuotraukos	94,2%	28 vaizdai/min	Google Colab GPU
Istoriniai archyvai	89,1%	15 puslapiÅ³/min	CPU grupÄ

EasyOCR teksto atpaÅ¾inimas ir iÅ¡gavimas

ArchitektÅ«ra apdoroja dokumentus trimis optimizuotais etapais:

Aptikimas: Teksto sriÄiÅ³ segmentavimas pikseliÅ³ lygmenyje
AtpaÅ¾inimas: SekÅ³ prognozavimas su kalbos modeliavimu
Rekonstravimas: ErdviniÅ³ santykiÅ³ atvaizdavimas

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

PagrindinÄs techninÄs galimybÄs

1. PaÅ¾angus teksto aptikimas

Aptikimo posistemÄ apima:

SimboliÅ³ lygio Å¡iluminio Å¾emÄlapio generavimÄ
Savivaldos formos teksto sriÄiÅ³ apdorojimÄ
DaugiakryptÄ¯ palaikymÄ (0-360Â°)
Fono triukÅ¡mo slopinimÄ

2. HibridinÄ atpaÅ¾inimo sistema

AtpaÅ¾inimo modeliai optimizuoti pagal raÅ¡to tipÄ:

LotynÅ³/Kirilicos: CRNN su 7 CNN sluoksniais + BiLSTM
KinÅ³/JaponÅ³/KorÄjieÄiÅ³: Transformer su 12 dÄmesio galvÅ³
ArabÅ³/Ivritas: IÅ¡ deÅ¡inÄs Ä¯ kairÄ BiLSTM su specialiu Å¾etonizavimu

3. Ä®moniÅ³ funkcijos

Automatinis kokybÄs Ä¯vertinimas
KonfigÅ«ruojamas tikslumo/atÅ¡aukimo balansas
AparatinÄs Ä¯rangos sÄmoningas iÅ¡tekliÅ³ paskirstymas

Diegimas ir konfigÅ«ravimas

Sistemos reikalavimai

Komponentas	PlÄtra	Gamyba
Python	3.6+	3.8+
Atmintis	8GB	16GB+
GPU	Neprivaloma	NVIDIA (CUDA 11.8+)

Diegimo parinktys

Pagrindinis diegimas


pip install easyocr  # Diegia tik CPU palaikymÄ

GPU palaikymas (Linux/Windows)


pip install easyocr torch torchvision --index-url https://download.pytorch.org/whl/cu118

Docker (Gamybinis diegimas)


docker run -it --gpus all -v $(pwd):/data \
  -e LANG_LIST="en,fr,es" \
  jaidedai/easyocr

Praktiniai Ä¯gyvendinimo pavyzdÅ¾iai

1. Gamybinis dokumentÅ³ tinklas

Pilnas OCR darbotvarkÄ su iÅ¡ankstiniu apdorojimu ir patikrinimu:

Gamybai parinktas apdorojimas


from easyocr import Reader
import cv2
import numpy as np

class DocumentOCR:
    def __init__(self, languages=['en']):
        self.reader = Reader(languages, gpu=True)
        
    def preprocess(self, image):
        # Kontrasto didinimas
        lab = cv2.cvtColor(image, cv2.COLOR_BGR2LAB)
        l, a, b = cv2.split(lab)
        clahe = cv2.createCLAHE(clipLimit=3.0, tileGridSize=(8,8))
        limg = cv2.merge([clahe.apply(l), a, b])
        return cv2.cvtColor(limg, cv2.COLOR_LAB2BGR)
    
    def process(self, image_path):
        img = cv2.imread(image_path)
        processed = self.preprocess(img)
        results = self.reader.readtext(processed,
                                    batch_size=4,
                                    paragraph=True,
                                    min_size=50,
                                    text_threshold=0.8)
        return {
            'text': [r[1] for r in results],
            'confidence': np.mean([r[2] for r in results])
        }

# Naudojimas
ocr = DocumentOCR(languages=['en','fr'])
result = ocr.process('legal_contract.jpg')
print(f"Vidutinis patikimumas: {result['confidence']:.2%}")

2. SÄskaitÅ³ faktÅ«rÅ³ grupinis apdorojimas

PagrindiniÅ³ laukÅ³ iÅ¡gavimas iÅ¡ Ä¯vairiÅ³ sÄskaitÅ³ faktÅ«rÅ³ formatÅ³:

SÄskaitÅ³ faktÅ«rÅ³ duomenÅ³ iÅ¡gavimas


import easyocr
import re
from pathlib import Path

reader = easyocr.Reader(['en'])

INVOICE_PATTERNS = {
    'invoice_no': r'Invoice\s*Number[:#]?\s*([A-Z0-9-]+)',
    'date': r'Date[:]?\s*(\d{2}[/-]\d{2}[/-]\d{4})',
    'amount': r'Total\s*Due[:]?\s*\$?(\d+\.\d{2})'
}

def process_invoices(folder):
    results = []
    for invoice in Path(folder).glob('*.pdf'):
        text = '\n'.join(reader.readtext(str(invoice), detail=0))
        extracted = {field: re.search(pattern, text) 
                    for field, pattern in INVOICE_PATTERNS.items()}
        results.append({
            'file': invoice.name,
            'data': {k: v.group(1) if v else None 
                     for k, v in extracted.items()}
        })
    return results
invoices_data = process_invoices('/invoices/')

NaÅ¡umo optimizavimas

GPU pagreitinimas

Grupinis apdorojimas: OptimalÅ«s grupÄs dydÅ¾iai (4-16 priklausomai nuo GPU atminties)
Atminties valdymas: Automatinis dideliÅ³ dokumentÅ³ skaidymas
MiÅ¡rÅ«s tikslumai: FP16 iÅ¡vados su Tensor branduoliais

Tikslumo derinimas

Kontrasto slenksÄiai: Reguliuokite contrast_ths prastos kokybÄs nuskaitymams
Teksto dydÅ¾io filtravimas: Nustatykite min_size, kad ignoruotumÄte maÅ¾Ä tekstÄ
KalbÅ³ prioritetai: IÅ¡dÄstykite kalbas pagal tikÄtinÄ paplitimÄ