Giải pháp OCR dá»±a trên há»c sâu trong Python
Sá» dụng docTR Äá» trÃch xuất và nháºn dạng vÄn bản chÃnh xác từ hình ảnh
API docTR cho Python là gì?
docTR (Document Text Recognition) là thư viá»n mã nguá»n má» Nháºn dạng Ký tá»± Quang há»c (OCR) dá»±a trên há»c sâu cho Python. Nó cung cấp khả nÄng phát hiá»n và nháºn dạng vÄn bản tiên tiến cho tà i liá»u scan, hình ảnh và file PDF. Bằng cách sá» dụng các kiến trúc há»c sâu hiá»n Äại, docTR Äảm bảo Äá» chÃnh xác và hiá»u quả cao trong viá»c trÃch xuất vÄn bản trong khi vẫn giữ nguyên cấu trúc tà i liá»u.
docTR ÄÆ°á»£c sá» dụng rá»ng rãi cho sá» hóa tà i liá»u, trÃch xuất dữ liá»u tá»± Äá»ng và các ứng dụng nháºn dạng vÄn bản AI. Há» trợ Äa ngôn ngữ, nháºn dạng chữ viết tay và tÄng tá»c GPU Äá» cải thiá»n hiá»u suất.
TÃnh nÄng chÃnh cá»§a API docTR
- OCR há»c sâu nâng cao: Sá» dụng mạng nÆ¡-ron Äá» phát hiá»n và nháºn dạng vÄn bản chÃnh xác
- Há» trợ Äa Äá»nh dạng: Là m viá»c liá»n mạch vá»i hình ảnh, PDF và tà i liá»u scan
- Nháºn dạng chữ viết tay: Phát hiá»n và trÃch xuất vÄn bản viết tay vá»i Äá» chÃnh xác cao
- Nháºn dạng Äa ngôn ngữ: Há» trợ nhiá»u ngôn ngữ và há» thá»ng chữ viết
- Tá»i ưu hóa tá»c Äá»: TrÃch xuất vÄn bản hiá»u quả vá»i tÄng tá»c GPU
- Bảo toà n bá» cục tà i liá»u: Giữ nguyên cấu trúc trong quá trình nháºn dạng vÄn bản
- Má» rá»ng và mã nguá»n má»: Miá» n phà sá» dụng và liên tục ÄÆ°á»£c cải tiến
Bắt Äầu vá»i API docTR
Äá» cà i Äặt docTR, sá» dụng lá»nh pip sau:
Cà i Äặt docTR
pip install python-doctr
Nếu muá»n báºt tÄng tá»c GPU Äá» xá» lý nhanh hÆ¡n, cà i Äặt các phụ thuá»c bá» sung:
Cà i Äặt phụ thuá»c GPU
pip install tensorflow-gpu torch torchvision
Và dụ mã trÃch xuất vÄn bản bằng API docTR
Dưá»i Äây là má»t sá» và dụ minh há»a viá»c trÃch xuất vÄn bản từ hình ảnh và tà i liá»u bằng docTR.

Và dụ 1: TrÃch xuất vÄn bản từ hình ảnh
Và dụ nà y minh há»a cách tải hình ảnh, áp dụng OCR vá»i docTR và trÃch xuất vÄn bản. VÄn bản trÃch xuất bao gá»m vá» trà cá»§a nó trong hình ảnh, hữu Ãch cho xá» lý tà i liá»u có cấu trúc.
TrÃch xuất vÄn bản từ hình ảnh
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Và dụ 2: Xá» lý tà i liá»u PDF nhiá»u trang
Nếu bạn cần trÃch xuất vÄn bản từ file PDF chứa nhiá»u trang, docTR ÄÆ¡n giản hóa quá trình nà y. Và dụ sau minh há»a cách trÃch xuất vÄn bản từ má»i trang má»t cách hiá»u quả.
TrÃch xuất vÄn bản từ PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Và dụ 3: Nháºn dạng chữ viết tay
docTR cÅ©ng có thá» nháºn dạng chữ viết tay, lý tưá»ng Äá» sá» hóa ghi chú viết tay, biá»u mẫu hoặc tà i liá»u lá»ch sá». Và dụ nà y minh há»a viá»c trÃch xuất vÄn bản từ tà i liá»u viết tay tá»ng hợp.
TrÃch xuất chữ viết tay
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Kết luáºn
API docTR là má»t giải pháp OCR mạnh mẽ dá»±a trên há»c sâu giúp ÄÆ¡n giản hóa viá»c trÃch xuất vÄn bản từ hình ảnh, PDF và tà i liá»u viết tay. Nó Äảm bảo Äá» chÃnh xác cao trong khi vẫn giữ nguyên cấu trúc tà i liá»u, trá» thà nh công cụ giá trá» cho xá» lý tà i liá»u AI, tá»± Äá»ng hóa và trÃch xuất dữ liá»u.
Dù bạn Äang là m viá»c vá»i sá» hóa tà i liá»u, nháºp liá»u tá»± Äá»ng hay nháºn dạng vÄn bản AI, docTR cung cấp giải pháp linh hoạt và hiá»u quả phù hợp vá»i nhu cầu cá»§a bạn.