کتابخاÙÙ ÙØ±Ø§Ø¯Ø§Ø¯Ù Ù¾Ø§ÛØªÙÙ Ù ÙØ¨Ø¹ باز
کتابخاÙ٠راÛÚ¯Ø§Ù Ù Ù ÙØ¨Ø¹ باز Ù¾Ø§ÛØªÙÙ Ø¨Ø±Ø§Û Ø®ÙØ§ÙØ¯ÙØ ÙÛØ±Ø§ÛØ´ Ù Ø¨Ù Ø±ÙØ² رساÙÛ Ø§Ø¨Ø±Ø¯Ø§Ø¯Ù Ø§Ø³ÙØ§Ø¯.
tika-python API Ø¨Ø±Ø§Û Ù¾Ø§ÛØªÙÙ ÚÛØ³ØªØ
tika-python ÛÚ© Ø§ØªØµØ§Ù Ù¾Ø§ÛØªÙÙ Ø¨Ø±Ø§Û Apache Tika Ø§Ø³ØªØ ÛÚ© جعب٠ابزار Ù ÙØ¨Ø¹ باز ÙÙÛ Ø¨Ø±Ø§Û Ø§Ø³ØªØ®Ø±Ø§Ø¬ ٠ت٠٠ابرداد٠از ÙØ±Ù ت ÙØ§Û ٠ختÙÙ ÙØ§ÛÙ. tika-python با Ù¾Ø´ØªÛØ¨Ø§ÙÛ Ø§Ø² ØµØ¯ÙØ§ ÙÙØ¹ ÙØ§ÛÙØ از ج٠ÙÙ Ø§Ø³ÙØ§Ø¯Ø تصاÙÛØ±Ø ÙÛØ¯Ø¦ÙÙØ§Ø ÙØ§ÛÙâÙØ§Û ØµÙØªÛ ٠باÛگاÙÛâÙØ§Ø ØªÙØ³Ø¹ÙâØ¯ÙÙØ¯Ú¯Ø§Ù را ÙØ§Ø¯Ø± Ù ÛâØ³Ø§Ø²Ø¯ تا استخراج Ù ØØªÙا ٠تجزÛ٠٠تØÙÛÙ ÙØ±Ø§Ø¯Ø§Ø¯Ù را ب٠شÛÙÙâØ§Û ÛکپارÚ٠٠کارآ٠د Ø§ÙØ¬Ø§Ù دÙÙØ¯.
ÙÛÚÚ¯Û ÙØ§Û tika-python API
tika-python is a powerful API that has rich features as follow:- Ù¾Ø´ØªÛØ¨Ø§ÙÛ Ú¯Ø³ØªØ±Ø¯Ù Ø§Ø² ÙØ±Ù ت ÙØ§ÛÙ: ٠ت٠٠ابرداد٠را از ÙØ§ÛÙâÙØ§Û PDFØ Ø§Ø³ÙØ§Ø¯ WordØ ØµÙØØ§Øª گسترد٠ExcelØ Ø§Ø±Ø§Ø¦ÙâÙØ§Û Ù¾Ø§ÙØ±Ù¾ÙÛÙØªØ HTMLØ ØªØµØ§ÙÛØ±Ø ÙØ§ÛÙâÙØ§Û ÚÙØ¯Ø±Ø³Ø§ÙÙâØ§Û Ù Ù ÙØ§Ø±Ø¯ دÛگر استخراج Ù ÛâÚ©ÙØ¯.
- استخراج ٠تÙ: ÙØ§ÛÙâÙØ§ را ب٠٠ت٠ساد٠تبدÛÙ Ù ÛâÚ©ÙØ¯ ٠آ٠را Ø¨Ø±Ø§Û Ø¨Ø±ÙØ§Ù ÙâÙØ§ÛÛ Ù Ø§ÙÙØ¯ ÙÙØ±Ø³ØªâØ¨ÙØ¯Û Ø¬Ø³ØªØ¬ÙØ پردازش Ø²Ø¨Ø§Ù Ø·Ø¨ÛØ¹Û (NLP) ٠دادÙâکاÙÛ Ø§ÛØ¯ÙâØ¢Ù Ù ÛâÚ©ÙØ¯.
- تجزÛ٠٠تØÙÛÙ ÙØ±Ø§Ø¯Ø§Ø¯Ù: ÙØ±Ø§Ø¯Ø§Ø¯Ù ÙØ§Û دÙÛÙÛ Ø±Ø§ Ø¨Ø±Ø§Û ÙØ§ÛÙ ÙØ§ از ج٠ÙÙ ÙÙÛØ³ÙØ¯ÙØ ØªØ§Ø±ÛØ® Ø§ÛØ¬Ø§Ø¯Ø ØªØ§Ø±ÛØ® Ø§ØµÙØ§ØØ ÙÙØ¹ MIME Ù Ù ÙØ§Ø±Ø¯ دÛگر Ø§Ø±Ø§Ø¦Ù Ù Û Ø¯ÙØ¯.
- ØªØ´Ø®ÛØµ زباÙ: بÙâØ·ÙØ± Ø®ÙØ¯Ú©Ø§Ø± Ø²Ø¨Ø§Ù Ù ØØªÙØ§Û ÙÙØ´ØªØ§Ø±Û را در Ø§Ø³ÙØ§Ø¯ ØªØ´Ø®ÛØµ Ù ÛâØ¯ÙØ¯.
- تØÙÛÙ Ù ØØªÙا: ÙØ§ÛÙâÙØ§ را Ø¨Ø±Ø§Û Ø§Ø·ÙØ§Ø¹Ø§Øª Ø³Ø§Ø®ØªØ§Ø±ÛØ ٠اÙÙØ¯ Ø³Ø±ÙØµÙâÙØ§Ø پاراگراÙâÙØ§ Ù Ù ØØªÙØ§Û Ø¬Ø§Ø³Ø§Ø²Û Ø´Ø¯Ù ØªØ¬Ø²ÛÙ Ù ÛâÚ©ÙØ¯.
- ادغا٠با Ø³Ø±ÙØ± Apache Tika: از Tika REST API Ø§Ø³ØªÙØ§Ø¯Ù Ù ÛâÚ©ÙØ¯ Ù Ø§Ù Ú©Ø§Ù Ø§Ø³ØªÙØ±Ø§Ø± Ù ÙÛØ§Ø³âÙ¾Ø°ÛØ± Ù Ø¬Ø¯Ø§Ø³Ø§Ø²Û ÙØ§ÛÙâÙØ§ را از Ø¨Ø±ÙØ§Ù ٠اصÙÛ ÙØ±Ø§ÙÙ Ù ÛâÚ©ÙØ¯.
Ù Ø²Ø§ÛØ§Û Tika-Python API
- Ù¾Ø´ØªÛØ¨Ø§ÙÛ Ø§Ø² ÙØ±Ù ت گستردÙ: با آراÛÙ ÙØ³ÛØ¹Û Ø§Ø² اÙÙØ§Ø¹ ÙØ§Û٠کار Ù Û Ú©ÙØ¯.
- Ù ÙÛØ§Ø³âÙ¾Ø°ÛØ±Û: Ù ÛâØªÙØ§Ùد با Ø³Ø±ÙØ± Tika Ø¨Ø±Ø§Û Ø§Ø³ØªØ®Ø±Ø§Ø¬ Ù ØØªÙØ§Û Ø¯Ø± Ù ÙÛØ§Ø³ بزرگ Ø§Ø¯ØºØ§Ù Ø´ÙØ¯.
- Cross-Platform: رÙÛ ÙØ± Ù¾ÙØªÙØ±Ù Û Ú©Ù Ù¾Ø§ÛØªÙÙ Ù Ø¬Ø§ÙØ§ ÙØµØ¨ شد٠باشد اجرا Ù ÛâØ´ÙØ¯.
- ÙØ±Ø§Ø¯Ø§Ø¯Ù غÙÛ: ÙØ±Ø§Ø¯Ø§Ø¯Ù جا٠ع را Ø¨Ø±Ø§Û ØªØ¬Ø²Û٠٠تØÙÛ٠استخراج Ù Û Ú©ÙØ¯.
Ø´Ø±ÙØ¹ ب٠کار با Tika-Python API Ø¨Ø±Ø§Û Ù¾Ø§ÛØªÙÙ
Ø§Ø³ØªÙØ§Ø¯Ù از tika-Python در Ø¨Ø±ÙØ§Ù Ù ÙØ§Û Ù¾Ø§ÛØªÙ٠ش٠ا را Ù ÙØ²Ù Ø¨Ù ÙØµØ¨ ÙØ³Ø®Ù 3.6+ Python بر رÙÛ Ø³ÛØ³ØªÙ Ø®ÙØ¯ Ù Û Ú©ÙØ¯. Ø¨ÙØ§Ø¨Ø±Ø§ÛÙØ ابتدا Python را ÙØµØ¨ Ú©ÙÛØ¯ ٠سپس از Ø¯Ø³ØªÙØ±Ø§Øª Ø²ÛØ± Ø¨Ø±Ø§Û ÙØµØ¨ Hachoir API بر رÙÛ Ø¯Ø³ØªÚ¯Ø§Ù Ø®ÙØ¯ با Ø§Ø³ØªÙØ§Ø¯Ù از pip Ù Ù ØÛØ· ٠جازÛ.
pip install tika
کار با tika-Python API Ø¨Ø±Ø§Û Python - ٠ثاÙÙØ§
ش٠ا Ù Û ØªÙØ§ÙÛØ¯ از API tika-python Ø¨Ø±Ø§Û Ø®ÙØ§ÙØ¯Ù Ø§Ø·ÙØ§Ø¹Ø§Øª ÙØ±Ø§Ø¯Ø§Ø¯Ù از اÙÙØ§Ø¹ ÙØ§ÛÙ ÙØ§Û ٠ختÙÙ Ø§Ø³ØªÙØ§Ø¯Ù Ú©ÙÛØ¯. API ب٠ش٠ا ا٠کا٠٠ÛâØ¯ÙØ¯ Ø§Ø·ÙØ§Ø¹Ø§Øª ÙØ±Ø§Ø¯Ø§Ø¯Ù را از ÙØ±Ù تâÙØ§Û ÙØ§Û٠٠ختÙ٠تÙÙØ§ با ÚÙØ¯ خط کد Ø¨Ø®ÙØ§ÙÛØ¯. ÙÙ ÙÙ٠کد Ø²ÛØ± ÙØ´Ø§Ù Ù Û Ø¯ÙØ¯ Ú©Ù ÚÚ¯ÙÙÙ API tika-python Ù Û ØªÙØ§Ùد در Ø¨Ø±ÙØ§Ù Ù ÙØ§Û Ù¾Ø§ÛØªÙÙ Ø§Ø³ØªÙØ§Ø¯Ù Ø´ÙØ¯.
Ø§Ø·ÙØ§Ø¹Ø§Øª ÙØ±Ø§Ø¯Ø§Ø¯Ù ÛÚ© ÙØ§Û٠را با Ø§Ø³ØªÙØ§Ø¯Ù از tika-Python API Ø¨Ø±Ø§Û Ù¾Ø§ÛØªÙÙ Ø¨Ø®ÙØ§ÙÛØ¯
Tika-Python API ب٠ش٠ا ا٠کا٠٠ÛâØ¯ÙØ¯ Ø§Ø·ÙØ§Ø¹Ø§Øª ÙØ±Ø§Ø¯Ø§Ø¯Ù را از ÛÚ© ÙØ§Û٠تÙÙØ§ با ÛÚ© خط کد Ø¨Ø®ÙØ§ÙÛØ¯. Ø¨Ø±Ø§Û Ø®ÙØ§ÙØ¯Ù Ø§Ø·ÙØ§Ø¹Ø§Øª ÙØ±Ø§Ø¯Ø§Ø¯Ù از ÙØ± Ø³ÙØ¯Û Ù Û ØªÙØ§ÙÛØ¯ از کد ÙÙ ÙÙÙ Ø²ÛØ± Ø§Ø³ØªÙØ§Ø¯Ù Ú©ÙÛØ¯.
Ø®Ø±ÙØ¬Û
ÙÙÚ¯Ø§Ù Û Ú©Ù Ø§Û٠کد را اجرا Ù Û Ú©ÙÛØ¯Ø Ø®Ø±ÙØ¬Û تا ØØ¯ÙØ¯Û Ø´Ø¨ÛÙ Ø¨Ù Ø²ÛØ± Ø®ÙØ§Ùد Ø¨ÙØ¯:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'
ÙØªÛØ¬Ù Ú¯ÛØ±Û
The Tika-Python API is a robust and versatile tool that simplifies the extraction of text and metadata from a wide range of file formats. Its seamless integration with Apache Tika ensures powerful functionality, making it suitable for applications in content management, digital forensics, document indexing, and natural language processing. With its extensive format support, scalability, and ability to handle complex metadata, Tika-Python is an essential resource for developers and organizations looking to automate and streamline metadata and content extraction workflows. Whether used for small-scale projects or large enterprise solutions, Tika-Python offers reliability, flexibility, and efficiency.Ù ØØµÙÙØ§Øª ٠شابÙ
- hachoir | کتابخاÙÙ Python Ù ÙØ¨Ø¹ باز Ø¨Ø±Ø§Û Metadata Ø³ÙØ¯
- OpenPyXL API - Ù Ø¯ÛØ±Ûت ÙØ±Ø§Ø¯Ø§Ø¯Ù اکس٠بدÙ٠زØÙ ت
- pdf-lib Ø¨Ø±Ø§Û Ø¬Ø§ÙØ§ اسکرÛپت | Ù Ø¯ÛØ±Ûت Ù ØªØ§Ø¯ÛØªØ§ PDF Ø¨Ù Ø±Ø§ØØªÛ
- pyExifTool | API Ù ÙØ¨Ø¹ باز Ù¾Ø§ÛØªÙÙ Ø¨Ø±Ø§Û ÙØ±Ø§Ø¯Ø§Ø¯Ù Ø³ÙØ¯
- PyLightXL API â Ù Ø¯ÛØ±Ûت ÙØ±Ø§Ø¯Ø§Ø¯Ù ÙØ§ÛÙ Ø§Ú©Ø³Ù Ø¨Ù Ø·ÙØ± Ù ÙØ«Ø±