textract Python从文档中提取文本

textract简介

textract,可以使用Python代码从Word文档、PowerPoint演示文稿、PDF等多种文档中提取信息。

textract应用实例

import textract
text = textract.process("path/to/file.extension")

textract Github统计数据

MIT license

Github 3.7k stars

textract安装命令

#Ubuntu / Debian
apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr \
flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract

#OSX
brew cask install xquartz
brew install poppler antiword unrtf tesseract swig
pip install textract

免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。


行业导航 / Python指南 :
























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.