textract Python从文档中提取文本
textract简介
textract,可以使用Python代码从Word文档、PowerPoint演示文稿、PDF等多种文档中提取信息。
textract应用实例
import textract
text = textract.process("path/to/file.extension")
textract Github统计数据
MIT license
Github 3.7k stars
textract安装命令
#Ubuntu / Debian
apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr \
flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract
#OSX
brew cask install xquartz
brew install poppler antiword unrtf tesseract swig
pip install textract
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。