PDFMiner Python的PDF文档文本提取工具
PDFMinerPDF文档文本提取工具
PDFMiner,Python第三方库,可以用于PDF文档文本提取工具。支持PDF-1.7;支持获取文本的确切位置以及其他布局信息(字体等);执行自动布局分析;可以将PDF转换为其他格式(HTML/XML);可以提取大纲(TOC);可以提取标记的内容;支持基本加密(RC4和AES);支持各种字体类型(Type1、TrueType、Type3和CID);支持CJK语言和垂直书写脚本;有一个可扩展的PDF解析器,可以用于其他目的。
PDFMiner Github开源协议和stars
MIT license
Github 5.1k stars
PDFMiner安装命令
pip install pdfminer
Python版本要求
Python3.6+
PDFMiner文档
Documentation:PDFMiner
免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。