PDFMiner Python的PDF文档文本提取工具

PDFMinerPDF文档文本提取工具

PDFMiner,Python第三方库,可以用于PDF文档文本提取工具。支持PDF-1.7;支持获取文本的确切位置以及其他布局信息(字体等);执行自动布局分析;可以将PDF转换为其他格式(HTML/XML);可以提取大纲(TOC);可以提取标记的内容;支持基本加密(RC4和AES);支持各种字体类型(Type1、TrueType、Type3和CID);支持CJK语言和垂直书写脚本;有一个可扩展的PDF解析器,可以用于其他目的。

PDFMiner Github开源协议和stars

MIT license

Github 5.1k stars

PDFMiner安装命令

pip install pdfminer

Python版本要求

Python3.6+

免责声明:内容编辑自网络,仅供参考,不保证正确性,不作任何决策依据!!以上数据皆截止于博文的写稿日期。


行业导航 / Python指南 :
























Copyright © 2022-2024 笨鸟工具 x1y1z1.com All Rights Reserved.