安装pdfminer 库

windows 下安装pdfminer3k

pip install pdfminer3k

Liunx 下安装pdfminer

pip install pdfminer

代码

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams, LTTextBoxHorizontal

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter

def pdfParse(path):
"""
pdf文字提取
:param path:文件路径
:return: 每页结果列表
"""
fp = open(path, ‘rb’) # 以二进制读模式打开
# 用文件对象来创建一个pdf文档分析器
praser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器与文档对象
praser.set_document(doc)
doc.set_parser(praser)

# 提供初始化密码
# 如果没有密码 就创建一个空的字符串
doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略
if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
else:
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    #每页文字内容
    results = []
    # 循环遍历列表，每次处理一个page的内容
    for page in doc.get_pages():  # doc.get_pages() 获取page列表
        interpreter.process_page(page)
        # 接受该页面的LTPage对象
        layout = device.get_result()
        # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，
        for x in layout:
            if isinstance(x, LTTextBoxHorizontal):
                results.append(x.get_text())
    return results

该库是根据迭代pdf每一页进行文字提取，也可以识别判断页码的功能

另外还有一个pypdf2 库也可以识别但是感觉不如这个准确

python 提取pdf文字

安装pdfminer 库

代码

该库是根据迭代pdf每一页进行文字提取，也可以识别判断页码的功能

windows cad如何调出工具栏

神谕之战（Tera）全种族图文介绍

最新文章

如何做一名合格的共产党员（如何做好一名合格的党员）

如何沏茶（记住7个泡茶步骤，迅速进阶泡茶高手）

奉天子以令不臣（“奉天子以令不臣”和“挟天子而令诸侯”有啥区别？）

腊梅花种子（腊梅种子种植方法）

苹果符号怎么打(小苹果符号复制)

家庭水处理系统（家庭中央水处理系统知识科普）

南戴河在哪（南戴河之旅）

牛顿的小故事（关于牛顿的故事）

长沙玫瑰园在哪（长沙玫瑰园生态农庄休闲拓展一日游）

消费日报网是什么级别的媒体（消费日报网介绍）

标签

热评文章

户口本可以补手机卡吗-身份证号可以办手机卡吗(拿着户口本可以补办电话卡吗)

怎么查手机卡是主卡还是副卡-手机卡办副卡的危害(怎样知道自己的联通手机卡是副卡还是主卡)

电销卡服务商-电销卡服务商是谁(什么是电销卡)

手机卡丢了在异地怎么补办原号码-手机卡丢失了异地怎么补办(人在异地怎么补卡)

手机卡丢了怎么补办-移动手机卡丢了怎么补办(移动手机卡遗失或者损坏如何在线补换卡的)

python 提取pdf文字

安装pdfminer 库

代码

该库是根据 迭代pdf每一页 进行文字提取， 也可以识别判断页码的功能

windows cad如何调出工具栏

神谕之战（Tera） 全种族图文介绍

最新文章

如何做一名合格的共产党员（如何做好一名合格的党员）

标签

热评文章

户口本可以补手机卡吗-身份证号可以办手机卡吗(拿着户口本可以补办电话卡吗)

怎么查手机卡是主卡还是副卡-手机卡办副卡的危害(怎样知道自己的联通手机卡是副卡还是主卡)

电销卡服务商-电销卡服务商是谁(什么是电销卡)

手机卡丢了在异地怎么补办原号码-手机卡丢失了异地怎么补办(人在异地怎么补卡)

手机卡丢了怎么补办-移动手机卡丢了怎么补办(移动手机卡遗失或者损坏如何在线补换卡的)

关注我们的公众号

该库是根据迭代pdf每一页进行文字提取，也可以识别判断页码的功能

神谕之战（Tera）全种族图文介绍