Python 3.6 中使用pdfminer解析pdf檔案的實現

阿新 • • 發佈：2020-01-09

所使用python環境為最新的3.6版本

一、安裝pdfminer模組

安裝anaconda後，直接可以通過pip安裝

pip install pdfminer3k

這裡寫圖片描述

如上圖所示安裝成功。

二、在IDE中進行編碼

#!/usr/bin/env python
# encoding: utf-8

"""
@author: wugang
@software: PyCharm
@file: prase_pdf.py
@time: 2017/3/3 0003 11:16
"""
import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
 解析pdf 文字，儲存到txt檔案中
'''
path = r'../../data/pdf/阿里巴巴Java開發規範手冊.pdf'
def parse():
  fp = open(path,'rb') # 以二進位制讀模式開啟
  #用檔案物件來建立一個pdf文件分析器
  praser = PDFParser(fp)
  # 建立一個PDF文件
  doc = PDFDocument()
  # 連線分析器 與文件物件
  praser.set_document(doc)
  doc.set_parser(praser)

  # 提供初始化密碼
  # 如果沒有密碼 就建立一個空的字串
  doc.initialize()

  # 檢測文件是否提供txt轉換，不提供就忽略
  if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
  else:
    # 建立PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 建立一個PDF裝置物件
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr,laparams=laparams)
    # 建立一個PDF直譯器物件
    interpreter = PDFPageInterpreter(rsrcmgr,device)

    # 迴圈遍歷列表，每次處理一個page的內容
    for page in doc.get_pages(): # doc.get_pages() 獲取page列表
      interpreter.process_page(page)
      # 接受該頁面的LTPage物件
      layout = device.get_result()
      # 這裡layout是一個LTPage物件 裡面存放著 這個page解析出的各種物件 一般包括LTTextBox,LTFigure,LTImage,LTTextBoxHorizontal 等等 想要獲取文字就獲得物件的text屬性，
      for x in layout:
        if (isinstance(x,LTTextBoxHorizontal)):
          with open(r'../../data/pdf/1.txt','a') as f:
            results = x.get_text()
            print(results)
            f.write(results + '\n')

if __name__ == '__main__':
  parse()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python 3.6 中使用pdfminer解析pdf檔案的實現

所使用python環境為最新的3.6版本一、安裝pdfminer模組安裝anaconda後，直接可以通過pip安裝

AndroidStudio 3.6 中 R.layout 找不到對應的xml檔案問題及解決方法

在新版的AndroidStudio3.6 中，在專案的包下新建 activity 時，一般會同時生成對應的java和xml檔案，例如新建 MainActivity,則會在java包下生成 MainActivity.java,在 res 資料夾下的layout檔案中生成 activity_main

python 3.6 +pyMysql 操作mysql資料庫(例項講解)

版本資訊：python:3.6　　mysql:5.7　　pyMysql:0.7.11 #################################################################

python從zip中刪除指定字尾檔案(推薦)

一，說明環境：python2 用到的模組 os zipfile shutil 程式功能：從zip中刪除指定字尾的檔案，然後再自動壓縮

Python 3.6打包成EXE可執行程式的實現

1、下載pyinstaller python 3.6 已經自己安裝了pip，所以只需要執行 pip install pyinstaller就可以了

python 3.6.7實現埠掃描器

本文例項為大家分享了python 3.6.7埠掃描器的具體程式碼，供大家參考，具體內容如下

Android Studio 3.6中使用檢視繫結替代 findViewById的方法

從 Android Studio 3.6 開始，檢視繫結能夠通過生成繫結物件來替代 findViewById，從而可以幫您簡化程式碼、移除 bug，並且從 findViewById 的模版程式碼中解脫出來。

Android Studio 3.6中新的檢視繫結工具ViewBinding 用法詳解

前言我們在Android開發的過程中總是需要獲取XML佈局中的ViewId，以便給其賦值進行顯示，早期我們只能使用 findViewById 這個API，會導致很多的模版程式碼出現。2013年左右Android界大神 Jake Wharton開源了Butter K

android studio 3.6 中配置svn的教程

前言不知道從哪一個版本起，Android studio 設定介面中已經沒有忽略檔案的設定。可能也是沒有找到。下面簡單記錄下如何簡單高效的配置svn。下面所用as版本為3.6.1。

python3用PyPDF2解析pdf檔案,用正則匹配資料方式

我就廢話不多說了，大家還是看程式碼吧！ import PyPDF2 import re pdf_file = open(\'xxx.pdf\',mode=\'rb\')

Python + Selenium -Python 3.6 3.7 安裝 PyKeyboard PyMouse

1.先安裝pyHook 進入其官網，搜尋pyHook找到該檔案: https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

windows10上安裝mmdetection2.5.0 + pytorch1.6 + CUDA10.1 (python==3.6)

之前只能在windows上安裝py37版本的, 目前已支援py36了.(2020-10-19) 能不能安裝, 主要是看能裝什麼版本的mmcv-full. 在mmcv的安裝包網址上可以看到, 目前已經有mmcv_full-1.1.5+torch1.6.0+cu101-cp36-cp3

java解析pdf檔案並輸出指定的內容

技術標籤：javajava 要求通過解析pdf檔案，輸出發票程式碼，發票號碼，開票日期(YYYYMMDD)，校驗碼後六位。

E: Failed to fetch http://ppa.launchpad.net/jonathonf/python-3.6/...

技術標籤：問題ubuntupython 在進行apt-get update時報瞭如下錯誤原因是因為無效的安裝源導致了403錯誤

python 3.6在linux16.04下的安裝命令列

技術標籤：pythonubuntu 安裝python3.6 sudo apt-get update sudo apt-get install python3.6 由於系統中存在多個python，因此如果要使用某個特定版本的python的話就要指定python版本，非常麻煩如果要使用pytho

ubuntu 20.04 安裝python 3.6.8

安裝依賴工具 sudo apt-get install -y gcc make build-essential libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev xz-utils tk-dev libffi-de

網頁中直接下載 PDF 檔案而不開啟新的頁面載入 PDF 檔案

我們知道 <a> 元素有 download 屬性，表示當前連結不是用來瀏覽的，而是用來下載的。它的值是一個字串，表示使用者下載得到的檔名。可是對於 PDF 檔案，瀏覽器預設開啟一個新的頁面載入 PDF 檔案，而不會直接

python自動化測試框架(1)----解析ini檔案

背景 PO設計模式是selenum自動化測試中比較好的設計模式在專案的開發過程中，UI介面上的元素不確定，會經常變化

Python 3.x 中"HTTP Error 403: Forbidden"問題的解決方案

使用python3.x通過前端頁面呼叫介面時，會出現HTTP Error 403: Forbidden 具體報錯資訊如下：

Bug "The PyDev.Debugger requires Python 3.6 onwards to be run" 解決

Bug The PyDev.Debugger requires Python 3.6 onwards to be run 解決 Traceback (most recent call last):

Python 3.6 中使用pdfminer解析pdf檔案的實現

相關推薦