1. 程式人生 > 程式設計 >python 使用pdfminer3k 讀取PDF文件的例子

python 使用pdfminer3k 讀取PDF文件的例子

1、安裝 pdfminer3k

通過pip安裝: pip install pdfminer3k

下載安裝:在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載,解壓。然後cmd命令進入到當前資料夾:

可以直接在資源管理器的路徑欄直接輸入cmd進入到當前目錄。然後執行 python setup.py install 等待安裝完成


2.讀取pdf中的TXT程式碼示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法獲取網路上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#獲取文件物件
#fp = open("****.pdf","rb")

#建立一個一個與文件關聯的直譯器
parser = PDFParser(fp)

#PDF文件的物件
doc = PDFDocument()

#連線直譯器和文件物件
parser.set_document(doc)
doc.set_parser(parser)

#初始化文件,當前文件沒有密碼,設為空字串
doc.initialize("")

#建立PDF資源管理器
resource = PDFResourceManager()

#引數分析器
laparam = LAParams()

#建立一個聚合器
device = PDFPageAggregator(resource,laparams=laparam)

#建立PDF頁面直譯器
interpreter = PDFPageInterpreter(resource,device)

#使用文件物件得到頁面的集合
for page in doc.get_pages():
 # 使用頁面直譯器讀取
 interpreter.process_page(page)

 # 使用聚合器來獲得內容
 layout = device.get_result()

 for out in layout:
  if hasattr(out,"get_text"):
   print(out.get_text())

以上這篇python 使用pdfminer3k 讀取PDF文件的例子就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。