python 使用pdfminer3k 讀取PDF文件的例子
阿新 • • 發佈:2020-01-09
1、安裝 pdfminer3k
通過pip安裝: pip install pdfminer3k
下載安裝:在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載,解壓。然後cmd命令進入到當前資料夾:
可以直接在資源管理器的路徑欄直接輸入cmd進入到當前目錄。然後執行 python setup.py install 等待安裝完成
2.讀取pdf中的TXT程式碼示例:
from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice # 可以使用此方法獲取網路上的pdf from urllib.request import urlopen fp = urlopen("https://******/articles/800348152163.pdf") #獲取文件物件 #fp = open("****.pdf","rb") #建立一個一個與文件關聯的直譯器 parser = PDFParser(fp) #PDF文件的物件 doc = PDFDocument() #連線直譯器和文件物件 parser.set_document(doc) doc.set_parser(parser) #初始化文件,當前文件沒有密碼,設為空字串 doc.initialize("") #建立PDF資源管理器 resource = PDFResourceManager() #引數分析器 laparam = LAParams() #建立一個聚合器 device = PDFPageAggregator(resource,laparams=laparam) #建立PDF頁面直譯器 interpreter = PDFPageInterpreter(resource,device) #使用文件物件得到頁面的集合 for page in doc.get_pages(): # 使用頁面直譯器讀取 interpreter.process_page(page) # 使用聚合器來獲得內容 layout = device.get_result() for out in layout: if hasattr(out,"get_text"): print(out.get_text())
以上這篇python 使用pdfminer3k 讀取PDF文件的例子就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。