python 使用pdfminer3k 讀取PDF文件的例子

阿新 • • 發佈：2020-01-09

1、安裝 pdfminer3k

通過pip安裝: pip install pdfminer3k

下載安裝：在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載，解壓。然後cmd命令進入到當前資料夾：

可以直接在資源管理器的路徑欄直接輸入cmd進入到當前目錄。然後執行 python setup.py install 等待安裝完成

2.讀取pdf中的TXT程式碼示例：

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法獲取網路上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#獲取文件物件
#fp = open("****.pdf","rb")

#建立一個一個與文件關聯的直譯器
parser = PDFParser(fp)

#PDF文件的物件
doc = PDFDocument()

#連線直譯器和文件物件
parser.set_document(doc)
doc.set_parser(parser)

#初始化文件,當前文件沒有密碼，設為空字串
doc.initialize("")

#建立PDF資源管理器
resource = PDFResourceManager()

#引數分析器
laparam = LAParams()

#建立一個聚合器
device = PDFPageAggregator(resource,laparams=laparam)

#建立PDF頁面直譯器
interpreter = PDFPageInterpreter(resource,device)

#使用文件物件得到頁面的集合
for page in doc.get_pages():
 # 使用頁面直譯器讀取
 interpreter.process_page(page)

 # 使用聚合器來獲得內容
 layout = device.get_result()

 for out in layout:
  if hasattr(out,"get_text"):
   print(out.get_text())

以上這篇python 使用pdfminer3k 讀取PDF文件的例子就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python 使用pdfminer3k 讀取PDF文件的例子

1、安裝 pdfminer3k 通過pip安裝: pip install pdfminer3k 下載安裝：在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載，解壓。然後cmd命令進入到當前資料夾：

python讀取word文件,插入mysql資料庫的示例程式碼

表格內容如下： 1、實現批量匯入word文件，取文件標題中的數字作為編號 2、除取上面打鉤的內容需要匹配出來入庫入庫，其他內容全部直接入庫mysql

python輸出pdf文件的例項

python匯出pdf，參考諸多資料，發現pdfkit是效果比較好的。故下載後進行了實現，多次失敗後終於成功了，現將其中經驗總結如下：

Python讀取word文件內容

1，利用python讀取純文字的word文件，讀取段落和段落裡的文字。先讀取段落，程式碼如下：

利用python將PDF文件轉語音

技術標籤：pdfpython win10 python3.9 測試通過： import pdfplumber # 讀取PDF文件 pdf = pdfplumber.open("d:/電子書/終身成長.pdf")

利用Python將PDF文件轉為MP3音訊

1. 轉語音工具微信讀書有一個功能，可以將書裡的文字轉換為音訊，而且聲音優化的不錯，比傳統的機械朗讀聽起來舒服很多。

Python PDF文件轉圖片

PDF文件轉圖片，網上的教程很多，我就僅提供下自己的程式碼以做參考網上的教程很多，我就僅提供下自己的程式碼以做參考

Django生成PDF文件顯示網頁上以及PDF中文顯示亂碼的解決方法

專案地址：https://github.com/PythonerKK/django-generate-pdf/tree/master 這個demo實現了通過使用者輸入自己的個人資訊生成一份簡歷pdf，來闡述如何使用Django的HttpResponse生成PDF的文件。

使用Python 自動生成 Word 文件的教程

當然要用第三方庫啦 :) 使用以下命令安裝： pip install python-docx 使用該庫的基本步驟為：

基於python-pptx庫中文文件及使用詳解

個人使用樣例及部分翻譯自官方文件，並詳細介紹chart的使用一：基礎應用 1.建立pptx文件類並插入一頁幻燈片

python-xpath獲取html文件的部分內容

有些時候我在們需要的用正則提取出html中某一個部分的文字內容，如圖: 獲取dd部分的html文件，我們要通過它的一個屬性去確定他的位置才可以拿到他這個部分我們可以看到他的這個屬性class=\'row clearfix \'，然後用

C# 新增文字、圖片到PDF文件（基於Spire.Cloud.PDF.SDK）

Spire.Cloud.PDF.SDK提供了介面PdfTextApi及PdfImagesApi用於新增文字和圖片到PDF文件，新增文字時，可格式化文字樣式，包括文字字型型別、字號、字型樣式、文字顏色、字元間距、行距、首行縮排、文字對齊方式、文字

win10系統匯出PDF文件歷史記錄的方法

win10系統編輯PDF文件會自動產生歷史記錄，以便於在以後能快速地查詢到內容。有的小夥伴想要匯出pdf檔案的歷史記錄，該怎麼匯出來？其實方法很簡單，面我們就來看看詳細的操作方法，需要的朋友可以參考下。

2020面試、進階必備JVM實戰書籍，附PDF文件

無論什麼級別的Java從業者，JVM都是進階時必須邁過的坎。不管是工作還是面試中，JVM都是必考題。

PDFtoWORD_V1.1版本支援PDF文件中的文字和圖片一起轉化到word文件中了~

昨天菜鳥小白做了一個小軟體——PDFtoWORD，作用就是將pdf檔案中的文字提取出來自動轉化為可編輯的word型別。但是這個軟體目前也只能將檔案PDF中的文字提取出來，還無法提取圖片。為了進一步完善這個小工

C# 對PDF文件加密、解密（基於Spire.Cloud.SDK for .NET）

Spire.Cloud.SDK for .NET提供了介面PdfSecurityApi可用於加密、解密PDF文件。本文將通過C#程式碼演示具體加密及解密方法。

通過swagger2markup+asciidoctorj生成html和pdf文件並解決asciidoctorj生成的pdf檔案中文顯示不全問題（maven方式及java程式碼方式）

通過swagger2markup+asciidoctorj生成html和pdf文件（maven方式及java程式碼方式）任務：通過同事的json檔案生成相應的html和pdf文件

Java 拆分 PDF 文件

在辦公過程中，我們有時會遇到需要將一個比較大的PDF文件拆分成多個文件的情況, 今天這篇文章就將介紹兩種使用Free Spire.PDF for Java來拆分PDF文件的方法。

java讀取word文件的文字內容

該程式用於讀取word文件的文字內容，如果是藝術字，圖片不能讀取先在idea建立maven專案

java讀取word文件,提取標題和內容的例項

使用的工具為poi，需要匯入的依賴如下 <dependency> <groupId>org.apache.poi</groupId>