python實現PDF中表格轉化為Excel的方法

阿新 • • 發佈：2020-06-17

這幾天想統計一下《中國人文社會科學期刊 AMI 綜合評價報告（2018 年）：A 刊評價報告》中的期刊，但是隻找到了該報告的PDF版，對於表格的編輯不太方便，於是想到用Python將表格轉成Excel格式。

看過別人寫的部落格，發現Python解析PDF有以下四種方式：

-pdfminer:擅長文字的解析，把表格解析成普通的文字，沒有格式；
-pdf2html:把pdf解析成html，但html的標籤並沒有規律，解析一個表格還可以，多個表格的話不太好提取；
-tabula:對於簡單的表格，即單元格中沒有換行的，表頭表尾形式不復雜的，使用比較方便。但是單腦需要Java環境；
-pdfplumber:是一個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元、矩陣、和行的詳細資訊，也可以對錶格進行提取並進行視覺化除錯。

本文采用pdfplumber庫讀取PDF中的表格，執行環境：Python3.5.2，Anaconda4.2.0。首先簡單介紹一下pdfplumber庫：

-pdfplumber.pdf中包含了.metadata和.pages兩個屬性：
.metadata是一個包含pdf資訊的字典。
.pages是一個包含頁面資訊的列表。

-pdfplumber.page的類中包含的主要的屬性：

.page_number 頁碼。
.width 頁面寬度。
.height 頁面高度。
.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表，每個列表都包含一個字典，每個字典用於說明頁面中的物件資訊，包括直線，字元，方格等位置資訊。

-一些常用的方法：

.extract_text() 用來提頁面中的文字，將頁面的所有字元物件整理為的那個字串。
.extract_words() 返回的是所有的單詞及其相關資訊。
.extract_tables() 提取頁面的表格。
.to_image() 用於視覺化除錯時，返回PageImage類的一個例項。

import pdfplumber
import pandas as pd

path = 'test.pdf'
pdf = pdfplumber.open(path)
i=1
#writer=pd.ExcelWriter('output.xlsx')
df=pd.DataFrame(columns=['序號','刊名','主辦單位','等級'])
sheetname=['考古文博','歷史學','馬克思主義理論','民族學與文化學','文學-外國文學','文學-中國文學','藝術學','語言學','哲學','宗教學','法學','管理學','環境科學','教育學','經濟學-財政科學','經濟學-工業經濟','經濟學-金融','經濟學-經濟管理','經濟學-經濟綜合','經濟學-貿易經濟','經濟學-農業經濟','經濟學-世界經濟','人文地理學','社會學','體育學','統計學','圖書館情報與檔案學','心理學','新聞學與傳播學','政治學-國際政治','政治學-中國政治','綜合-高校綜合性學報','綜合-綜合性人文社科期刊']
   
##由於存在一個表格跨頁的情況，先將所有表格存放在一個DataFrame中，再根據序號拆分。

for page in pdf.pages[17:59]:
 print (page)
 # 獲取當前頁面的全部文字資訊，包括表格中的文字
 # print(page.extract_text())
 for table in page.extract_tables():
  #print(table)
  df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)
print (df)

writer=pd.ExcelWriter('output3.xlsx')
new_df=pd.DataFrame()
j=1
index=[]
#記錄序號==1的行索引，用於後面的表格拆分
for i in range(len(df)):
 if df.ix[i,0]=='1':
  index.append(i)
  print ("################")
index.append(len(df))
#print (index)

#按行索引將內容切片並逐個新增到表中
for t in range(len(index)-1):
 new_df=df.ix[index[t]:index[t+1]-1,:]
 #print (new_df)
 new_df.to_excel(writer,sheet_name=sheetname[t],encoding='gb2312',index=None)
writer.save()
pdf.close()
print('finished')

最終儲存為Excel。

python實現PDF中表格轉化為Excel的方法

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

python實現PDF中表格轉化為Excel的方法

python實現PDF中表格轉化為Excel的方法

python 將.txt檔案批量轉化為excel表格

Python實現Word表格轉成Excel表格的示例程式碼

基於python實現把json資料轉換成Excel表格

使用Python將xmind腦圖轉成excel用例的實現程式碼（一）

辦公室文員必備python神器，將PDF檔案表格轉換成excel表格！

Python實現將文字資料批量匯入Excel表格，並按格式儲存

python 實現二維列表轉置

python 實現多維陣列轉向量

python實現自動化報表功能(Oracle/plsql/Excel/多執行緒)

Python 實現Numpy中找出array中最大值所對應的行和列

Python實現字串中某個字母的替代功能

python實現H2O中的隨機森林演算法介紹及其專案實戰

python 實現Flask中返回圖片流給前端展示

Windows下實現將Pascal VOC轉化為TFRecords

python實現翻譯word表格小程式

python 實現 hive中類似 lateral view explode的功能示例

python實現xlwt xlrd 指定條件給excel行新增顏色

Python 讀取word中表格資料、讀取word修改並儲存、替換word中詞彙、讀取word中每段內容，讀取一段話中相同樣式內容，理解Document中run

python讀取pdf中的文字內容

python實現PDF中表格轉化為Excel的方法

相關推薦