1. 程式人生 > 其它 >辦公自動化:幾行程式碼將PDF文件轉換為WORD文件(程式碼實戰)!

辦公自動化:幾行程式碼將PDF文件轉換為WORD文件(程式碼實戰)!

看了四五個PDF檔案物件相關的外掛庫,比如:pdfminer.six、PyPDF2、pikepdf、pdfplumber、PyMuPDF之類的有很多,最後發現pdf2docx比較簡單,只需要幾行程式碼便可以實現。本著使用最簡單的方法來解決實際問題的至高境界,我們就使用它來演示。

首先,通過pip的方式安裝再匯入模組。

pip install pdf2docx  # 安裝 pdf2docx

# 匯入檔案轉換物件Converter
from pdf2docx import Converter

分別定義好word與pdf檔案的儲存路徑,再將已經存在pdf檔案轉換成python的外掛物件。

# 定義PDF檔案路徑
pdf_file_path = 'Python 集中營.pdf'

# 定義WORD檔案路徑
docx_file_path = 'Python 集中營.docx'

# 初始化PDF轉換物件
converter = Converter(pdf_file_path)

將初始化的pdf物件轉換成word文件儲存。

'''
實現PDF轉換成WORD
convert(path, start=0, end=None)
path: word文件路徑
start: 開始頁數,0 從第一頁開始
end: 結束頁數,None 無限制
pages: 指定哪幾頁需要轉換
'''
# 連續頁面進行轉換
converter.convert(docx_file_path, start=0, end=None)

# 指定頁面進行轉換
# converter.convert(docx_file_path, pages=[0,2,4,6,8,10])

# 關閉轉換物件
converter.close()

【往期精彩】

● 辦公自動化:輕鬆提取PDF頁面資料,並生成Excel檔案(程式碼實戰)!

● sched 模組中巨好用的輕量級定時任務神器scheduler!

● 不用再使用命令列打包成exe,有人寫出了UI應用,視覺化UI介面對python程式進行打包的方法!

● 發現一個祕密:既python3.6之後字典竟然變成了有序集合,我再次驗證了一下!

● 大廠校招白菜打包價40W+,可高興壞了房東大媽...

● 這麼多的內建函式能記住嗎?對python的68個內建函式分類總結!

● 必須要會的檔案操作物件File,python檔案讀寫操作利器!

● 你不知道的CS模式的程序管理工具,狀態監測、專案啟停一目瞭然!

● 如何將一個python應用以docker映象的方式來執行?

● python-celery專注於實現分散式非同步任務處理、任務排程的外掛!

● python遠端服務操作工具:fabric,遠端命令、本地命令、伺服器操作利器!

● 辦公自動化:Python-win32com自動將word文件轉換成pdf格式!

● Git LFS 3.0.0 釋出,對大檔案進行版本控制的 Git 擴充套件

● pandas資料統計外掛的連線函式concat()妙用,靈活處理資料物件!

歡迎關注作者公眾號【Python 集中營】,專注於後端程式設計,每天更新技術乾貨,不定時分享各類資料!