1. 程式人生 > 程式設計 >Python使用python-docx讀寫word文件

Python使用python-docx讀寫word文件

python-docx庫可用於建立和編輯Microsoft Word(.docx)檔案。

官方文件:連結地址

備註:

doc是微軟的專有的檔案格式,docx是Microsoft Office2007之後版本使用,其基於Office Open XML標準的壓縮檔案格式,比doc檔案所佔用空間更小。docx格式的檔案本質上是一個ZIP檔案,所以其實也可以把.docx檔案直接改成.zip,解壓後,裡面的word/document.xml包含了Word文件的大部分內容,圖片檔案則儲存在word/media裡面。

python-docx不支援.doc檔案,間接解決方法是在程式碼裡面先把.doc轉為.docx。

一、安裝包

pip3 install python-docx

二、建立word文件

下面是在官文示例基礎上對個別地方稍微修改,並加上函式的使用說明

from docx import Document
from docx.shared import Inches
 
document = Document()
 
#新增標題,並設定級別,範圍:0 至 9,預設為1
document.add_heading('Document Title',0)
 
#新增段落,文字可以包含製表符(\t)、換行符(\n)或回車符(\r)等
p = document.add_paragraph('A plain paragraph having some ')
#在段落後面追加文字,並可設定樣式
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True
 
document.add_heading('Heading,level 1',level=1)
document.add_paragraph('Intense quote',style='Intense Quote')
 
#新增專案列表(前面一個小圓點)
document.add_paragraph(
 'first item in unordered list',style='List Bullet'
)
document.add_paragraph('second item in unordered list',style='List Bullet')
 
#新增專案列表(前面數字)
document.add_paragraph('first item in ordered list',style='List Number')
document.add_paragraph('second item in ordered list',style='List Number')
 
#新增圖片
document.add_picture('monty-truth.png',width=Inches(1.25))
 
records = (
 (3,'101','Spam'),(7,'422','Eggs'),(4,'631','Spam,spam,eggs,and spam')
)
 
#新增表格:一行三列
# 表格樣式引數可選:
# Normal Table
# Table Grid
# Light Shading、 Light Shading Accent 1 至 Light Shading Accent 6
# Light List、Light List Accent 1 至 Light List Accent 6
# Light Grid、Light Grid Accent 1 至 Light Grid Accent 6
# 太多了其它省略...
table = document.add_table(rows=1,cols=3,style='Light Shading Accent 2')
#獲取第一行的單元格列表
hdr_cells = table.rows[0].cells
#下面三行設定上面第一行的三個單元格的文字值
hdr_cells[0].text = 'Qty'
hdr_cells[1].text = 'Id'
hdr_cells[2].text = 'Desc'
for qty,id,desc in records:
 #表格新增行,並返回行所在的單元格列表
 row_cells = table.add_row().cells
 row_cells[0].text = str(qty)
 row_cells[1].text = id
 row_cells[2].text = desc
 
document.add_page_break()
 
#儲存.docx文件
document.save('demo.docx')

建立的demo.docx內容如下:

三、讀取word文件

from docx import Document
 
doc = Document('demo.docx')
 
#每一段的內容
for para in doc.paragraphs:
 print(para.text)
 
#每一段的編號、內容
for i in range(len(doc.paragraphs)):
 print(str(i),doc.paragraphs[i].text)
 
#表格
tbs = doc.tables
for tb in tbs:
 #行
 for row in tb.rows: 
 #列 
 for cell in row.cells:
  print(cell.text)
  #也可以用下面方法
  '''text = ''
  for p in cell.paragraphs:
  text += p.text
  print(text)'''

執行結果:

Document Title
A plain paragraph having some bold and some italic.
Heading,level 1
Intense quote
first item in unordered list
second item in unordered list
first item in ordered list
second item in ordered list
Document Title
A plain paragraph having some bold and some italic.
Heading,level 1
Intense quote
first item in unordered list
second item in unordered list
first item in ordered list
second item in ordered list
 
 
 
Qty
Id
Desc
101
Spam
422
Eggs
631
Spam,and spam
[Finished in 0.2s]

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。