python實現word文件批量轉成自定義格式的excel文件的思路及例項程式碼

阿新 • • 發佈：2020-02-22

支援按照資料夾去批量處理，也可以單獨一個檔案進行處理，並且可以自定義識別符號

最近在開發一個答題類的小程式，到了錄入試題進行測試的時候了，發現一個問題，試題都是word文件格式的，每份有100題左右，拿到的第一份試題，光是段落數目就有800個。而且可能有幾十份這樣的試題。

而word文件是沒有固定格式的，想批量錄入關係型資料庫mysql，必須先轉成excel文件。這個如果是手動一個個貼上到excel表格，那就頭大了。

我最終需要的excel文件結構是這樣的：每道題獨立佔1行，每1列是這道題的一項內容，大概就是問題、選項A、選項B等等。

在這裡插入圖片描述

但word文件是這種結構，如果按照網上通用的方式去轉，基本上你得到的結果就是一大坨文字都在一格里，根本不符合需求。

在這裡插入圖片描述

最後我想到了一個解決思路，可以實現這個需求，先看看我轉出來的結果：

在這裡插入圖片描述

這個格式雖然跟最終的有點差別，但是隻要在excel文件或者在程式碼裡稍微再修改一下，就能完全符合要求了。

廢話少說，先貼出程式碼，看得懂的可以直接拿去用，看不懂的，可以看我後面的具體說明。

已經把它封裝成通用指令碼了，你可以直接呼叫。

import pandas as pd
import os

# 初始處理函式1,先對初始處理結果進行判斷
def initail_handle_by_range(file_path,max_page_num,split_str):
 df = pd.read_table(file_path)
 # 2、先轉成Series
 S = pd.Series(df['column1'].values)
 # 3、轉成列表，列表的每個元素就是每個段落
 list = S.tolist()
 # 傳入一個max_page_num
 # 4、遍歷列表，取出每個段落，按“.”切割，取出第一個元素進行判斷，如果它是題號，就應該得到"1"或者"10"
 index_list = []
 for content in list:
 try:
  # 不是每個段落都有“.”可以切割的，會報錯，報錯就跳過
  first_str = content.split('%s'%split_str)[0]
  # 5、根據最大的題號，自動生成匹配的字串，用來匹配題號（每個匹配字串都放在patch_list中）
  patch_list = ['%d' % i for i in range(1,max_page_num + 1)]
  # 6、比對切割得到的第一個元素，如果它在匹配的字串中，就獲取它在列表中的索引，並把獲取到的結果新增到列表index_list中，這就知道了每道題的開頭在l中的哪個位置了
  if first_str in patch_list:
  index = list.index(content)
  index_list.append(index)
 except:
  pass
 # 7、根據索引列表，我們可以知道每道題的第一段和最後一段在l中的哪個位置
 # index_list = [0,8,16]
 # print(index_list)
 # 先計算每道題長度是否一致,不一致的,設定is_same_length = False
 is_same_length = True
 length = index_list[1] - index_list[0]
 max_index = len(list)
 for i in index_list:
 # 如果i不是最後一個，那麼start就是i，end就是i的下一個
 if i < index_list[-1]:
  start = i
  end = index_list[index_list.index(i) + 1]
 else:
  start = i
  end = max_index
 # 判斷長度是否一致,不一致就對長度進行比較,把大的賦值給長度
 if (end - start) != length:
  is_same_length = False
  if (end - start) > length:
  length = (end - start)

 result = [is_same_length,index_list,list,length]

 return result

# 初始處理函式1,先對初始處理結果進行判斷
def initail_handle_by_patchstr(file_path,patch_str,split_str):
 df = pd.read_table(file_path)
 # 2、先轉成Series
 S = pd.Series(df['column1'].values)
 # 3、轉成列表，列表的每個元素就是每個段落
 list = S.tolist()
 # 傳入一個max_page_num
 # 4、遍歷列表，取出每個段落，按“.”切割，取出第一個元素進行判斷，如果它是題號，就應該得到"1"或者"10"
 index_list = []
 for content in list:
 try:
  # 不是每個段落都有“.”可以切割的，會報錯，報錯就跳過
  first_str = content.split('%s'%split_str)[0]
  # 6、比對切割得到的第一個元素，如果它在匹配的字串中，就獲取它在列表中的索引，並把獲取到的結果新增到列表index_list中，這就知道了每道題的開頭在l中的哪個位置了
  if first_str == patch_str:
  index = list.index(content)
  index_list.append(index)
 except:
  pass
 # 7、根據索引列表，我們可以知道每道題的第一段和最後一段在l中的哪個位置
 # index_list = [0,length]

 return result


# 傳入一個檔案路徑和一個匹配的字串,至少2個符號,例如"#."
def file_handle_by_patchstr(file_path,split_str):
 result = initail_handle_by_patchstr(file_path,split_str)
 # 接收初始處理函式的結果
 is_same_length = result[0]
 index_list = result[1]
 list = result[2]
 length = result[3]
 # 先根據每道題的長度構造一個空的dict，最後用來生成dataFrame
 dict = {}
 for i in range(1,(length + 1)):
 dict['colomn%d' % i] = []
 # print(dict)
 max_index = len(list)
 for i in index_list:
 # 如果i不是最後一個，那麼start就是i，end就是i的下一個
 if i < index_list[-1]:
  start = i
  end = index_list[index_list.index(i) + 1]
 else:
  start = i
  end = max_index
 # 遍歷一輪獲得的結果就是我們要寫入excel的一行
 colomn = 1
 for index in range(start,end):
  # 遍歷一次獲得的結果就是我們要寫入excel的一格
  content = list[index]
  # 每遍歷一次就在一個dict中取出某一列，給它加上這個資料
  dict['colomn%d' % colomn].append(content)
  colomn += 1
  # 在遍歷到最後一輪的時候
  if index == (end - 1):
  # 判斷是否需要插入空值
  if not is_same_length and ((end - start) < length):
   # 可能缺了2列,也可能缺了1列
   content = ''
   # 如果只是缺了一列,在現有的index上,加1,就是下一列,補上空值
   if (length - (end - start)) == 1:
   colomn = (end - start) + 1
   dict['colomn%d' % (colomn)].append(content)
   else:
   # 如果缺失了2列以上,就遍歷,給之後的每一列都補上空值
   for i in range(length - (end - start)):
    colomn = length - i
    dict['colomn%d' % (colomn)].append(content)

 final_df = pd.DataFrame(dict)

 new_file_path = file_path.split('.')[0] + '.xlsx'

 final_df.to_excel(r'%s' % new_file_path)


def file_handle_by_range(file_path,split_str):
 result = initail_handle_by_range(file_path,split_str)
 # 接收初始處理函式的結果
 is_same_length = result[0]
 index_list = result[1]
 list = result[2]
 length = result[3]

 # 先根據每道題的長度構造一個空的dict，最後用來生成dataFrame
 dict = {}
 for i in range(1,(length+1)):
 dict['colomn%d'%i] = []
 max_index = len(list)
 for i in index_list:
 # 如果i不是最後一個，那麼start就是i，end就是i的下一個
 if i < index_list[-1]:
  start = i
  end = index_list[index_list.index(i) + 1]
 else:
  start = i
  end = max_index
 # 遍歷一輪獲得的結果就是我們要寫入excel的一行
 colomn = 1
 for index in range(start,end):
  # 遍歷一次獲得的結果就是我們要寫入excel的一格
  content = list[index]
  # 每遍歷一次就在一個dict中取出某一列，給它加上這個資料
  dict['colomn%d' % colomn].append(content)
  colomn += 1
  # 在遍歷到最後一輪的時候
  if index == (end - 1):
  # 判斷是否需要插入空值
  if not is_same_length and ((end-start)<length):
   # 可能缺了2列,補上空值
   if (length-(end-start)) == 1:
   colomn = (end-start) +1
   dict['colomn%d'% (colomn)].append(content)
   else:
   # 如果缺失了2列以上,給之後的每一列都補上空值
   # 8-6 = 2,i = 0,1
   for i in range(length-(end-start)):
    colomn = length - i
    dict['colomn%d' % (colomn)].append(content)
 final_df = pd.DataFrame(dict)

 new_file_path = file_path.split('.')[0] + '.xlsx'

 final_df.to_excel(r'%s'%new_file_path)

# 傳入一個資料夾路徑，最大的迭代數字，切割字串
def dir_handle_by_range(dir_path,split_str):
 files = os.listdir(dir_path) # 獲取當前目錄的所有檔案及資料夾
 for file in files:
 file_path = os.path.join(dir_path,file) # 遍歷獲取每個檔案的絕對路徑
 result = initail_handle_by_range(file_path,(length + 1)):
  dict['colomn%d' % i] = []
 max_index = len(list)
 for i in index_list:
  # 如果i不是最後一個，那麼start就是i，end就是i的下一個
  if i < index_list[-1]:
  start = i
  end = index_list[index_list.index(i) + 1]
  else:
  start = i
  end = max_index
  # 遍歷一輪獲得的結果就是我們要寫入excel的一行
  colomn = 1
  for index in range(start,end):
  # 遍歷一次獲得的結果就是我們要寫入excel的一格
  content = list[index]
  # 每遍歷一次就在一個dict中取出某一列，給它加上這個資料
  dict['colomn%d' % colomn].append(content)
  colomn += 1
  # 在遍歷到最後一輪的時候
  if index == (end - 1):
   # 判斷是否需要插入空值
   if not is_same_length and ((end - start) < length):
   # 可能缺了2列,補上空值
   if (length - (end - start)) == 1:
    colomn = (end - start) + 1
    dict['colomn%d' % (colomn)].append(content)
   else:
    # 如果缺失了2列以上,給之後的每一列都補上空值
    for i in range(length - (end - start)):
    colomn = length - i
    dict['colomn%d' % (colomn)].append(content)

 final_df = pd.DataFrame(dict)

 new_file_path = file_path.split('.')[0] + '.xlsx'

 final_df.to_excel(r'%s' % new_file_path)

# 傳入一個資料夾路徑和一個匹配的字串,例如"#."
def dir_handle_by_patchstr(dir_path,split_str):
 files = os.listdir(dir_path) # 獲取目錄的所有檔案及資料夾
 for file in files:
 file_path = os.path.join(dir_path,file) # 遍歷獲取每個檔案的絕對路徑
 print(file_path)
 result = initail_handle_by_patchstr(file_path,(length + 1)):
  dict['colomn%d' % i] = []
 # print(dict)
 max_index = len(list)
 for i in index_list:
  # 如果i不是最後一個，那麼start就是i，end就是i的下一個
  if i < index_list[-1]:
  start = i
  end = index_list[index_list.index(i) + 1]
  else:
  start = i
  end = max_index
  # 遍歷一輪獲得的結果就是我們要寫入excel的一行
  colomn = 1
  for index in range(start,給之後的每一列都補上空值
    for i in range(length - (end - start)):
    colomn = length - i
    dict['colomn%d' % (colomn)].append(content)
 final_df = pd.DataFrame(dict)
 print(final_df)
 print(file_path)

 new_file_path = file_path.split('.')[0] + '.xlsx'
 print(new_file_path)

 final_df.to_excel(r'%s' % new_file_path)


if __name__ == '__main__':
 # 檔案路徑
 # file_path = r'C:\Users\Administrator\PycharmProjects\exchange_file\2018-04 技能操作真題.txt'
 # 資料夾路徑
 dir_path = r'C:\Users\Administrator\PycharmProjects\exchange_file\mytest'

 # 根據數字處理具體檔案,引數傳檔案路徑,可迭代的最大數可自定義,分隔符也自定義
 # file_handle_by_range(file_path,100,'.')

 # 根據自定義匹配符處理具體檔案,匹配符可以自定義,切割符也可以自定義
 # file_handle_by_patchstr(file_path,'#','.')

 # 根據數字處理具體整個資料夾,分隔符也自定義
 # dir_handle_by_range(dir_path,'.')

 # 根據自定義匹配符處理具體資料夾,切割符也可以自定義
 # dir_handle_by_patchstr(dir_path,'.')

一、先說一下實現這個需求的處理邏輯

解決這個需求的關鍵點是什麼： 1、python怎麼讀取這個檔案的內容？ python有相關的word操作庫可以讀取，但是讀取到的結果不方便操作。我們最終是要讓它生成excel檔案的，所以可以用python非常強大的科學計算包pandas來讀取操作資料更好。

但pandas不能直接讀取word檔案，所以，需要先把它轉成txt文件，這一步很簡單，開啟word，全部複製到一份新的txt檔案中就行了。（注意要在第一行給它加上列名，我直接加了個colomn1，代表是第一列）簡單處理後的txt文件的結構類似這樣：

在這裡插入圖片描述

2、讀取到的資料如何處理？

使用pandas讀取到的資料是一個dataFrame，dataFrame的結構就類似於我們在excel文件裡面那樣行列分明的。但是，它從txt讀取出來的格式是全部內容都視為1列的，而txt中的每一段，在它這裡就是每一行（注意是每一段對應一行，而不是每一行對應每一行）預覽一下：結果顯示800行，1列。也就是在txt文件中有800個段落。

在這裡插入圖片描述

3、接下來怎麼處理呢？

pandas強大的地方就在這裡了，它可以直接把這1列的內容全部轉成Series，Series是什麼你可以不用管，你只需要知道Series可以直接轉成列表list就行了。有了list我們就方便操作了。

以上幾步就實現了從word裡面讀取資料，並轉化成python的資料型別list了。list裡面的每個元素，就等同於我們word裡面的每一個段落。控制檯打印出來的就是這樣：下面的800是計算出這個列表的長度，代表有800個元素。

在這裡插入圖片描述

接下來我們的需求就變成了：怎麼把一個列表，轉成有明確行列結構的excel表格了。

這個要分為2種情況來說： 1、你的word文件結構相對合理些，每道題都固定是X個段落（例如每道題都是8個段落），這個解決就很簡單了。因為這種情況對應就是在list中，每8個元素構成了1道題，你只要按照規律，8個8個取出，最後批量寫入excel就行了。（這種解決起來比較簡單，就不詳細說了）

2、另一種情況比較麻煩，就是word文件的結構不規範，有的題目可能是8個段落，有的可能是7段，有的是6段。那麼要怎麼解決呢？

解決這個問題有幾個關鍵點： 1、excel表格是行列結構的，它每一行的資料來源於這個txt文件的第幾行？（也就是list裡面的第幾個元素）所以我們只要把每道題在list中的索引找出來就行了。

觀察一下源資料，它每道題的開頭都是數字加1個英文符號“.”，例如：“1.”和“2.”，最大的是"100."，並且其他段落的開頭都不會出現這個結構。那麼就簡單了，我先構造出一個patch_list=[‘1',‘2',‘3'…‘100']，用來做匹配。

然後再遍歷源資料列表，對列表的每個元素按“.”號切割，切割後拿到它的第一個元素，拿這個元素跟pacth_lis進行匹配，如果它是在patch_list中的，就代表它是每道題的開頭。此時就記錄下它的索引，並且把這個索引值存放到一個新列表index_list中。下面是我獲取到的index_list：

在這裡插入圖片描述

0代表了第一道題是在列表的第1個元素開始的，8代表第二道題在列表的第9個元素開始。

於是我們就知道每道題的開頭是在列表中的哪個位置了。

2、拿到了每道題的索引，然後怎麼做呢？最終我們是要轉存到excel文件中的， pandas怎麼轉excel？很簡單的，只要你構造出一個dataFrame出來，呼叫pandas的to_excel方法，就能存入excel文件了。

3、問題的關鍵就變成了，有了每道題的索引，怎麼把它轉成dataFrame結構。下面演示一下，假如你想要構造一個dataFrame，需要什麼樣的資料結構，構造出來的dataFrame在控制檯的輸出結果是怎麼樣的，最後生成的excel表格是怎麼樣的。

dict = {'colomn1': ['問題1','問題2','問題3'],'colomn2': ["A：問題1的A選項","A：問題2的A選項","A：問題3的A選項"],'colomn3': ['B：問題1的B選項','B：問題2的B選項','B：問題3的B選項']}
df = pd.DataFrame(dict)
print(df)
df.to_excel(r'C:\Users\Administrator\PycharmProjects\exchange_file\test.xlsx')

這個就是呼叫pandas的DataFrame方法，用字典dict生成的一個dataFrame資料。這個dataFrame在控制檯打印出來就是：

在這裡插入圖片描述

這個結構存入excel就是對應表格的行和列了。這個結構就符合我的實際需求了。

在這裡插入圖片描述

所以我們要構造出這個dataframe的關鍵就是：把所有資料梳理一遍，構造成類似這樣的一個字典：

dict = {'colomn1': ['問題1','B：問題3的B選項']}

那麼怎麼構建這個dict呢？

我們源資料轉出來的list結構是類似這樣的： list = [‘問題1',“A：問題1的A選項”,‘B：問題1的B選項'…‘問題2',“A：問題2的A選項”,‘B：問題2的B選項']

而我們前面得到的index_list=[0,16。。。。] 它記錄了“問題1”，“問題2”等等直到“問題100”是在哪個位置開始的，所以我們只需要把index_list遍歷一下，輪流取出它的每個元素，它就是每道題的開始位置，然後拿到緊跟在這個元素的下一個是什麼，用這個減去1就知道了每道題的開始位置start和結尾位置end是多少了。

接著使用

for i in range(start,end):
	content = list[i]

就可以輪番從list中取出每道題的各項內容，取到的第一個就加到dict的colomn1列表中，第二個就加到dict的colomn2中，按照這個規律，就能把list的內容分開插入到dict中的各個列表中了。

但在這個過程中，可能你每道題的段落數目不一致，也就是你按照這個規律從list中取出的元素，可能每次取出的數量都不一樣。這點需要注意，如果沒有對它進行處理，最後會導致轉出來的檔案內容錯位了，例如你的文件裡面，第一題有8個段落，第二題只有7個，第三題有8個段落，沒處理這個問題的話，最後第三題的第8個段落，就會跑到第7題那邊了。並且最終dataFrame會無法生成excel檔案。

那麼這個問題怎麼解決呢？

在正式呼叫處理函式生成excel檔案之前，可以先對檔案預處理，拿到它們的資料進行判斷，如果判斷到它每個間隔不一樣，有的缺少段落，那麼就讓資料預處理函式返回一個值為False，間隔一樣就返回True。接著在真正的資料提取環節，根據這個進行判斷，如果判斷到它值是Fales，那麼就在每一輪遍歷提取資料的最後一次遍歷，一次性在它後面的缺失資料的列加上空字串，作為佔位用，這樣最後得到的列表長度就都一樣了，並且在最後生成的excel表中，它是一個空格。

最後用dict生成dataFrame，再寫入excel文件，我們就大功告成了。

二、再說一下具體怎麼使用：

一、執行必須的工具 1、python直譯器（pycharm或其他）； 2、python自帶模組：os； 3、自行安裝模組：pandas，openpyxl；

自行安裝的模組，在控制檯pip install pandas和pip install openpyxl就行了。

二、怎麼呼叫：

1、先要做資料預處理：先要把word文件的內容複製到txt文件中，並且在第一行加上"column1"，處理後像下面這樣：

在這裡插入圖片描述

接著要看你的文件內容是否有題號，如果有的話：比如像我這個，有具體的題號1-100題，並且它的寫法都是“1.”，在題號後面跟了個英文字元'.‘，順序遞增到100。

在這裡插入圖片描述

那麼你就可以呼叫file_handle_by_range。

你給它傳第一個引數是個具體的檔案路徑，它就會去開啟這個檔案，讀取裡面的內容。

傳的第二個引數是100，它就會自動生成1到100的字串，用來匹配識別你的每道題的開頭在哪個位置。（如果你最大的題號是200，就寫200，可以寫多，但不能寫少，少了識別到的內容會缺失）

傳的第三個引數是'.‘，它就會按照'.'去切割每一行的內容，拿到第一個“.”號前面的內容，用來跟它生成的匹配字元做比對，比對成功了，它就預設該行是你想要寫到excel表格裡的第一列，接在它後面的每個段落，會自動插入到它後面的列。

直到匹配到下一個“數字.”開頭的，又重複這個過程。

如果你的文件裡面並不是像我這樣，沒有順序遞增的題號，你可以手動給每個你想要放在表格中第一列的段落，在它前面加識別符號，例如“####.”，注意最後是有個小點的。像下面這樣：

在這裡插入圖片描述

接著呼叫

for i in range(start,end):
	content = list[i]

那麼它就預設按照'.‘去切割每行內容，並且按照####來匹配識別切到的內容，如果切到在'.'前面的是“####”，那麼它就預設這一段是你想存到excel表第一列的段落，在它後面的幾段，都會按照每個段落存入一格去處理。直到下一個“####.”出現。

2、可呼叫的有4個函式： 2.1、假如你只想處理一個具體的文件，並且它有具體的題號，最大題號是100，並且它後面跟的是一個'.'，那麼就按照下面這個呼叫

file_path = r'C:\Users\Administrator\PycharmProjects\exchange_file\2018-04 技能操作真題.txt'
 file_handle_by_range(file_path,'.')

2.2、根據自定義匹配符處理具體檔案,切割符也可以自定義

file_path = r'C:\Users\Administrator\PycharmProjects\exchange_file\2018-04 技能操作真題.txt'
file_handle_by_patchstr(file_path,'.')

2.3、根據數字處理具體整個資料夾,分隔符也自定義。（注意資料夾路徑，最後是不跟檔名的，它是個資料夾，不是具體檔案路徑）

# 資料夾路徑
dir_path = r'C:\Users\Administrator\PycharmProjects\exchange_file\mytest'
dir_handle_by_range(dir_path,'.')

2.4、根據自定義匹配符處理具體資料夾,切割符也可以自定義

# 資料夾路徑
dir_path = r'C:\Users\Administrator\PycharmProjects\exchange_file\mytest'
dir_handle_by_patchstr(dir_path,'.')

總結

以上所述是小編給大家介紹的python實現word文件批量轉成自定義格式的excel文件的思路及例項程式碼，希望對大家有所幫助，也非常感謝大家對我們網站的支援！

python實現word文件批量轉成自定義格式的excel文件的思路及例項程式碼

一、先說一下實現這個需求的處理邏輯

二、再說一下具體怎麼使用：

python實現word文件批量轉成自定義格式的excel文件的思路及例項程式碼

使用Python實現將ppt檔案批量轉化為pdf

python實現將視訊按幀讀取到自定義目錄

Python將word文件批量轉PDF

Python實現Word表格轉成Excel表格的示例程式碼

Python實現Word文件轉換Markdown的示例

利用Python將資料庫建表語句轉成表格的形式（可以大幅提高書寫資料庫設計文件的效率）

python實現word轉pdf

Python實現把多維陣列展開成DataFrame

Python獲取前幾天的日期轉成固定的格式，Python時間、日期、時間戳的轉換

java html 轉word_java後端實現word上傳並轉html格式

Python實現將文字資料批量匯入Excel表格，並按格式儲存

powerdesigner把name批量轉成comment

使用Python實現將多表分批次從資料庫匯出到Excel

使用nodepad++把excel資料轉成sql指令碼格式資料

python GUI庫圖形介面開發之PyQt5訊號與槽的高階使用技巧(自定義訊號與槽)詳解與例項

Vue實現圖片輪播元件思路及例項解析

【轉】自定義ALV控制元件的工具條按鈕

python爬蟲排程器用法及例項程式碼

python視覺化 matplotlib畫圖使用colorbar工具自定義顏色

python實現word文件批量轉成自定義格式的excel文件的思路及例項程式碼

一、先說一下實現這個需求的處理邏輯

二、再說一下具體怎麼使用：

相關推薦