Python實現Word文件轉換Markdown的示例
隨著SaaS服務的流行,越來越多的人選擇在各個平臺上編寫文件,製作表格並進行分享。
同時,隨著Markdown語法的破圈,很多平臺開始整合支援這種簡潔的書寫標記語言,這樣可以保證平臺上使用者文件樣式的統一性。
但是在一些場景下,我們還是會在本地的Office軟體上寫有很多文件,或者歷史遺留了很多本地文件。
如果我們需要將其上傳到各大平臺,直接複製貼上,大概率是會造成文件內容結構和樣式的丟失。於此我們需要將其轉換為 Markdown 語法。
很多桌面軟體(比如Typora)都提供了匯入 Word 檔案的功能,這類功能一般是通過 Pandoc 這個軟體來擴充套件實現的。
Pandoc 是一個全能型的文件格式轉換工具,其能夠將多種文件格式轉換為各類常見的文件格式。具體的文件格式之間的轉換如下圖所示(來源於官網):
Pandoc 是瑞士軍刀一般的存在,能夠較好的處理各類的文件格式轉換,但是如果我們需要自己寫程式,呼叫 Pandoc 則需要額外的安裝 Pandoc 才行,並且也不方便自定義。
幸而,在 Python 中有很多第三方模組提供了此類文件格式的轉換功能。今天,我們來實現一下比較頻繁使用到的 Word 文件轉 Markdown 文件。
轉換邏輯
Word 文件到 Markdown 文件的轉換總體而言分兩步來實現:
- 第一步,將 Word 文件轉換為 HTML 文件;
- 第二步,將 HTML 文件轉換為 Markdown 文件;
依賴模組
要實現這個功能我們需要藉助 Python 的兩個第三方模組:
- mammoth
- markdownify
mammoth 是一個用於將 Word 文件轉換為 HTML 的模組,它支援在 Python、JavaScript、Java、.Net等平臺使用。而 markdownify 則是將 HTML 轉換為 Markdown 文件的模組。
處理 Word 圖片
因為 Word 文件中不可避免地會存在很多圖片,為了在轉換後的文件中能夠正確地顯示圖片,我們需要自定義一下Word 文件內圖片的處理方式。預設情況下,mammoth 會將圖片轉換為 base64 編碼的字串,這樣不用生成額外的本地圖片檔案,但是會使文件體積變得很大。所以我們選擇將圖片另存為本地圖片:
# 轉存Word文件內的圖片 def convert_img(image): with image.open() as image_bytes: file_suffix = image.content_type.split("/")[1] path_file = "./img/{}.{}".format(str(time.time()),file_suffix) with open(path_file,'wb') as f: f.write(image_bytes.read()) return {"src":path_file}
正式轉換
在這裡,我們以州的先生很久以前寫的《Python爬蟲實戰與機器學習應用》(需要這本書的小夥伴可以微信私聊我)這本書的 Word 文件來演示。
程式碼如下所示:
# 讀取Word檔案 with open(r"F:\自媒體\Python爬蟲實戰與機器學習應用.docx","rb") as docx_file: # 轉化Word文件為HTML result = mammoth.convert_to_html(docx_file,convert_image=mammoth.images.img_element(convert_img)) # 獲取HTML內容 html = result.value # 轉化HTML為Markdown md = markdownify(html,heading_style="ATX") print(md) with open("./docx_to_html.html",'w',encoding='utf-8') as html_file,open("./docx_to_md.md","w",encoding='utf-8') as md_file: html_file.write(html) md_file.write(md) messages = result.messages
執行程式,最終生成2個檔案:
- docx_to_html.html
- docx_to_md.md
其中,docx_to_html.html 是 Word 文件轉換為 HTML 後的文件:
docx_to_md.md 是 HTML 轉換為 Markdown 後的文件:
最後是另存為的圖片:
怎麼樣,簡單的二三十行程式碼就完成了 Word 到 Markdown 文件的轉換,是不是很簡單?
此功能將整合到覓道文件作為文件匯入的功能實現,歡迎持續進行關注!
文章版權所有:州的先生部落格
原文地址:https://zmister.com/archives/1601.html
以上就是Python實現Word文件轉換Markdown的示例的詳細內容,更多關於python Word文件轉換Markdown的資料請關注我們其它相關文章!