Python 讀取PDF檔案為文字字元並轉換為音訊
阿新 • • 發佈:2022-04-18
設計思路:首先通過PyPDF2非標準庫提供的介面函式將PDF檔案中的文字提取出來,然後,再使用pyttsx3非標準庫將文字轉換為音訊檔案。
使用pip的方式安裝兩個非標準庫PyPDF2、pyttsx3。
pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/
將這兩個需要使用到的非標準庫匯入到當前程式碼塊中。
import pyttsx3 as tsx import PyPDF2 as pdf
編寫PDF檔案讀取函式並且返回text文字字串。
def read_pdf_to_txt(pdf_file): ''' 讀取PDF檔案返回text文字 :param pdf_file: PDF檔案路徑 :return: ''' reader = pdf.PdfFileReader(open(pdf_file, 'rb')) texts = '' for page_num in range(reader.numPages): text = reader.getPage(page_num).extractText() text = text.strip().replace('\n', ' ') texts = texts + text return texts def to_video(text): ''' 文字轉換為音訊函式 :param text: 文字字串 :return: ''' sp = tsx.init() sp.save_to_file(text, './vi.mp3') sp.runAndWait() sp.stop()
呼叫to_video函式完成音訊檔案的轉換。
to_video(text=read_pdf_to_txt('./vi.pdf'))
【往期精彩】
python 獲取最新房價資訊-以北京房價為例
辦公自動化:Image圖片轉換成PDF文件儲存...
python做一個微型美顏圖片處理器,十行程式碼即可完成...
用python做一個文字翻譯器,自動將中文翻譯成英文,超方便的!
小王,給這2000個客戶發一下節日祝福的郵件...
python 一行命令開啟網路間的檔案共享...
PyQt5 批量刪除 Excel 重複資料,多個檔案、自定義重複項一鍵刪除...
再見XShell,這款國人開源的終端命令列工具更nice!
python 表情包下載器,輕鬆下載上萬個表情包、鬥圖不用愁...
Python 自動清理電腦垃圾檔案,一鍵啟動即可...
有了jmespath,處理python中的json資料就變成了一種享受...
解鎖一個新技能,如何在Python程式碼中使用表情包...