1. 程式人生 > 其它 >Python 讀取PDF檔案為文字字元並轉換為音訊

Python 讀取PDF檔案為文字字元並轉換為音訊

【閱讀全文】

設計思路:首先通過PyPDF2非標準庫提供的介面函式將PDF檔案中的文字提取出來,然後,再使用pyttsx3非標準庫將文字轉換為音訊檔案。

使用pip的方式安裝兩個非標準庫PyPDF2、pyttsx3。

pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/

將這兩個需要使用到的非標準庫匯入到當前程式碼塊中。

import pyttsx3 as tsx
import PyPDF2 as pdf

編寫PDF檔案讀取函式並且返回text文字字串。

def read_pdf_to_txt(pdf_file):
    '''
    讀取PDF檔案返回text文字
    :param pdf_file: PDF檔案路徑
    :return:
    '''
    reader = pdf.PdfFileReader(open(pdf_file, 'rb'))
    texts = ''
    for page_num in range(reader.numPages):
        text = reader.getPage(page_num).extractText()
        text = text.strip().replace('\n', ' ')
        texts = texts + text
    return texts


def to_video(text):
    '''
    文字轉換為音訊函式
    :param text: 文字字串
    :return:
    '''
    sp = tsx.init()
    sp.save_to_file(text, './vi.mp3')
    sp.runAndWait()
    sp.stop()

呼叫to_video函式完成音訊檔案的轉換。

to_video(text=read_pdf_to_txt('./vi.pdf'))

【往期精彩】

python 獲取最新房價資訊-以北京房價為例

辦公自動化:Image圖片轉換成PDF文件儲存...

python做一個微型美顏圖片處理器,十行程式碼即可完成...

用python做一個文字翻譯器,自動將中文翻譯成英文,超方便的!

小王,給這2000個客戶發一下節日祝福的郵件...

python 一行命令開啟網路間的檔案共享...

PyQt5 批量刪除 Excel 重複資料,多個檔案、自定義重複項一鍵刪除...

再見XShell,這款國人開源的終端命令列工具更nice!

python 表情包下載器,輕鬆下載上萬個表情包、鬥圖不用愁...

Python 自動清理電腦垃圾檔案,一鍵啟動即可...

有了jmespath,處理python中的json資料就變成了一種享受...

解鎖一個新技能,如何在Python程式碼中使用表情包...