1. 程式人生 > 其它 >指標輸出檔案中文字_提取pdf檔案中的文字

指標輸出檔案中文字_提取pdf檔案中的文字

技術標籤:指標輸出檔案中文字

環境說明

windows10系統

python3.6版本

安裝

網上很多說需要安裝pdfminer3k和pdfminer3k.six,我嘗試了先安裝pdfminer3k後安裝pdfminer3k.six,但是安裝後都會導致pdfminer3k裡面的相關包不見了,最終我發現提取pdf檔案中的文字,只需要安裝pdfminer3k.six一個包即可

安裝語句

pip 

python實現

提取pdf檔案中的文字,具體python指令碼如下

import 

執行結果

ab9b0981f42af79fcb96d60053e1bd03.png

總結

從上面的結果可以看到,識別文字的效果還挺好,同時還可以識別表格中的文字,但是有些特殊的表格,它們的文字不能被識別出來,目前還沒找到原因。

目前還沒有接觸到專門識別表格的相關內容,後續如果深入研究,會做相關總結。