Python爬取各種主要文件型別的方法簡介
阿新 • • 發佈:2020-11-26
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。
以下文章來源於python教程,作者:小雨
剛接觸Python的新手、小白,可以複製下面的連結去免費觀看Python的基礎入門教學視訊
https://v.douyu.com/author/y6AZ4jn9jwKW
前言
HTML文件是網際網路上的主要文件型別,但還存在如TXT、WORD、Excel、PDF、csv等多種型別的文件。網路爬蟲不僅需要能夠抓取HTML中的敏感資訊,也需要有抓取其他型別文件的能力。下面簡要記錄一些個人已知的基於python3的抓取方法,以備查閱。
抓取TXT文件
在python3下,常用方法是使用urllib.request.urlopen方法直接獲取。之後利用正則表示式等方式進行敏感詞檢索。
如果抓取的是某個HTML,最好先分析,例如:
抓取CSV文件
抓取PDF文件
抓取word
方法:
(1)利用urlopen抓取遠端word docx檔案;
(2)將其轉換為記憶體位元組流;
(3)解壓縮(docx是壓縮後文件);
(4)將解壓後的檔案作為xml讀取
(5)尋找xml中的標籤(正文內容)並處理