1. 程式人生 > 實用技巧 >Python爬取各種主要文件型別的方法簡介

Python爬取各種主要文件型別的方法簡介

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

以下文章來源於python教程,作者:小雨

剛接觸Python的新手、小白,可以複製下面的連結去免費觀看Python的基礎入門教學視訊

https://v.douyu.com/author/y6AZ4jn9jwKW

前言

HTML文件是網際網路上的主要文件型別,但還存在如TXT、WORD、Excel、PDF、csv等多種型別的文件。網路爬蟲不僅需要能夠抓取HTML中的敏感資訊,也需要有抓取其他型別文件的能力。下面簡要記錄一些個人已知的基於python3的抓取方法,以備查閱。

抓取TXT文件

在python3下,常用方法是使用urllib.request.urlopen方法直接獲取。之後利用正則表示式等方式進行敏感詞檢索。

如果抓取的是某個HTML,最好先分析,例如:

抓取CSV文件

抓取PDF文件

抓取word

方法:

(1)利用urlopen抓取遠端word docx檔案;

(2)將其轉換為記憶體位元組流;

(3)解壓縮(docx是壓縮後文件);

(4)將解壓後的檔案作為xml讀取

(5)尋找xml中的標籤(正文內容)並處理