Python爬取各種主要文件型別的方法簡介

阿新 • • 發佈：2020-11-26

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

以下文章來源於python教程，作者：小雨

剛接觸Python的新手、小白，可以複製下面的連結去免費觀看Python的基礎入門教學視訊

https://v.douyu.com/author/y6AZ4jn9jwKW

前言

HTML文件是網際網路上的主要文件型別，但還存在如TXT、WORD、Excel、PDF、csv等多種型別的文件。網路爬蟲不僅需要能夠抓取HTML中的敏感資訊，也需要有抓取其他型別文件的能力。下面簡要記錄一些個人已知的基於python3的抓取方法，以備查閱。

抓取TXT文件

在python3下，常用方法是使用urllib.request.urlopen方法直接獲取。之後利用正則表示式等方式進行敏感詞檢索。

如果抓取的是某個HTML，最好先分析，例如：

抓取CSV文件

抓取PDF文件

抓取word

方法：

（1）利用urlopen抓取遠端word docx檔案；

（2）將其轉換為記憶體位元組流；

（3）解壓縮（docx是壓縮後文件）；

（4）將解壓後的檔案作為xml讀取

（5）尋找xml中的標籤（正文內容）並處理

Python爬取各種主要文件型別的方法簡介

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取微信小程式通用方法程式碼例項詳解

背景介紹最近遇到一個需求，大致就是要獲取某個小程式上的資料。心想小程式本質上就是移動端加殼的瀏覽器，所以想到用Python去獲取資料。在網上學習了一下如何實現後，記錄一下我的實現過程以及所踩過的小坑。本文關

scrapy ，mongoDB爬取各種型別書籍評價

整體效果：整體思路：通過標籤頁的分類連結，獲取全部書籍連結第一步：調整settings檔案

用 Python 爬取網易嚴選妹子內衣資訊，探究妹紙們的偏好

今天繼續來分析爬蟲資料分析文章，一起來看看網易嚴選商品評論的獲取和分析。

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

用python爬取歷史天氣資料的方法示例

某天氣網站（www.數字.com）存有2011年至今的天氣資料，有天看到一本爬蟲教材提到了爬取這些資料的方法，學習之，並加以改進。

Python爬取騰訊視訊評論的思路詳解

一、前提條件安裝了Fiddler了（用於抓包分析）谷歌或火狐瀏覽器如果是谷歌瀏覽器，還需要給谷歌瀏覽器安裝一個SwitchyOmega外掛，用於代理伺服器

python錯誤除錯及單元文件測試過程解析

這篇文章主要介紹了python錯誤除錯及單元文件測試過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取愛奇藝電影資訊程式碼例項

這篇文章主要介紹了Python爬取愛奇藝電影資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取豆瓣視訊資訊程式碼例項

這篇文章主要介紹了Python爬取豆瓣視訊資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取破解無線網路wifi密碼過程解析

前言今天從WiFi連線的原理，再結合程式碼為大家詳細的介紹如何利用python來破解WiFi。

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

python爬取Ajax動態載入網頁過程解析

常見的反爬機制及處理方式 1、Headers反爬蟲：Cookie、Referer、User-Agent 解決方案: 通過F12獲取headers,傳給requests.get()方法

python 使用pdfminer3k 讀取PDF文件的例子

1、安裝 pdfminer3k 通過pip安裝: pip install pdfminer3k 下載安裝：在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載，解壓。然後cmd命令進入到當前資料夾：

Python使用python-docx讀寫word文件

python-docx庫可用於建立和編輯Microsoft Word（.docx）檔案。官方文件：連結地址備註：

python 爬取古詩文存入mysql資料庫的方法

使用正則提取資料，請求庫requests,看程式碼，在存入資料庫時，報錯ERROR 1054 (42S22): Unknown column ‘title\' in ‘field list\'。原來是我寫sql 有問題，sql = “insert into poem(title,author,content,creat

python 爬取馬蜂窩景點翻頁文字評論的實現

使用Chrome、python3.7、requests庫和VSCode進行爬取馬蜂窩黃鶴樓的文字評論(http://www.mafengwo.cn/poi/5426285.html)。

python爬取本站電子書資訊併入庫的實現程式碼

入門級爬蟲：只抓取書籍名稱，資訊及下載地址並存儲到資料庫資料庫工具類：DBUtil.py

python爬取王者榮耀全面板的簡單實現程式碼

相信現在很多人都喜歡玩王者榮耀這款手遊，裡面好看的面板令人愛不釋手。那麼你有沒有想過把王者榮耀高清面板設定為桌布，像下面這樣

python連線印表機實現列印文件、圖片、pdf檔案等功能

引言 python連線印表機進行列印，可能根據需求的不同，使用不同的函式模組。