Python實戰（一）——Python編寫網路爬蟲

阿新 • • 發佈：2019-02-17

實戰內容針對不需要login的靜態網頁爬取。避免抓取登入、ajax非同步載入的內容。

一、抓取程式主要模組組成

1、url管理器：管理已抓取、未抓取的url連線，避免重複、迴圈抓取

2、網頁下載器 urllib2：下載url網頁資料

3、網頁解析器 BeautifulSoup：解析下載好的網頁，提取主要資料

二、抓取思路

1、從根url出發，訪問所有關聯的n個url，依次爬取。

2、url管理器儲存方式：

記憶體：set python的set直接去除重複資料

db：mysql url iscrawl

快取：redis 待爬取 set

3、網頁下載器

urllib2 下載網頁的方式

4、頁面解析器

正則匹配、html.parser、BeautifalSoup外掛、lxml

三、各模組程式碼

1、url管理器

#coding:utf-8

class UrlManager(object):
    #初始化兩個set ，分別存放新舊url
    def __init__(self):
        self.new_urls=set()
        self.old_urls=set()
    
    #新增新的url
    def add_new_url(self,url):#接收引數url，直接在方法後加入即可
        if url is None:
            return 
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)
    
    #批量新增n個url        
    def add_new_urls(self,urls):
        if urls is None or len(urls)==0:
            return
        for url in urls:
            self.add_new_url(url)
            
    def has_new_url(self):
        return len(self.new_urls) !=0  
    
    
    def get_new_url(self):
        new_url=self.new_urls.pop()#從set集合中取走這個url
        self.old_urls.add(new_url)
        return new_url

2、網頁下載器

#coding:utf-8

class HtmlDownloader(object):
    
    def download(self,url):
        if url is None:
            return None
        
        responce=urllib2.urlopen(url)
        
        if responce.getcode!=200:
            return None
        return reponce.read()

3、網頁解析器

#coding:utf-8


class HtmlParser(object):
    
    #獲取所有的a標籤的url
    def _get_new_urls(self, page_url, soup):
        new_urls=set()
        #/view/123.htm 類似於這樣的url，所以需要拼接
        links=soup.find_all('a',href=re.compile(r"/view/\d+\.htm"))
        for link in links:
            new_url=link['href']
            new_full_url=urlparse.urljoin(page_url,new_url) #拼接成完整的url
            new_urls.add(new_full_url)
        return new_urls
    
    def _get_new_data(self, page_url, soup):
        res_data={}#定義字典
        res_data['url']=page_url
        
        title_node=soup.find('dd',className='class-title').find('h1')
        res_data['title']=title_node.get_text()
        
        summary_node=soup.find('div',className='class-summary')
        res_data['summary']=summary_node.get_text()
        
        return res_data
    
    
    def parse(self,parse_url,html_content):
        if page_url is None or html_content is None:
            return
        
        soup=BeautifulSoup(html_content,'html.parser',from_encoding='utf-8')
        new_urls=self._get_new_urls(page_url,soup)
        new_data=self._get_new_data(page_url,soup)
        return new_urls,new_data

4、解析資料輸出器

#coding:utf-8

class HtmlOutPuter(object):
    def __init__(self):
        self.datas=[] #list列表，用於存放解析資料
    
    def collect_data(self,data):
        if data is None:
            return
        self.datas.append(data)
    
    def output_html(self):
        fout=open('output.html','w')#дģʽ
        
        fout.write("<html>")
        fout.write("<body>")
        fout.write("<table>")
        
        for data in self.datas:
            fout.write("<td>%s</td>"%data['url'])
            fout.write("<td>%s</td>"%data['title'],encode('utf-8'))
            fout.write("<td>%s</td>"%data['summary'],encode('utf-8'))
        fout.write("</table>")
        fout.write("</body>")
        fout.write("</html>")
        
        fout.close()

5、main啟動

#coding:utf-8

#1 判斷url  百科中相關連線 /view/bai/要補全url在進行
#2 檢視網頁編碼
class SpiderMain(object):
    #初始化變數
    def _init_(self):
        self.urls=url_manager.UrlManager()
        self.downloader=html_downloader.HtmlDownloader()
        self.parser=html_parser.HtmlParser()
        self.outputer=html_output.HtmlOutputer()
    
    def crawl(self, root_url):
        pass
#main函式
if __name__=='_main_':
    root_url='http://baike.baidu.com/link?url=aj_RuPg5N5xQOJuE6iVlpwpkViTYB-agGx-CdgJPaW9H9fMDDrEajQt9ZDLBX0fRoOoGwrjkVYjm1vpMpMNLFa'
    obj_spider=SpiderMain()
    obj_spider.crawl(root_url) #ctr+1 建立方法、類快捷鍵

Python實戰（一）——Python編寫網路爬蟲

實戰內容針對不需要login的靜態網頁爬取。避免抓取登入、ajax非同步載入的內容。一、抓取程式主要模組組成 1、url管理器：管理已抓取、未抓取的url連線，避免重複、迴圈抓取 2、網頁下載器 urllib2：下載url網頁資料 3、網頁解析器

Python爬蟲（一）：編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢話不多說，進入正文！

OpenCV-Python實戰（一）Ubuntu18.04實現人臉檢測+輸出抓圖時間

參考：python+opencv計算程式碼執行時間：time庫和opencv自帶方法getTickCount cv2級聯分類器CascadeClassifier 一、Haar特徵分類器介紹 Haar特徵分類器就是一個XML檔案，該檔案中會描述人體各個部位的Haar特徵值。包括人

Python實戰（一）

一實戰——第一個程式 1 ex1.py print "Hello World!" print "Hello Again" print "I like typing this." print "This is fun." print 'Yay! Printing.' pr

python學習（一）--python解釋器

解釋器常用 .cn -- 出現 pycha python學習多行註釋 python學習模式，每篇都會有一些總結，然後根據總結去查一查，學一學，基礎就會很紮實的 python解釋器 1、python版本和安裝 python2.x和python3.x https://w

Python基礎（一）--- Python簡介，特點，程式碼規範，變數，運算子，條件迴圈語句，元組，字串，列表，字典，檔案操作

一、Python簡介 ----------------------------------------------------------- 1.Python是一種解釋型，面向物件，動態資料型別的高階程式語言 2.像Perl語言一樣, Python 原始碼同樣遵循 GPL(GNU

java深度學習框架Deeplearning4j實戰（一）BP神經網路分類器

1、Deeplearning4j 深度學習，人工智慧今天已經成了IT界最流行的詞，而tensorflow,phython又是研究深度學習神經網路的熱門工具。tensorflow是google的出品，而phython又以簡練的語法，獨特的程式碼結構和語言特性為眾多資料科學家和

Python筆記（一）——Python的優缺點、安裝、建立HelloWorld程式

一、Python的優缺點分析：優點：程式碼量少，開發速度快缺點：執行速度慢，Python原始碼不能加密等二、Python的安裝 1、進入Python的官網Python.org，選擇Downloads -> All releases 目前Python有兩

python系列（一）python簡介、安裝與基本應用

注：本文為轉載，如有侵權請告知，將予以刪除原連結：http://blog.51cto.com/zpf666/1920313 一、python簡介 1、python介於C語言與shell之間，於1989年由guido van Rossum(龜叔)開發，

Python 學習（一） python的基本資料型別元組列表字典

1.Python的基本資料型別 Python有三種基本的資料型別：整型、浮點型、和虛數。（1）. 整型 Python中的整型和c中的大致相同，Python以前將-2 147 483 648和2 147 483 647之間的數字認定為整型，更大的被稱為長整型，但現在這兩種

python bug（一）——python TabError: Inconsistent use of tabs and spaces in indentation

自己敲的程式會出現下面的bug：縮排中不一致地使用製表符和空格錯誤原因，在所寫的函式中用了空格，python應該要用tab來進行縮排的。這個錯誤是說你用了tab鍵作縮進了，因為在Python不像C/C++裡用大括號來區分程式塊，而是用縮排所以縮排很重要你把空格都換成Tab就好了 &

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

Python Selenium專案實戰（一）—— 怎麼去驗證一個按鈕是啟用的（可點選）？

Q: 使用 Python Selenium WebDriver 怎麼去驗證一個按鈕是啟用的（可點選）？ A：Selenium WebDriver API 裡面給出瞭解決方法is_enabled() 使用WebDriver API —— driver.find_element_by_css_selector()

python高階（一）——網路程式設計Socket（2）檔案下載案例

1、伺服器 import socket def send_file_2_client(new_client_socket, client_addr): # 1 接收客戶端，需要下載的檔名 # 接收客戶端傳送來的請求 file_name = new_client_soc

python高階（一）——網路程式設計Socket（1）

一、UDP 1. 建立socket 在 Python 中使用socket 模組的函式 socket 就可以完成： import socket socket.socket(AddressFamily, Type) 說明：函式 socket.socket 建立一個 socket

python爬蟲實戰（一）

看了網上好多人寫的爬蟲，架構風格都不是很喜歡，前幾天在GitHub上翻到一個專案，主要是結構特別好，那種面向物件的風格很受我的喜歡，今天按照這種方式寫了兩個爬蟲分享給大家廢話不多說，直接上程式碼一.利用requests,BeautifulSoup庫爬

python機器學習實戰（一）

原文連結：www.cnblogs.com/fydeblog/p/7140974.html 前言這篇notebook是關於機器學習中監督學習的k近鄰演算法，將介紹2個例項，分別是使用k-近鄰演算法改進約會網站的效果和手寫識別系統. 作業系統：ubuntu14.04 執行環境：anaconda-pyt

Python之Django商城專案實戰（一）：搭建開發環境

一、搭建環境：1、安裝pythonsudo apt-get install python3-pip2、安裝mysql3、建立虛擬環境安裝虛擬環境：pip install virtualenv方法一：建立虛擬環境(python3.6)：python -m venv myenv

零基礎新手的Python入門實戰寶典（一） —— Python都能幹些啥？（Python的用途）

如果你之前看過其他教程，但是發現雲裡霧裡複雜的讓你頭暈眼花的話，沒錯，看這裡，本系列Python教程專為啥都不會的新手使用者打造，放寬心，大膽看，我就是說說書，你就當聽聽故事，輕鬆愉快走進程式設計的大門，“程式設計”不再神祕也不再遙不可及。只要你會最基本的電腦操

Python爬蟲（一）--城市公交網路站點資料的爬取

作者：WenWu_Both 出處：http://blog.csdn.net/wenwu_both/article/ 版權：本文版權歸作者和CSDN部落格共有轉載：歡迎轉載，但未經作者同意，必須保留此段聲必須在文章中給出原文連結；否則必究法律責任

Python實戰（一）——Python編寫網路爬蟲

相關推薦