網路爬蟲：淘女郎

阿新 • • 發佈：2019-02-18

#_*_ coding:utf-8 _*_

import urllib.request
from bs4 import BeautifulSoup
import os
import re
from selenium import webdriver


class Spider:
    #頁面初始化
    def __init__(self):
        self.siteURL = "http://mm.taobao.com/json/request_top_list.htm"

    # 獲取索引頁面的內容
    def getPage(self, pageIndex):
        url = self.siteURL + "?page=" 
 + str(pageIndex)
        print ("第%s頁淘女郎網址:"%str(pageIndex)+url)
        print ("分別為：")
        request = urllib.request.Request(url)
        response = urllib.request.urlopen(request)
        html=response.read().decode("gbk")
        soup=BeautifulSoup(html,"html.parser")
        return soup

    # 獲取索引介面所有MM的資訊，list格式 

    def getContents(self, pageIndex): #獲取該頁下淘女郎的資訊
        page = self.getPage(pageIndex)
        contents=[]
        for link in page.findAll("p",{"class":"top"}):
            # print(link.a.get_text())  # name
            # print (link.em.get_text()) #age
            # print (link.span.get_text()) #address 

            # print (link.a.attrs["href"]) #link
            name=link.a.get_text()
            age=link.em.get_text()
            address=link.span.get_text()
            link=link.a.attrs["href"]
            mm=[name,age,address,link]
            # print (mm)
            contents.append(mm)
        # print (contents)
        # for each in contents:
        #     print (each)
        return contents

    # 獲取MM個人詳情頁面
    def getDetailPage(self, infoURL):
        response = urllib.request.urlopen(infoURL)
        return response.read().decode("gbk")

    #獲取個人文字簡介
    # def getBrief(self,page):
    #     pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
    #     result = re.search(pattern,page)
    #     return self.tool.replace(result.group(1))

    #獲取這個淘女淘的個人域名（該網頁為動態載入，直接用BeautifulSoup無法提出）
    def get_Peronsal_address(self,detailURL):
        driver = webdriver.PhantomJS()
        driver.get(detailURL)
        pageSource = driver.page_source
        # soup = BeautifulSoup(pageSource, "html.parser")
        # # print (soup.prettify())

        # 第一種方法
        # <span>//mm.taobao.com/titikatrina</span>
        # link=soup.find("div",class_="mm-p-info mm-p-domain-info").find("span").get_text()
        # print (link)

        # 另外的方法，使用正則表示式
        try:
            link = re.findall(r'<span>//mm\.taobao\.com/.*</span>', pageSource)
            str_link = str(link[0])
            str_link = str_link.lstrip("<span>").rstrip("</span>")
            return str_link
        except IndexError as e:
            print("她沒有個人域名：" + str(e))
            return False

    #獲取頁面所有圖片
    def getAllImg(self,detail_Page_link):
        detail_Page_link = "https:" + detail_Page_link
        request = urllib.request.Request(detail_Page_link)
        response = urllib.request.urlopen(request)
        html = response.read().decode("gbk")
        soup = BeautifulSoup(html, "html.parser")
        images = soup.findAll("img", {"src": re.compile("//img.alicdn.com/.*")})
        # print (images)
        return images
        # for image in images:
        #     # return(images)
        #     print(image["src"])

    #儲存多張寫真圖片
    def saveImgs(self,images,name):
        number = 1
        print ("發現",name,"共有",len(images),"張照片")

        for image in images:
            imageURL="http:"+image["src"]
            # print (imageURL)
            # splitPath = imageURL.split('.')
            # fTail = splitPath.pop()
            # if len(fTail) > 3:
            #     fTail = "jpg"
            fileName = name + "/" + str(number) + ".jpg"
            self.saveImg(imageURL,fileName)
            number += 1
            # print (fileName)

    #傳入圖片地址，檔名，儲存單張圖片
    def saveImg(self,imageURL,fileName):

        # 判斷圖片是否存在
        # 存在     True
        # 不存在   False
        isExists = os.path.exists(fileName)
        # 判斷結果
        if not isExists:
            # 如果圖片不存在則下載圖片
            try:
                u = urllib.request.urlopen(imageURL)
                data = u.read()
                f = open(fileName, 'wb')
                f.write(data)
                print("正在悄悄儲存她的一張圖片為", fileName)
                f.close()
                # return True
            except  urllib.error.HTTPError as reason:
                print(reason)

        else:
            # 如果目錄存在則不建立，並提示目錄已存在
            print("名為", fileName, "的圖片已經成功下載")
            # return False


    #建立新目錄
    def mkdir(self,path):
        path = path.strip()
        # 判斷路徑是否存在
        # 存在     True
        # 不存在   False
        isExists=os.path.exists(path)
        # 判斷結果
        if not isExists:
            # 如果不存在則建立目錄
            print ("偷偷新建了名字叫做",path,"的資料夾")
            # 建立目錄操作函式
            os.makedirs(path)
            return True
        else:
            # 如果目錄存在則不建立，並提示目錄已存在
            print ("名為",path,"的資料夾已經建立成功")
            return False


    #將一頁淘寶MM的資訊儲存起來
    def savePageInfo(self,pageIndex):
        #獲取第一頁淘寶MM列表
        contents = self.getContents(pageIndex)
        for item in contents: #此處使用切面可以決定選取某頁淘女淘的個數
            #item[0]姓名,item[1]年齡,item[2]居住地,item[3]網址
            print ("發現一位模特,名字叫",item[0],"芳齡",item[1],",她住在",item[2])
            print ("正在偷偷地儲存",item[0],"的資訊")
            print ("又意外地發現她的地址是","https:"+item[3]+"&is_coment=false")
            #個人詳情頁面的URL
            detailURL = "https:"+item[3]+"&is_coment=false"

            # #獲取個人簡介
            # brief = self.getBrief(detailPage)
            #

            #得到個人詳情頁面程式碼
            # detailPage = self.getDetailPage(detailURL)
            detail_Page_link=self.get_Peronsal_address(detailURL)
            # print (item[0]+"的個人域名為："+detail_Page_link)

            #某些淘女郎沒有個人域名，返回的個人連結為空，則無法從連結提取。
            #可以設定返回false，遇到false就break跳出。
            if detail_Page_link!=False:
                # #獲取所有圖片列表
                images_links = self.getAllImg(detail_Page_link)
                self.mkdir(item[0])
                #
                # #儲存個人簡介
                # self.saveBrief(brief,item[0])
                # #儲存頭像
                # self.saveIcon(item[1],item[0])
                #儲存圖片
                self.saveImgs(images_links,item[0])
            else:
                break


    #傳入起止頁碼，獲取MM圖片
    def savePagesInfo(self,start,end):
        for i in range(start,end+1):
            print ("正在偷偷尋找第"+str(i)+"個地方，看看MM們在不在")
            self.savePageInfo(i)

spider = Spider()
# spider.getContents(1)
spider.savePagesInfo(1,2)

網路爬蟲：淘女郎

#_*_ coding:utf-8 _*_ import urllib.request from bs4 import BeautifulSoup import os import re from selenium import webdriver cla

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

爬蟲：淘寶價格

import htm val bsp earch ror ret art port 1 import requests 2 import re 3 4 def getHTMLText(url): 5 try: 6 r = reques

網路爬蟲：爬取動態網頁

import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = '

分享《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼

下載：https://pan.baidu.com/s/1DqeZDF-MOAQ6hlNx2fq3JA 《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼PDF，306頁，帶書籤目錄。配套原始碼。系統介紹Python網路爬蟲，注重實戰，涵蓋網路爬蟲原理、如何手寫Python網路爬蟲、

實戰 Python 網路爬蟲：美團美食商家資訊和使用者評論

實戰 Python 網路爬蟲美團美食商家資訊和使用者評論作者簡介：Hyx，多年系統研發經驗，主要

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

Python3網路爬蟲：requests爬取動態網頁內容

本文為學習筆記學習博主:http://blog.csdn.net/c406495762 Python版本：python3.+ 執行環境：OSX IDE：pycharm 一、工具準備抓包工具：在OSX下,我使用的是Charles4.0 下載連結以及安裝教

Python3網路爬蟲：Scrapy入門之使用ImagesPipline下載圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二初識ImagesPipline ImagesPipline的特性 ImagesPipline的工

Python3網路爬蟲：初識Scrapy爬蟲框架

Python版本：python3.+ 執行環境：Mac OS IDE：pycharm 一前言二初識Scrapy 1 什麼是Scrapy 2 我能用S

Python3網路爬蟲：使用Beautiful Soup爬取小說

本文是http://blog.csdn.net/c406495762/article/details/71158264的學習筆記作者:Jack-Cui 博主連結:http://blog.csdn.net/c406495762 執行平臺： OSX Python版本： Pyth

Python3網路爬蟲：使用Cookie-模擬登陸

該文是http://blog.csdn.net/c406495762部落格的學習筆記. 為什麼要使用Cookie Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密)。比如說有些網站需要登入後才能訪問某個頁面，

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

網路爬蟲：Python+requests+bs4+xlwt 爬取京東商品存入Excel表

學了網路爬蟲兩週了，還是比較喜歡用網頁級庫requests，很靈活方便，scrapy網站級面向物件庫，還不熟悉，可能是原來c++學習面向物件就沒學好，對面向物件程式設計還沒理解好吧...兩週中爬了淘寶，京東，天貓（爬取失敗，反爬蟲把我這種新手難倒了，登入驗證就卡死），爬取搜狗

網路爬蟲：URL去重策略之布隆過濾器(BloomFilter)的使用

前言：最近被網路爬蟲中的去重策略所困擾。使用一些其他的“理想”的去重策略，不過在執行過程中總是會不太聽話。不過當我發現了BloomFilter這個東西的時候，的確，這裡是我目前找到的最靠譜的一種方法。如果，你說URL去重嘛，有什麼難的。那麼你可

網路爬蟲：使用多執行緒爬取網頁連結

前言：經過前面兩篇文章，你想大家應該已經知道網路爬蟲是怎麼一回事了。這篇文章會在之前做過的事情上做一些改進，以及說明之前的做法的不足之處。思路分析： 1.邏輯結構圖上圖中展示的就是我們網路爬蟲中的整個邏輯思路（呼叫Python解析URL，這裡只作了簡略

[筆記]python網路爬蟲：一個簡單的定向爬取大學排名資訊示例

爬取的網站資訊 <div class="section"><a id="zhb" name="zhb"></a> <div class="title t2"><h1><img

網路爬蟲：Requests+lxml

比較常用 # -*-coding:utf8-*- import requests from lxml import etree url="http://econpy.pythonanywhere.com/ex/001.html" page=request

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

網路爬蟲：淘女郎

相關推薦