學校實訓的第二天

阿新 • • 發佈：2018-12-18

今天主要學習爬蟲，歡迎大家評論交流。

工具：pycharm專業版（社群版也可以哈，不過功能沒有專業版多），第三方庫：requests、BeautifulSoup4、lxml、html5lib

1、首先我們先來介紹下爬蟲是什麼？

爬蟲，英文名Spider，是一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。

2、那麼爬蟲能用來幹什麼？

利用爬蟲技術抓取公司使用者資訊，分析網站使用者，網路爬蟲技術在商業銀行的應用等等

3、爬蟲的基本流程

（1）發起請求：通過url向伺服器發起request請求，請求可以包含額外的header資訊。

（2）獲取響應內容：如果伺服器正常響應，那我們將會收到一個response，response即為我們所請求的網頁內容，或許包含HTML，Json字串或者二進位制的資料（視訊、圖片）等。

（3）解析內容：如果是HTML程式碼，則可以使用網頁解析器進行解析，如果是Json資料，則可以轉換成Json物件進行解析，如果是二進位制的資料，則可以儲存到檔案進行進一步處理。

（4）儲存資料：可以儲存到本地檔案，也可以儲存到資料庫（MySQL，Redis，Mongodb等）

4、那麼現在我們開始學習爬蟲的編寫

我們以校花網為例（我們的老師一看就是老司機了，一上來就教我們爬這個，哈哈哈），網站為http://www.xiaohuar.com/，下面附上程式碼，有詳細註釋的。

# /usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import os       #對目錄的操作：建立、刪除、移動
from urllib.request import urlretrieve      #將遠端資料下載到本地。

#爬取校花資訊
def get_xiaohua_info():
    #定義頭部資訊，模擬瀏覽器提交
    headers={
        'UserAgent':
            'Mozilla / 5.0(WindowsNT6.1;WOW64) AppleWebKit / '
            '537.36(KHTML, likeGecko) Chrome / 63.0.3239.132Safari / 537.36'}
    # 模擬瀏覽器發出http請求:get或post方法
    responses = requests.get(url=URL,headers=headers)
    #檢視狀態碼，如果是200則為成功
    #print(responses.status_code)
    if responses.status_code==200:
        #responses.encoding設定編碼格式
        responses.encoding='utf-8'
        #responses.text返回網頁原始碼
        #responses.content返回二進位制數
        #print(responses.text)

        #通過bs4，構造過濾器，篩選內容
        #BeautifulSoup()函式的引數(二進位制內容,指定解析器：html5lib或lxml)
        bs = BeautifulSoup(responses.content,'html5lib')
        #定義過濾規則：div lanmu、div ul、div ul li
        #fina_all()函式引數：根據標籤名字過濾，根據屬性名#value篩選
        div_list = bs.find_all('div',attrs={'class':'all_lanmu'})
        file = open('校花網資料.txt','w',encoding='utf-8')
        txt = ''
        #print(div_list)
        #遍歷all_lanmu列表
        for div_lanmu in div_list:
            div_title = div_lanmu.find('div',attrs={'class':'title'})
            a_title = div_lanmu.find('a')
            #tag.string：獲取標籤內容
            #print(a_title.string)
            lanmu_title = a_title.string
            txt += lanmu_title + '\n\n'
            ul = div_lanmu.find('ul',attrs={'class':'twoline'})
            #判斷是否為空
            if ul != None:
                li_list = div_lanmu.find_all('li')
                #print(li_list)
                #採集目標：名字，學校，點贊，路徑（圖片，二級頁面）
                for li in li_list:
                    name = li.find('span').string
                    school = li.find('b',attrs={'class':'b1'}).string
                    like = li.find('b',attrs={'class':'b2'}).string
                    img_path = li.find('img')['lazysrc']
                    two_page = li.find('a')['href']
                    #print(name,school,like,img_path,two_page)
                    txt += '姓名:'+name+'\n'
                    txt += '學校:' + school + '\n'
                    txt += '點贊:' + like + '\n'
                    txt += '詳情頁:' + two_page + '\n'
                    if URL not in img_path:
                        img_path = URL+img_path
                    txt += '圖片:' + img_path + '\n'
                    get_xiaohua_pic(img_path=img_path,name=name)
        file.write(txt)
        file.close()
    else:
        print('訪問不了')

#爬取校花圖片並下載
def get_xiaohua_pic(img_path,name):
    download = 'download'
    if not os.path.exists(download):
        os.mkdir(download)
    #name = img_path.split('/')  #拆分字串
    #name = name[len(name)-1]    #獲取最後一位的內容
    #捕捉異常
    try:
        urlretrieve(img_path,download+'/'+name+'.jpg')
    except:
        print('SORRY~下載不了')

if __name__ == '__main__':
    #目標網站
    URL = 'http://www.xiaohuar.com/'
    #呼叫函式
    get_xiaohua_info()

建議大家看看beatifulsoup4的用法，個人覺得find和find_all方法還是比較令人頭疼的，當然也可以用lxml來解析頁面，以後有機會會學習。

智慧家居實訓第二天嵌入式linux程式設計

========嵌入式linux程式設計=============== 程式設計環境：linux 程式語言：linux介面+C語言嵌入式開發流程： 1.編寫工程 2.編譯工程 3.移植工程 4.測試工程 ============編寫工程=========== 使用程式設計軟體： npp

linux實訓第二天--Centos7配置http方式的網路yum源

Centos7配置http方式的網路yum源首先應當確認是否安裝了httpd服務如果沒有，先用yum -y install httpd進行安裝若報錯，說明本地yum源沒有配置好配置方法可以參考這裡 https://blog.csdn.net/xian

linux實訓第二天總結--快速搭建Httpd服務&部署基於Httpd的網路Yum&搭建NFS共享&兩個終端之間”聊天室”

DAY02 案例一-->部署網路yum源 1.0快速搭建Httpd服務 1.1部署基於Httpd的網路Yum 案例1.0-->

linux實訓第二天--Centos7配置nfs共享資料夾

linux實訓第二天--Centos7配置nfs共享資料夾 1:服務端配置 2:/etc/exports 3:systemctl restart nfs-server 4:客戶端配置 5:注意關於設定開機自動掛載：

崗前實訓第二天 MySQL的增刪改查

增： INSERT INTO `user` (userName, PASSWORD)VALUES('123', '456'); / /向user表中插入新的username(使用者名稱)，password(密碼) INSERT INTO `

學校實訓的第二天

今天主要學習爬蟲，歡迎大家評論交流。工具：pycharm專業版（社群版也可以哈，不過功能沒有專業版多），第三方庫：requests、BeautifulSoup4、lxml、html5lib 1、首先我們先來介紹下爬蟲是什麼？爬蟲，英文名Spider，是一段

學校實訓的第三天（2）

王者榮耀助手（控制檯輸出的）話不多說，直接上程式碼： import requests def init(): #1.準備頭部資訊 head = {'Accept-Charset': 'UTF-8', 'Accept-En

從語言學習實例第二天（簡單小程序）

c語言學習三角形面積計算三角形面積沒有考慮構不成三角形考慮完全另外自我解惑 %f是用於格式化輸入輸出函數，對應類型為float的格式字符。加數字的情況僅適用於輸出函數，比如printf。其形式為 printf("%a.bf", var); 其中a,b為常數。含義為： 1 a, 代表輸出占|a|（a的絕

銀行基礎知識及實訓第二階段考試題

一、選擇題 1、銀行新核心系統建設以_為主建設方向：（）　　A 業務　　B 帳戶　　C 客戶　　D 資金盈利 2、專案計劃表中的起始時間和結束時間分別是？（）　　A 專案簽訂時間專案驗收時間 B 人員入場時間專案上線時間 C 人員入

java實訓第二次作業//181021

1.用java實現個人所得稅計算器。 import java.util.Scanner; public class TaxRe{ public static void main(String[]args){ Scanner sc=new Scanner(

linux實訓第一天--一些好玩的linux命令

ssh +對方linux主機ip 例如:ssh 192.168.7.126 #接著輸入對方密碼即可成功連線可以輸入who來測試 echo "Hello World！" > /dev/pts/0 #會在對方終端顯示Hello World!

linux實訓第一天--Centos7基礎配置(ip,本地yum源,yum安裝httpd,配置虛擬主機)

案例一 1.0配置ip為192.168.147.20/24 1.1配置Yum 1.2設定主機名為svr.tedu.cn 1.3安裝httpd軟體案例1.0-->配置IP [[email protected] ~]#

linux實訓第一天總結

mv命令:移動mv 3.c test.c rm命令:刪除rm 檔名 vim編輯器：i ---》 insertEsc shift + : 進入命令列模式w 儲存q 退出！強制yy 表示複製 2yy表示複製2行p 表示貼上dd 刪除u 撤消 gcc 編譯器（1）預處理（2）編譯（3）彙編（4）連

實訓第二週總結

本文為從簡書轉移的文章，以後不再在簡書上發東西了。調完了第二次作業的最後一個bug，終於可以靜下來寫一寫。這次實訓，算是我入學以來做得最簡單的一個吧。沒有用什麼高大上的框架，沒有做美工，甚至沒有用註解。一切都按照最簡單，也最古老的Java Web開發方式

安卓實訓第四天--基於HttpClient來完畢數據在server和設備間的交互。

-i post aries 補充 addition odi tracking -m 回調上午：老師首先回想了昨天作業。首先在安卓project中的TOOLS文件裏，解析字節流那裏，不用改變。而是把server端的編碼方式變為UTF-8，然後將在安卓project

實訓-第四天 Never trouble trouble till trouble troubles you

ble 3.1 sys 大寫定義規範整型語言 ever till直到 1.變量的聲明.當需要使用一個變量時，必須對該變量進行聲明.變量的聲明包含兩點：變量名和變量類型什麽是變量？就是指代在內存中開辟的存儲空間，用於存放運算過程中需要用到的數據正課?1.變量：存數

第一天的實訓

喜歡 pan 基本功我不 style 倒計時其他個人任務今天我們的實訓主要是做需求分析: 我們的倒計時基本功能是實現了，但是不夠完善，所以我們小組的實訓任務就是把倒計時進行完善，完善的方面主要從註冊、登陸、加密文件、記事本、倒計時、背景圖片等幾個方面，如果還有其他

實訓第五天--The great pleasure in life is doing what people say you cannot do

時有 2.3 money 條件換行類型精確 pri 溢出回顧：1.變量用於指代內存中的一塊區域作用：存數2.聲明類型變量名 int a,b 3.初始化 int a=10； 4.命名不能以數字開

Java實訓第1天

java一、Java運行環境1、JDK和JREJDK(Java Development Kit) 是 Java 語言的軟件開發工具包(SDK)。JRE（Java Runtime Environment，Java運行環境），運行JAVA程序所必須的環境的集合，包含JVM標準實現及Java核心類庫。2、環境變量配

實訓第四天

顯示合並聚合函數 esc car like 最小 cno info 實訓第四天了，最近腦子裏灌的東西比較多，現在終於感到腦子不夠用了，腦子疼啊。今天學的依舊是mysql,學的是查詢，查詢命令單個簡答，兩個條件三個條件一組合，哎呀我的腦容量直接感覺不夠用了，差點哭暈在廁

學校實訓的第二天

今天主要學習爬蟲，歡迎大家評論交流。

工具：pycharm專業版（社群版也可以哈，不過功能沒有專業版多），第三方庫：requests、BeautifulSoup4、lxml、html5lib

1、首先我們先來介紹下爬蟲是什麼？

爬蟲，英文名Spider，是一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。

2、那麼爬蟲能用來幹什麼？

利用爬蟲技術抓取公司使用者資訊，分析網站使用者，網路爬蟲技術在商業銀行的應用等等

3、爬蟲的基本流程

（1）發起請求：通過url向伺服器發起request請求，請求可以包含額外的header資訊。

（2）獲取響應內容：如果伺服器正常響應，那我們將會收到一個response，response即為我們所請求的網頁內容，或許包含HTML，Json字串或者二進位制的資料（視訊、圖片）等。

（3）解析內容：如果是HTML程式碼，則可以使用網頁解析器進行解析，如果是Json資料，則可以轉換成Json物件進行解析，如果是二進位制的資料，則可以儲存到檔案進行進一步處理。

（4）儲存資料：可以儲存到本地檔案，也可以儲存到資料庫（MySQL，Redis，Mongodb等）

4、那麼現在我們開始學習爬蟲的編寫

我們以校花網為例（我們的老師一看就是老司機了，一上來就教我們爬這個，哈哈哈），網站為http://www.xiaohuar.com/，下面附上程式碼，有詳細註釋的。

建議大家看看beatifulsoup4的用法，個人覺得find和find_all方法還是比較令人頭疼的，當然也可以用lxml來解析頁面，以後有機會會學習。

相關推薦