Python獲取個人網站的所有課程下載鏈接和密碼，並保存到Mongodb中

阿新 • • 發佈：2017-06-04

one find() net agent play col pat 進行 jpg

1、獲取網站課程的分類地址；

‘‘‘
爬取屌絲首頁，獲取每個分類名稱和鏈接
‘‘‘

import requests
from lxml import etree

headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36‘,
}
def get_class_data():
    list_data = []
    url = ‘http://www.diaosiweb.net/index.html 
‘
    responese = requests.get(url,headers=headers)
    responese.encoding = responese.apparent_encoding
    class_names = etree.HTML(responese.text).xpath(‘//div[@id="menu"]/div/ul/li/a/text()‘)
    class_links = etree.HTML(responese.text).xpath(‘//div[@id="menu"][email protected]‘)
    for class_name,class_link in 
 zip(class_names,class_links):
        if len(class_link.split(‘/‘)[-1]) == 0:
            class_data = {
                ‘類別名稱‘:class_name,
                ‘類別鏈接‘:class_link,
            }
            list_data.append(class_data)
        else:
            pass
    return list_data

View Code

2、通過上面獲取的地址來獲取所有的每個分類下的所有課程名稱、鏈接和發布時間，並保存到Mongodb中去；

‘‘‘
獲取每個分類url下面的課程名稱和鏈接，然後通過課程鏈接，進入到鏈接裏面去獲取每個課程的url和密碼
‘‘‘

from spiders_diaosi import get_class_data
import requests
from lxml import etree
import pymongo
from multiprocessing import Pool

headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36‘,
}
client = pymongo.MongoClient(‘localhost‘,27017)
diaosi = client[‘kecheng_message‘]
kecheng_message = diaosi[‘message‘]

def get_kecheng_data(url):      #獲取每頁的課程名稱、鏈接、發布時間
    try:
        response = requests.get(url,headers = headers)
        response.encoding = response.apparent_encoding
        kecheng_names = etree.HTML(response.text).xpath(‘//ul[@class="g-list1"]/li/a/text()‘)
        kecheng_links = etree.HTML(response.text).xpath(‘//ul[@class="g-list1"][email protected]‘)
        times = etree.HTML(response.text).xpath(‘//ul[@class="g-list1"]/li/span/text()‘)
        for kecheng_name,kecheng_link,time in zip(kecheng_names,kecheng_links,times):
            data = {
                ‘課程名稱‘:kecheng_name,
                ‘課程鏈接‘:kecheng_link,
                ‘發布時間‘:time
            }
            kecheng_message.insert(data)        #把獲取到的課程信息保存到Mongodb中，最後爬取的時候從數據中爬取
            #print(data)
    except Exception as e:
        print(e)

def get_max_page(url):      #獲取每個分類的最大頁數
    page_response = requests.get(url,headers=headers)
    page_num = int(etree.HTML(page_response.text).xpath(‘//span[@class="pageinfo"]/strong[1]/text()‘)[0])
    return page_num
    #print(page_num)

def get_class_id(url):
    class_response = requests.get(url,headers=headers)
    class_response.encoding = class_response.apparent_encoding
    if get_max_page(url) != 1:
        class_id = int(etree.HTML(class_response.text).xpath(‘//ul[@class="pagelist"][email protected]‘)[-1].split(‘_‘)[1])
        for num in range(1,get_max_page(url) + 1):
            new_url = ‘{}list_{}_{}.html‘.format(url,class_id,num)
            #print(new_url)
            get_kecheng_data(new_url)

    else:
        get_kecheng_data(url)

for link in get_class_data():       #從之前的爬取的分類鏈接中，讀取其中的鏈接，然後爬取每個分類鏈接中的課程信息
    url = link[‘類別鏈接‘]
    print(‘開始爬取:‘ + link[‘類別名稱‘])
    get_class_id(url)
    print(‘已經爬完了:‘ + link[‘類別名稱‘])

View Code

3、從數據庫中讀取每個課程的鏈接，因為下載地址只有登入之後才可以看到，所以模擬登入之後，進行獲取，並保存到Mongodb中去，

from get_captcha import get_capthca
import pymongo
import re
import requests
from lxml import etree
import random

client = pymongo.MongoClient(‘localhost‘,27017)
diaosi = client[‘kecheng_message‘]
kecheng_message = diaosi[‘message‘]
dow_message = diaosi[‘dow_message‘]

login_url = ‘http://www.diaosiweb.net/member/index.php‘
headers_data = [
    ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36‘,
    ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393‘,
    ‘Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0‘,
]
headers = {‘User-Agent‘:random.choice(headers_data)}
data = {
   ‘fmdo‘:‘login‘,
   ‘dopost‘:‘login‘,
   ‘gourl‘:‘‘,
   ‘userid‘:‘***‘,      #運行的時候這裏輸入你的用戶名，或者用input函數輸入也可以
   ‘pwd‘:‘****‘,        #這裏則輸入密碼，獲取用input函數
   ‘vdcode‘:‘‘,
   ‘keeptime‘:‘604800‘,
}

get_capthca(login_url)
captcha = input(‘輸入你看到的驗證碼：‘)
data[‘vdcode‘] = captcha

session = requests.Session()
session.headers.update(headers)

login_response = session.get(login_url,headers= headers,data=data)
for link in kecheng_message.find():
    html = session.get(link[‘課程鏈接‘])
    html.encoding = html.apparent_encoding
    dow_url = re.compile("<div id=‘pan‘ style=\"display:none;\">(.*?)</div>").findall(html.text)[0]
    mima = etree.HTML(html.text).xpath(‘//span[@style]/text()‘)
    data = {
        ‘name‘:link[‘課程名稱‘],
        ‘link‘:link[‘課程鏈接‘],
        ‘dow_url‘:dow_url,
    }
    try:
        if len(mima) == 0  or len(mima) > 5 and ‘網盤提取密碼‘ not in mima[-1].split(‘:‘) :
            data[‘mima‘] = ‘沒有密碼‘
        else:
            data[‘mima‘] = mima
        dow_message.insert(data)
        print(data)
    except Exception as e:
        print(e)
        print(link[‘課程名稱‘])

View Code

下面是獲取網頁驗證碼的，

‘‘‘
獲取登入界面的驗證碼，並保存到本地     --現在只是保存到本地中，後期再編寫自動輸入
‘‘‘


import requests
from lxml import etree
import os

login_url = ‘http://www.diaosiweb.net/member/index.php‘
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36‘,
}

def get_capthca(url):
    login_response = requests.get(url,headers=headers)
    image_url = ‘http://www.diaosiweb.net‘ + etree.HTML(login_response.text).xpath(‘//img[@id="vdimgck"][email protected]‘)[0].replace(‘..‘,‘‘)
    image_response = requests.get(image_url).content
    with open(‘captcha.jpg‘,‘wb‘) as f:
        f.write(image_response)
        f.close()
        print(‘驗證碼已經保存到:{}‘.format(os.getcwd()))

View Code

恩，這樣差不多就完成了一個爬蟲項目了，因為是第一次完整的爬取，所以寫的比較亂，也沒有思維圖，也知道有很多地方不完善，但是發懶筋了，不想寫了，先這樣吧！

Python獲取個人網站的所有課程下載鏈接和密碼，並保存到Mongodb中

one find() net agent play col pat 進行 jpg 1、獲取網站課程的分類地址； ‘‘‘ 爬取屌絲首頁，獲取每個分類名稱和鏈接 ‘‘‘ import requests from lxml import etree headers = {

python獲取系統記憶體、CPU、磁碟、平均負載資訊並儲存到資料庫中

本主題主要考察的是python os模組呼叫linux命令、模組、函式呼叫以及通過python操縱資料庫。假設已經可以正常連線mysql資料庫了，儲存系統資訊的資料庫名稱為hostinfo,相關的四個資料表分別名為cpuinfo、meminfo、diskin

php獲取ios或android通過文件頭(header)傳過來的坐標，通過百度接口獲取具體城市和地址，並存入到session中。

word 請求 sse 百度頭文件 reac session ray 位置首先，在function.php方法文件中封裝一個獲取header頭文件的方法。 if (!function_exists(‘getallheaders‘)) { 　　function g

Python中呼叫OpenCV介面中的高斯混合模型，實現對運動目標的檢測，並保存錄制視訊

Python中呼叫OpenCV介面中的高斯混合模型(GMM)，實現對運動目標的檢測 import numpy as np import cv2 # TODO: 本程式碼使用OpenCV介面中的高斯混合模型，實現對運動目標的檢測 cap = cv2.VideoCapture(

用單進程、多線程並發、多線程分別實現爬一個或多個網站的所有鏈接，用瀏覽器打開所有鏈接並保存截圖 python

app imp mat 並發執行 cut h+ chrome 鏈接目錄 #coding=utf-8import requestsimport re,os,time,ConfigParserfrom selenium import webdriverfrom multipr

肖哥所有課程/HCNA HCNP/安全/雲計算/linux 資料軟件視頻下載鏈接

6.0 通關課程免費視頻 ron panabi trac 視頻下載火墻肖哥所有課程/華為HCNA HCNP/安全/雲計算/linux/紅帽/思科所有資料軟件下載鏈接（2018.9更新）由於百度雲鏈接經常失效，本人懶得挨個通知，故在此將所有課程相關軟件和資料在此

Python 爬蟲 Vimeo視頻下載鏈接

color ref conn requested action def blog .com argv python vimeo_d.py https://vimeo.com/228013581 在https://vimeo.com/上看到稀罕的視頻按照上面加上視頻的

python獲取動態網站上面的動態加載的數據（selenium+Firefox）

bs4 cep tom 源碼 exc () utf firefox target 最近突然想到以前爬取百度學術上的參考文獻，大家可以看一下以前我的寫的博客：http://www.cnblogs.com/ybf-yyj/p/7351493.html，但是如果利用這個方法，太痛

Chrome百度雲插件-獲取文件下載鏈接、定制分享密碼

javascriptChrome百度雲插件說明用於chrome瀏覽器的百度雲網頁插件，用於獲取文件下載鏈接，定制文件分享密碼，使用迅雷下載百度雲文件比普通的瀏覽器直接下載的會快。但是跟百度雲會員下載速度還是有區別的。所以，有錢還是開個會員好。此插件支持文件共享密碼定制，即可以根據自己喜好來設置共享密碼，密碼

所有版本chrome、chromedriver、firefox下載鏈接

tail csdn 火狐其中 rom nload .com ipp jet 1. 所有版本chrome下載是不是很難找到老版本的chrome？博主收集了幾個下載chrome老版本的網站，其中哪個下載的是原版的就不得而知了。 http://www.slimjet.

selenium自動化測試資源整理（含所有版本chrome、chromedriver、firefox下載鏈接）

網址 www mod org AD down adas mozilla 下載鏈接 1. 所有版本chrome下載是不是很難找到老版本的chrome？博主收集了幾個下載chrome老版本的網站，其中哪個下載的是原版的就不得而知了。 http://www.slimje

軟件下載鏈接獲取方法

方法分享圖片支付寶資源註意相關技術 .com 微信 1、獲取軟件下載鏈接及密碼需要密碼下載的軟件請按以下流程操作。 1）微信、支付寶或 QQ 掃碼贊助 5 ～ 20 元。 2）贊助後請發送 “轉賬截圖” + “上一頁完整的軟件名稱（如：coffee主題

python獲取函數所有入參的key-value

變量 args 入參返回小夥伴 local python int 需求需要拿到一個函數裏所有的傳入的參數，並且存在一個字典裏。下面的方法確實拿到了字典，不過要求函數必須用非固定參數**kwargs定義，而且對調用函數很不友好 def func1(**kwargs):

【Python】-006 python獲取當前系統所有程序pid與名稱

【Python】-006 python獲取當前系統所有程序pid與名稱【Python】-006 python獲取當前系統所有程序pid與名稱 1、實現 2、注意 1、實現

python獲取目錄下所有的檔案並修改檔名（隨機8位字元竄名字）

class ChangeName(object): def getRandom(self): seed = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ" sa = [] for

老男孩Python全棧開發視訊課程下載

2018年11月01日 21:58:39 少年與貓喵閱讀數：3 標籤：程式設計資料區塊

python 獲取檔案下所有檔案或目錄os.walk()

在python3.6版本中去掉了os.path.walk()函式 os.walk() 函式宣告：walk(top,topdown=True,oneerror=None) 1、引數top表示需要遍歷的目錄樹的路徑 2、引數農戶topdown預設是"True"，表示首先返回根目

python 知音漫客所有漫畫下載，付費漫畫又如何？

重點，付費的漫畫可免費下載哦。算不算福利我已經打包好exe，沒有安裝環境的同學也可以使用了。 https://pan.baidu.com/s/1TrUZHgMQ3rg2mPi-FieXpQ 提取碼：2te7 本程

Python獲取12306網站車次

可單獨獲取城市到城市的車次、出發時間、耗時時間、到達時間，以及餘票資訊。修改最後三行的字串執行使用。或修改為for迴圈實現批量獲取。程式碼網路獲取並加以修改。 import requests import re #關閉https證書驗證警告 requests.packa

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

Python獲取個人網站的所有課程下載鏈接和密碼，並保存到Mongodb中

相關推薦