python入門-----爬取汽車之家新聞,---自動登錄抽屜並點贊,

阿新 • • 發佈：2018-07-07

ike color div標簽 pla spa art com col 3-9

爬取汽車之家新聞,代碼如下

import requests
res=requests.get(url=‘https://www.autohome.com.cn/news/‘)  #向汽車直接發起get請求,獲取請求數據
res.encoding=res.apparent_encoding  #把html的編碼方式指定給res,避免編碼方式不匹配亂碼

from bs4 import BeautifulSoup
soup=BeautifulSoup(res.text,‘html.parser‘)
div=soup.find(name=‘div‘,id="auto-channel-lazyload-article 
") #獲取id為‘auto-channel-lazyload-article‘的div標簽
li_list=div.find_all(name=‘li‘) #獲取所有的li標簽,生成列表,然後遍歷獲取每隔li標簽的數據
for li in li_list:
    h3=li.find(name=‘h3‘)
    if h3:#如果h3標簽不存在後面的代碼會報錯,故如h3標簽為空,則跳過
        print(h3.text) #獲取h3標簽的文本
        p = li.find(name=‘p‘)
        print(p.text)#獲取p標簽的文本
        # 
獲取li標簽中的a標簽,獲取href並剔除//
        a = li.find(name=‘a‘)
        href=a.get(‘href‘)
        href_url=href.split("//")[1]
        print(href_url)
        print("  " * 20)

View Code

自動登錄抽屜,並點贊

# 該url登錄及點贊操作均需攜帶登錄前的cookie,故get請求後先獲取cookie
import requests
from bs4 import BeautifulSoup

#向url發起請求,獲取cookie
res=requests.get(
    url 
=‘https://dig.chouti.com/‘,
    headers={‘user-agent‘:"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
)
res_cookie=res.cookies.get_dict()
#由於需點贊該頁面所有新聞,需獲取所有新聞的url的id.該id在class為discus-a的a標簽中,故先獲取所有的a標簽,便於後續遍歷獲取id
soup=BeautifulSoup(res.text,‘html.parser‘)
a_list=soup.find_all(name=‘a‘,attrs={‘class‘:‘discus-a‘})

# 登錄抽屜
login=requests.request(
    url=‘https://dig.chouti.com/login‘,
    method=‘POST‘,
    headers={‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘},
    data={‘phone‘:‘8618857172792‘,
          ‘password‘:‘Z123456z@‘,
          ‘oneMonth‘:‘1‘,
          },
    cookies=res_cookie
)


#遍歷獲取id點贊
for a in a_list:
    id=a.get(‘lang‘)
    res=requests.request(
        method=‘POST‘,
        url=‘https://dig.chouti.com/link/vote?linksId=‘+id,
        headers={‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘},
        cookies=res_cookie,

    )
    print(res.text)
    print(‘*‘*20)

View Code

爬蟲本質:編寫程序,模擬瀏覽器發送請求獲取網站信息.

requests請求中常見參數參數:
    method:網絡請求方式.如get/post.
    url:請求的域名/ip地址
    heards:請求頭.例
                headers={
                    ‘user-agent‘: "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}
                #user-agent指請求的終端信息
    cookies:cookie
    params:url中傳參數
                如:params={‘user‘:‘tom‘,‘pwd‘:‘123‘} #同等於http://www.xxx.com?user=tom&pwd=123,

    data:請求體中傳值
    json:轉換請求體中的格式:
                如data={‘user‘:‘tom‘,‘pwd‘:‘123‘},請求體中數據為user=tom&pwd=123,json轉換後為"{‘user‘:‘tom‘,‘pwd‘:‘123‘}"
                data=json.dumps{‘user‘:‘tom‘,‘pwd‘:‘123‘}效果同等於json={‘user‘:‘tom‘,‘pwd‘:‘123‘}
    files:文件參數.例:
                file_dict={
                ‘f1‘:(‘新的文件名‘,open(‘文件名‘,‘rb‘)) #參數2可傳文件句柄或文件內容
                }
                files=file_dict
    auth:基本的認證方式 (很少用,常用於彈窗認證登錄) 例
                from requests.auth import HTTPBasicAuth,HTTPDigestAuth
                ret=requests.get(
                    url=‘‘,
                    auth=HTTPBasicAuth(‘tom‘,‘123456‘)
                    )
                print(ret.text)
    timeout:超時時間,例
                ret=request.get(url=‘www.***.com‘,timeout=(10,1))#參數1是響應時間最多10秒,參數2是請求時間最多等1秒,超時後則停止
    allow_redirects:是否重定向
    proxies:代理ip  例
                proxies={‘http‘:‘**.**.**.**‘,‘https‘:‘**.**.**.**‘} #訪問 http使用**ip;訪問https,使用**ip
                proxies={‘http://**.**.**.**‘:‘http://**.**.**.**:**‘}# 訪問**ip,使用**代理
                註:如代理需要使用用戶名密碼,則需導入HTTPProxyAuth.
                    from requests.auth import HTTPProxyAuth
                    proxies_dict={‘http‘:‘**.**.**.**‘,‘https‘:‘**.**.**.**‘}
                    auth=HTTPProxyAuth{‘user‘,‘passwd‘}
                    res=requests.get(url=‘‘,proxies=proxies_dict,auth=auth)
                    print(res.text)
    stream:下載大文件時候使用,類似叠代器的上下文管理.例
                1.  res=requests.get(url=‘https://www.autohome.com.cn/news/‘)
                    for i in res.iter_content():
                        print(i)

                2.  form contextlib importan closing
                    with closing(requests.get(‘https://www.autohome.com.cn/news/‘,stream=True)) as r;
                    for i in r.iter_content():
                        print(i)
    cert:證書(本質是對數據加密),如https和http的區別
    verify:在證書驗證的過程中進行確認


例:
    import requests
    requests.get(
        url="http://www.xxx.com",
        params={‘user‘:‘tom‘,‘pwd‘:‘123‘} #同等於http://www.xxx.com?user=tom&pwd=123,
        heards={},
        cookies={}


    )
    requests.post(
        url="http://www.xxx.com",
        params={‘user‘:‘tom‘,‘pwd‘:‘123‘} #同等於http://www.xxx.com?user=tom&pwd=123,
        heards={},
        cookies={},
        data={},  #get請求中沒有請求體,故沒有data

    )

python入門-----爬取汽車之家新聞,---自動登錄抽屜並點贊,

ike color div標簽 pla spa art com col 3-9 爬取汽車之家新聞,代碼如下 import requests res=requests.get(url=‘https://www.autohome.com.cn/news/‘) #向汽車直接

python爬蟲——爬取汽車之家新聞

按F12審查一下元素：找到了對應的資訊。而且發現要爬取的圖片都在id=auto-channel-lazyload-article的div標籤下的li標籤裡。 li標籤下的a標籤就是新聞的url；image標籤，src就是獲取圖片的url；請求圖片地

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

python爬蟲實戰爬取汽車之家上車型價格

相關庫 import pymysql import pymysql.cursors from bs4 import BeautifulSoup import requests import random

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

Python練習 scrapy 爬取汽車之家文章

autohome.py #spider檔案 # -*- coding: utf-8 -*- import scrapy from Autohome.items import AutohomeItem class AutohomeSpider(scrapy.Spider)

爬取汽車之家

ref article brush att split channel odin lazy com import requests from bs4 import BeautifulSoup response = requests.get(‘https://www.aut

python3 爬取汽車之家所有車型操作步驟

題記: 　　網際網路上關於使用python3去爬取汽車之家的汽車資料（主要是汽車基本引數，配置引數，顏色引數，內飾引數）的教程已經非常多了，但大體的方案分兩種：　　1.解析出汽車之家某個車型的網頁，然後正則表示式匹配出混淆後的資料物件與混淆後的js，並對混淆後的js使用pyv8進行解析返回

爬取汽車之家北京二手車資訊

爬取汽車之家北京二手車資訊經測試，該網站：https://www.che168.com/beijing/list/ 反爬機制較低，僅需要偽造請求頭設定爬取速率，但是100頁之後需要登入，登入之後再爬要慎重，一不小心就會永久封號。爬取的資料以各種型別存放，下面展示儲存到mysql資料

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

Python爬蟲爬取BT之家找電影資源

一、寫在前面最近看新聞說聖城家園（SCG）倒了，之前BT天堂倒了，暴風影音也不行了，可以說看個電影越來越費力，國內大廠如企鵝和愛奇藝最近也出現一些么蛾子，雖然目前版權意識雖然越來越強，但是很多資源在這些主流視訊網站上面依然沒有，我平時看電影又習慣下載下來再看，所以每次看電影找資源就很麻煩，花了點時間，於

使用python抓取汽車之家車型資料

import requests import pymysql HOSTNAME = '127.0.0.1' USERNAME = 'root' PASSWORD = 'zyndev' DATABASE = 'zyndev_new' brand = 'ht

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理如何使用python去實現一個爬蟲？模擬瀏覽器請求並獲取網站資料在原始資料中提取我們想要的資料資料篩選將篩選完成的資料做儲存完成一個爬蟲需要哪些工具 Python3.6 p

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

java 開發用到網路爬蟲，抓取汽車之家網站全部資料經歷

經歷了兩個禮拜的折騰，某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。說一下我的犯罪經歷，之前公司總是抓取某某網站資料，可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為，導致我們的抓取功能報錯，逐步跟蹤，發現我們之前是在人家的網站，通過Webh

python+scrapy 爬取成都鏈家二手房和成交資訊

爬蟲設計方案爬取目標成都鏈家的二手房和成交資料。由於web版看不到最新的成交金額資料，因此需要用手機版的資料。成交資料應該去重，可以做成每天增量爬取。需要做成每天爬取一次，定時執行參考文章技術方案使用Scrapy框架，

路飛學城-python開發集訓-第一章之用用戶登錄作業

編碼集調用 span password style 實現編寫文件的讀寫操作循環讀取 #coding = utf-8 import datetime today=datetime.date.today() #讀取當前日期 passwo

Python爬取最新反爬蟲汽車之家口碑

本人剛學Python沒幾天,程式碼可能比較醜陋, 大牛不要噴用的Python2.7.2, 因為PyV8最高支援2.7.2, js混淆部分用的PyV8直接執行的js 原理已經寫過一篇了,這裡不再贅述了.可以看我的這篇目錄結構如下: fonts資料夾負責存放下載的字型檔案

Python爬蟲六：字型反爬處理（貓眼+汽車之家）-2018.10

環境：Windows7 +Python3.6+Pycharm2017 目標：貓眼電影票房、汽車之家字型反爬的處理 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、微信公眾號爬蟲、字型反爬--------- 前言：字型反爬，

汽車之家網站為例-爬蟲的編寫，爬取圖片

汽車之家圖片的爬取汽車之家有很多汽車的點評、價格、圖片等資訊，那麼怎麼才能編寫一個爬蟲來獲得我們所需要的資訊呢，很簡單，兩個工具便可以了，一個網頁解析工具requests，一個正則匹配工具re

python入門-----爬取汽車之家新聞,---自動登錄抽屜並點贊,

相關推薦