1. 程式人生 > >python爬取電影天堂網各個電影下載地址

python爬取電影天堂網各個電影下載地址

# -*- coding:utf-8 -*-

import requests
from lxml import etree
url="https://www.dy2018.com/html/gndy/dyzz/index.html"
response=requests.get(url)
#統一網頁的編碼格式
#記得加上這句話  response.encoding=response.apparent_encoding
root=etree.HTML(response.text)
page_urls=root.xpath("//select[@name='select']/option/@value")
for page_url in page_urls:
    #每一頁的地址
    page_url="https://www.dy2018.com"+page_url
    response=requests.get(page_url)
    root1=etree.HTML(response.content)
    a_list=root1.xpath("//td[@height='26']/b/a")
    for a in a_list:
        # []print(a)
        title=a.xpath("text()")
        if title:
            title=title[0]
        else:
            continue
        # print(title)
        url=a.xpath("@href")
        if url:
            url=url[0]
        else:
            continue
        if not url.startswith("http"):
            url="https://www.dy2018.com"+url
        movie_response=requests.get(url)
        movie_root=etree.HTML(movie_response.content)
        #<a>hello<b>word</b></a>
        #root.xpath("//a/text()")  找到的只是hello
        #root.xpath("//a//text()")  找到的是hello,word
        #/找到的是單標籤裡的文字  //找到的是標籤下的所有文字
        movie_links=movie_root.xpath("//td[@bgcolor='#fdfddf']//text()")
        print(movie_links)
        print(page_url)


相關推薦

python電影天堂各個電影下載地址

# -*- coding:utf-8 -*- import requests from lxml import etree url="https://www.dy2018.com/html/gndy/dyzz/index.html" response=requests.ge

python 簡單靜態網站之電影天堂

    大家好。今天我在這裡與大家分享一下簡單的網頁抓取。    一、準備工作:下載並安裝好python3.x,並且配置好環境變數。   二、 檢查安裝的軟體是否可用:在cmd視窗下分別輸入python -V  命令 與 pip -V命令(注意大小寫)若出現版本資訊即表示安裝

從前輩的哪裡用python了日本的愛情電影,打包帶走趕緊跑

小編知道前輩一直的很節省,但是小編不知道前輩看電影裡面的人物也怎麼節省,都沒有錢去買衣服穿,連叫聲的那麼悽慘你,那真的是可憐呀!所以小編決定要做好事不留名的方法,把前輩電影裡面的演員穿上衣服。所以第一步就是怎麼從前輩哪裡爬取到電影,再偷偷的換了。哈哈哈 我佛慈悲。Tokyo真的有那麼hot?

利用高德API + Python鏈家租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家 實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

Python千圖PS素材圖片

宣告:僅用於學習交流,請勿用於任何商業用途!感謝大家! 需求:在千圖網http://www.58pic.com中的某一板塊中,將一定頁數的高清圖片素材爬取到一個指定的資料夾中。    分析:以數碼電器板塊為例 檢視該板塊的每一頁的URL:

python拉勾招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊,並沒有搜到,判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊,返回的是JSON資料; 3、條件為北京+資料分析師的公司一共40087家,而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條,所以需要判斷

Python-校花視訊(單執行緒和多執行緒版本)

一、參考文章     python爬蟲爬取校花網視訊,單執行緒爬取     爬蟲----爬取校花網視訊,包含多執行緒版本     上述兩篇文章都是對校花網視訊的爬取,由於時間相隔很久了,校花網上的一些視訊已經不存在了,因此上

python拉勾之selenium

重點程式碼解釋: 1.呼叫lxml的etree實現xpath方法呼叫,xpath相對正則比較簡單,可以不在使用Beauitfulsoup定位 from lxml import etree 2.介面的可視話與否,對於你的執行資源只能用減少 opt=webdri

python圖蟲相簿

創作緣由 這幾天發現了一個很好的圖片網站,圖蟲 但是裡面的圖片大部分有版權,要麼需要付費下載,要麼需要關注作者才能下載,而且在圖片上不能右擊,這讓我們下載圖片有了很大的問題,為了解決這個問題,上網搜尋了許多圖蟲網的爬蟲,發現都是千篇一律,功能都是搜尋關鍵字後下載,而且程式碼神似,估計

python 拉勾 網際網路大資料職業情況

爬取拉勾網資訊 資料處理 製圖 所需知識只有一點點(畢竟是個小白): requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了,程式碼分成了3個部分:爬取、製圖、生成詞雲 爬取部分: 首先要說明的是,拉勾網有反爬

python美空女神圖片,小心記憶體走火

爬蟲分析 首先,我們已經爬取到了N多的使用者個人主頁,我通過連結拼接獲取到了 www.moko.cc/post/da39db…   在這個頁面中,咱們要找幾個核心的關鍵點,發現 平面拍攝 點選進入的是圖片列表頁面。 接下來開始程式碼走起。 獲取所有列表頁面 我

Python美空未登入圖片

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,

python虎嗅資料

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests import pymongo from bs4 import BeautifulSoup client = pymongo.MongoClient(host='l

python煎蛋妹子圖,已解密圖片~~~~~

本來想爬一波無聊圖,唉,竟然加密了。。。。 還好是base64 不說了,程式碼獻上 2018.12.14 有效。。。。。   import requests from bs4 import BeautifulSoup import base64,time base64_l

Python拉勾招聘資訊存入資料庫

先抓包分析我們想要獲取的資料,很明顯都是動態資料,所以直接到Network下的XHR裡去找,這裡我們找到具體資料後,就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後,我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python拉勾招聘資訊

此程式碼執行建議Python3,省卻中文編碼的麻煩 遇到的幾個問題: (1)拉鉤網的資料是通過js的ajax動態生成,所以不能直接爬取,而是通過post’http://www.lagou.com/jobs/positionAjax.json?needAddt

python拉勾資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

Python拉勾招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示 視覺化分析: 公司地區:柱狀圖,地圖 公司待遇:雲圖 公司-學歷情況:餅圖 公司工作經

python拉鉤招聘資訊

拉鉤網網址為:https://www.lagou.com/點選F12進入控制檯觀察結構,發現所有的招聘內容都在此json檔案中:注意headers中的請求url以及請求方法:還有表單資料:獲取以上資訊後,基本就可以開始爬取工作,注意,拉鉤網有反爬機制,所以需要使用cookie

python拉鉤資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A