1. 程式人生 > >python爬取電影天堂 _上

python爬取電影天堂 _上

感謝哈士奇說喵 http://blog.csdn.net/MrLevo520/article/details/51966992

感謝麥子學院 麥芽老師 https://www.bilibili.com/video/av18407985/?t=3723

IDE python3.6.3

pycharm

本來計劃寫個視窗,裡面可以顯示爬下的電影天堂的連結,然後一邊學爬蟲一邊寫。結果發現在B站看見老師的課程了,所以就跟著寫出來了。而視窗還得一段時間,計劃用pyqt。

以下是爬取最新電影的原始碼,親測可以,但是在爬的過程中會被拒絕訪問。爬取的資料儲存在文字中。

#名稱為date.txt的文字文件儲存在E:\Python\pythonProject\movies\date.txt
import requests #下載網頁原始碼
import re       #正則表示式模組,提取資料
import time
import random

print ("please wait...system loding...")

for m in range(1,10):  #160頁
    PostUrl = "http://www.ygdy8.net/html/gndy/dyzz/list_23_"+str(m)+".html" #url的構造方式
    html = requests.get(PostUrl)  #獲取靜態網頁
    html.encoding = 'gb2312' #指定網頁編碼方式(檢視網頁原始碼)
    #提取資訊,返回的是列表
    #匹配 以<a href="(.*?)" class="ulink">結尾的資訊
    date = re.findall('<a href="(.*?)" class="ulink">',html.text) #(.*?)
    print("第" + str(m) + "頁")
    time.sleep(random.randint(1, 2))
    for n in date:
        finalUrl = "http://www.ygdy8.net"+n
        time.sleep(random.randint(1, 2))
        html2 = requests.get(finalUrl)
        html2.encoding = 'gb2312'
        ftp = re.findall('<a href="(.*?)">ftp://',html2.text)
        with open(r'E:\Python\pythonProject\movies\date.txt', 'a', encoding='gb2312') as f:
            f.write(ftp[0] + '\n')
        print(ftp)



相關推薦

python電影天堂 _

感謝哈士奇說喵 http://blog.csdn.net/MrLevo520/article/details/51966992 感謝麥子學院 麥芽老師 https://www.bilibili.com/video/av18407985/?t=3723 IDE python3

Python電影天堂

前言: 本文非常淺顯易懂,可以說是零基礎也可快速掌握。如有疑問,歡迎留言,筆者會第一時間回覆。本文程式碼存於github 一、爬蟲的重要性: 如果把網際網路比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛通過網頁的連結地址來尋找網頁,從網站某一個頁面

Python電影天堂最新發布影片訊息

從今天開始我會把我學習python爬蟲的一些心得體會和程式碼釋出在我現在的部落格,好記性不如爛筆頭,以便以後的我進行復習。 雖然我現在的爬蟲還很幼小,希望有一天她能長得非常非常的強大。 --------------------2018.11.22--------------------------------

python電影天堂網各個電影下載地址

# -*- coding:utf-8 -*- import requests from lxml import etree url="https://www.dy2018.com/html/gndy/dyzz/index.html" response=requests.ge

python電影天堂的下載連結

電影天堂下載連結都是magnet的,搞下來想下就下沒有廣告 # coding=utf-8 import urllib.request #import requests import re import random import json #爬取電影天堂電

Python電影天堂資源

步驟一:python的下載python爬蟲,首先需要本地電腦上安裝有python。首先,進入到python官網,你可以直接輸入python主頁,也可以從百度搜索框進入到python的主頁。然後在主頁上面可以看見Downloads字樣,點選。跳轉出python下載介面,選擇一個

最詳細Python電影教程,還不會那也是沒誰了

摘要: 作為小白,爬蟲可以說是入門python最快和最容易獲得成就感的途徑。因為初級爬蟲的套路相對固定,常見的方法只有幾種,比較好上手。選取網頁結構較為簡單的貓眼top100電影為案例進行練習。 重點是用上述所說的4種方法提取出關鍵內容。一個問題採用不同的解決方法有助於拓展思維,通過不斷練

python資料(豆瓣TOP250的電影資訊)初學者必看!!!

python爬取豆瓣上TOP250電影 初學python爬蟲。我這裡用的 lxml提取xpath的方式來爬取資料 lxml爬取的速度會比bs4快,所以這裡我選用的lxml 話不多上,趕緊上教程。 爬取的思路: 1.獲取網頁解析(有些網頁需要代理) 2.解析完成之

python3----練習題(電影天堂資源)

ref .get odin log .html gb2312 list gpo {} 1 import requests 2 import re 3 4 url = ‘http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.

python電影天堂電影信息放入數據庫

python mysql 電影 # coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json im

python電影並下載

多說 即將 str 方法 單獨使用 技術 51cto format ble 一、概述 對於一個宅男,喜歡看電影,每次打開電影網站,各種彈出的廣告,很是麻煩,還是要自己去復制下載鏈接到迅雷上粘貼並下載,這個過程中還有選擇困難癥;這一系列的動作讓人甚是不爽,不如有下好的,點著看

爬蟲電影天堂電影連結

  比較熱愛python,最近在用eclipse寫java web,那就使用eclipse+PyDv配置環境,小試一次爬蟲吧~ 看電影還要到處找資源,索性自己直接爬取電影連結,只要在迅雷上crtl+c/v就可以邊播邊下了~ 僅以用來學習娛樂呦~~ 進入正題:   網頁開啟電影天堂,發現是一

python電影原始碼,小編以後看電影再也不用VIP了(有程式碼)

小編有發爬取電影的視訊,今天小編再發一篇爬取電影的文章。不是小編懶,是小編真的不知道寫什麼了,見諒。如果小編Get到新的技能,一定發。 是不是有好多的小夥伴跟好久好久以前的小編一樣,看一個電影充個會員,這個沒關係,最主要的是,充一個平臺的VIP還不行得有好幾個才可以。這麼貧窮的小編,當然只能看6分鐘的視訊

java實現簡單的網路爬蟲(電影天堂電影資訊)

在最開始,我們要在網上下載所用到的jar包,應為這只是一個簡單的網路爬蟲所以很多包裡的內容沒有用到。 下面幾個包就可以了。並且要引入這些包。 主類Bigdata.javaimport org.htmlparser.util.ParserException; public

電影天堂電影資訊

今天做了一早上的爬蟲,爬去電影天堂的電影連結。使用了正則表示式。總的來說來不錯。上程式碼。已經實現的功能: 1.抓取電影釋出的日期 2.電影的名字 3.電影的年代 4.電影的產地 5.電影的類別 6:電影的字幕 目前還在考慮,需不需要這麼多的欄位。

python 電影

import requests from bs4 import BeautifulSoup url_a='https://movie.douban.com/top250' def download_page(url): data=requests.get(url).

Python電影天堂,零基礎都可以學?原始碼&視訊,大讚!

我知道,大家肯定是看到Python原始碼&視訊教程才進來的。小編說到做到,此次利用Python爬取電影天堂包含視訊教程、以及原始碼。所以說零基礎的Python新手也能夠輕鬆學會,真的一點都不過分。先看我們的部分程式碼與爬取到的結果:爬取到的電影資源:步驟:關於怎麼快速

xpath;;利用xpath電影天堂

電影天堂資料採集需求文件(先用正則表示式做) 一、 最新電影頁面電影連結採集 1. 首頁url:http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html 2. 從該頁面根據正則匹配資料,具體要求如下: 2.1 匹配電

scrapy實戰電影天堂相關資訊

# encoding: utf-8 import scrapy from scrapy import Selector from scrapy import Request from pacong.items import MovieNews, Mov

電影天堂電影資訊

思路:使用requests庫獲取網頁原始碼,使用BeautifulSoup解析網頁原始碼,然後使用css選擇器獲取資料原始碼:import requests from bs4 import Beauti