python爬取電影天堂的下載連結

阿新 • • 發佈：2019-02-03

電影天堂下載連結都是magnet的，搞下來想下就下沒有廣告

# coding=utf-8
import urllib.request
#import requests
import re
import random
import json

#爬取電影天堂電影下載連結
def get_film(url):
    #設定模擬瀏覽器擡頭
    ua_list = [
        "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
        "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... " 
,
        "Mozilla/5.0 (Macintosh; Intel Mac OS... "
    ]
    user_agent = random.choice(ua_list)
    #構建請求
    myRequest = urllib.request.Request(url)
    #也可以通過呼叫Request.add_header() 新增/修改一個特定的header
    myRequest.add_header("Connection", "keep-alive")
    #也可以通過呼叫Request.add_header() 新增/修改一個特定的header 

    myRequest.add_header("User-Agent", user_agent)
    #第一個字母大寫，後面的全部小寫
    myRequest.get_header("User-agent")
    #請求響應
    response = urllib.request.urlopen(myRequest)
    #讀取並轉碼為GBK的字串
    try:
        encodeHtml = response.read()
        #使用"ignore"忽略錯誤
        html = encodeHtml.decode("GB18030", 
"ignore")
        detail_list=re.findall('<a href="(.*?)" class="ulink',html) 
        for m in detail_list:
            b_url = 'http://www.dytt8.net/%s'%m
            #html_2=requests.get(b_url)
            
            #構建請求
            request2 = urllib.request.Request(b_url)
            #也可以通過呼叫Request.add_header() 新增/修改一個特定的header
            request2.add_header("Connection", "keep-alive")
            #也可以通過呼叫Request.add_header() 新增/修改一個特定的header
            request2.add_header("User-Agent", user_agent)
            #第一個字母大寫，後面的全部小寫
            request2.get_header("User-agent")
            #請求響應
            response2 = urllib.request.urlopen(request2)
            #html_2 = response2.read().decode("GBK") 這個可能報錯 用下面的
            html_2 = response2.read().decode("GB18030","ignore")
            #print(html_2)
            #新建一個字典
            movieInfo = {'name':'','ftp':'','magnet':'','info':'','originalName':'','grade':''}
            ftp = re.findall('<a href="(.*?)">ftp.*?</a></td>',html_2)
            if ftp != []:
                #print (ftp[0])
                movieInfo['ftp']=ftp[0]
                name = re.findall('com.*?.m',ftp[0])
                if name != []:
                    #print ('電影名稱:'+name[0].split('.')[1])
                    movieInfo['name']=name[0].split('.')[1]
            magnet = re.findall('<a href="magnet:(.*?)"><strong><font style="BACKGROUND-COLOR: #ff9966"><font color="#0000ff"><font size="4">磁力鏈下載點選這裡</font></font></font></strong></a>',html_2)
            if magnet != []:
                #print (magnet[0])
                movieInfo['magnet']='magnet:'+magnet[0]
            Info = re.findall(' /> <br /><br />.*?<br /><br /><img',html_2)
            if Info != []:
                tmpInfo = Info[0].split('/>',1)[1].split('<img',1)[0]
                #print (tmpInfo)
                movieInfo['info']= tmpInfo
                #原始片名
                originalNameList = re.findall('◎片　　名.*?<br />',tmpInfo)
                if originalNameList !=[]:
                    movieInfo['originalName'] = originalNameList[0].split('◎片　　名',1)[1].split('<br />',1)[0]
                #IMDb評分 滿分10分  這裡擷取我寫的差 還是大家自己去匹配把
                gradeList = re.findall('◎IMDb評分.*?<br />',tmpInfo)
                if gradeList !=[]:
                    #print (gradeList[0].split('/',1)[0])
                    if len(gradeList[0].split('/',1)[0].split('　',1))>1:
                        #print (gradeList[0].split('/',1)[0].split('　',1)[1])
                        movieInfo['grade'] = gradeList[0].split('/',1)[0].split('　',1)[1]
                    if len(gradeList[0].split('/',1)[0].split(' ',1))>1:
                        #print (gradeList[0].split('/',1)[0].split(' ',1)[1])
                        movieInfo['grade'] = gradeList[0].split('/',1)[0].split(' ',1)[1]
            
            for key in movieInfo:
                print (key, ' value : ', movieInfo[key])
            
            '''
            #將資料儲存到本地 
            #jsonStr = json.dumps(movieInfo)
            #print (jsonStr)
            with open('d:\movieList.txt','a',encoding='utf-8') as f:
                #寫文字write到本地
                f.write(jsonStr+',')
            '''
                   
            #傳送到java伺服器
            postDaa = urllib.parse.urlencode(movieInfo).encode('utf-8')
            header_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'}
            #我的地址就不貼了
            url3='https://www.xxx.xxxPython.json'
            req3 = urllib.request.Request(url=url3,data=postDaa,headers=header_dict,method = 'POST')
            res3 = urllib.request.urlopen(req3)
            res3 = res3.read()
            print(res3)
            #print(res3.decode(encoding='utf-8'))
            
    except Exception  as e:
        print('發生了異常：',e)
    
'''
這裡是單執行緒的
for n in range(1,110):
    #goUrl = 'http://www.dytt8.net/html/gndy/dyzz/list_23_'+str(n)+'.html'
    goUrl = 'http://www.dytt8.net/html/gndy/china/list_4_'+str(n)+'.html'
    print(goUrl)
    get_film(goUrl)
'''

一個一個挨著去爬肯定慢啊，建一個多執行緒的去爬 mui.py

這個是參照了 AutomationTesting的部落格內容，很多欄位我也沒改。

# -*-coding:utf-8-*-
import threading;
import main;
mutex_lock = threading.RLock();  # 互斥鎖的宣告
ticket = 180;  # 總頁碼
start = 1; # 起始頁碼
# 用於統計各個執行緒的得票數
ticket_stastics=[];
   
class myThread(threading.Thread):  # 執行緒處理函式
    def __init__(self, name): 
        threading.Thread.__init__(self);  # 執行緒類必須的初始化
        self.thread_name = name;  # 將傳遞過來的name構造到類中的name
    def run(self):
        # 宣告在類中使用全域性變數
        global mutex_lock;
        global ticket;   
        global start;  
        while 1:          
            if ticket > start:                
                start += 1;
                goUrl = 'http://www.dytt8.net/html/gndy/dyzz/list_23_'+str(start)+'.html'
                print (goUrl)
                #呼叫你寫的那個類
                main.get_film(goUrl)          
                ticket_stastics[self.thread_name]+=1;                                     
            else:                
                break;
        mutex_lock.release();  # python線上程死亡的時候，不會清理已存在線上程函式的互斥鎖，必須程式猿自己主動清理
        print ("%s被銷燬了！" % (self.thread_name));  
              
# 初始化執行緒 
threads = [];#存放執行緒的陣列，相當於執行緒池
for i in range(0,50):#執行緒數量，電腦好可以多設點2333
    thread = myThread(i);#指定執行緒i的執行函式為myThread
    threads.append(thread);#先講這個執行緒放到執行緒threads
    ticket_stastics.append(0);# 初始化執行緒的得票數統計陣列
for t in threads:#讓執行緒池中的所有陣列開始
    t.start(); 
for t in threads:
    t.join();#等待所有執行緒執行完畢才執行一下的程式碼
print ("錄入完畢！");
print ("=========統計=========");
for i in range(0,len(ticket_stastics)):
    print ("執行緒%d：%d頁" % (i,ticket_stastics[i]));

這兩個執行一下就可以爬了；平常替換下goUrl就可以了~

多執行緒有可能會發生WinError 10060報錯，使用time.sleep(1)避免

發生了異常： <urlopen error [WinError 10060] 由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應，連線嘗試失敗。>
這是由於連線數太多被對方防火牆ban了… 發生這類錯誤就暫停一下再繼續應該就好了，估計是防DDoS攻擊?

python爬取電影天堂的下載連結

電影天堂下載連結都是magnet的，搞下來想下就下沒有廣告 # coding=utf-8 import urllib.request #import requests import re import random import json #爬取電影天堂電

python爬取電影天堂網各個電影下載地址

# -*- coding:utf-8 -*- import requests from lxml import etree url="https://www.dy2018.com/html/gndy/dyzz/index.html" response=requests.ge

python爬取電影並下載

多說即將 str 方法單獨使用技術 51cto format ble 一、概述對於一個宅男，喜歡看電影，每次打開電影網站，各種彈出的廣告，很是麻煩，還是要自己去復制下載鏈接到迅雷上粘貼並下載，這個過程中還有選擇困難癥;這一系列的動作讓人甚是不爽，不如有下好的，點著看

Python爬取電影天堂

前言：本文非常淺顯易懂，可以說是零基礎也可快速掌握。如有疑問，歡迎留言，筆者會第一時間回覆。本文程式碼存於github 一、爬蟲的重要性：如果把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛通過網頁的連結地址來尋找網頁，從網站某一個頁面

Python爬取電影天堂最新發布影片訊息

從今天開始我會把我學習python爬蟲的一些心得體會和程式碼釋出在我現在的部落格，好記性不如爛筆頭，以便以後的我進行復習。雖然我現在的爬蟲還很幼小，希望有一天她能長得非常非常的強大。 --------------------2018.11.22--------------------------------

python3批量抓取電影天堂下載連結

1.思路分析首先開啟電影天堂的列表頁右鍵審查元素檢視電影簡介的連結將此連結開啟可以得到下載地址可能是爬蟲原因網站審查元素和用request得到的資料不一樣，因此程式碼的正則表示式會改變加上列表迴圈便可以批量輸出下

python爬取電影天堂 _上

感謝哈士奇說喵 http://blog.csdn.net/MrLevo520/article/details/51966992 感謝麥子學院麥芽老師 https://www.bilibili.com/video/av18407985/?t=3723 IDE python3

Python爬取電影天堂資源

步驟一：python的下載python爬蟲，首先需要本地電腦上安裝有python。首先，進入到python官網，你可以直接輸入python主頁，也可以從百度搜索框進入到python的主頁。然後在主頁上面可以看見Downloads字樣，點選。跳轉出python下載介面，選擇一個

爬蟲爬取電影天堂電影連結

比較熱愛python，最近在用eclipse寫java web，那就使用eclipse+PyDv配置環境，小試一次爬蟲吧~ 看電影還要到處找資源，索性自己直接爬取電影連結，只要在迅雷上crtl+c/v就可以邊播邊下了~ 僅以用來學習娛樂呦~~ 進入正題：　　網頁開啟電影天堂，發現是一

python 爬取圖片網站圖片連結並下載收集

python進行圖片網站圖片收集，主要分成如下幾個部分：（1）進行網站html頁面分析，分析你要找到的圖片的連結，以及每個連結url是怎麼構成的，如果通過爬取頁面的html獲取這些圖片的連結（2）通過python將這些已知連結的圖片下載下來注意這行程式碼header = {"

python3----練習題(爬取電影天堂資源)

ref .get odin log .html gb2312 list gpo {} 1 import requests 2 import re 3 4 url = ‘http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.

python 抓取電影天堂電影信息放入數據庫

python mysql 電影 # coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json im

python爬取電影原始碼，小編以後看電影再也不用VIP了（有程式碼）

小編有發爬取電影的視訊，今天小編再發一篇爬取電影的文章。不是小編懶，是小編真的不知道寫什麼了，見諒。如果小編Get到新的技能，一定發。是不是有好多的小夥伴跟好久好久以前的小編一樣，看一個電影充個會員，這個沒關係，最主要的是，充一個平臺的VIP還不行得有好幾個才可以。這麼貧窮的小編，當然只能看6分鐘的視訊

史上最詳細Python爬取電影教程，還不會那也是沒誰了

摘要：作為小白，爬蟲可以說是入門python最快和最容易獲得成就感的途徑。因為初級爬蟲的套路相對固定，常見的方法只有幾種，比較好上手。選取網頁結構較為簡單的貓眼top100電影為案例進行練習。重點是用上述所說的4種方法提取出關鍵內容。一個問題採用不同的解決方法有助於拓展思維，通過不斷練

java實現簡單的網路爬蟲（爬取電影天堂電影資訊）

在最開始，我們要在網上下載所用到的jar包，應為這只是一個簡單的網路爬蟲所以很多包裡的內容沒有用到。下面幾個包就可以了。並且要引入這些包。主類Bigdata.javaimport org.htmlparser.util.ParserException; public

爬取電影天堂的電影資訊

今天做了一早上的爬蟲，爬去電影天堂的電影連結。使用了正則表示式。總的來說來不錯。上程式碼。已經實現的功能： 1.抓取電影釋出的日期 2.電影的名字 3.電影的年代 4.電影的產地 5.電影的類別 6:電影的字幕目前還在考慮，需不需要這麼多的欄位。

python 爬取電影

import requests from bs4 import BeautifulSoup url_a='https://movie.douban.com/top250' def download_page(url): data=requests.get(url).

Python抓取電影天堂，零基礎都可以學？原始碼&視訊，大讚！

我知道，大家肯定是看到Python原始碼&視訊教程才進來的。小編說到做到，此次利用Python爬取電影天堂包含視訊教程、以及原始碼。所以說零基礎的Python新手也能夠輕鬆學會，真的一點都不過分。先看我們的部分程式碼與爬取到的結果：爬取到的電影資源：步驟：關於怎麼快速

xpath；；利用xpath爬取電影天堂

電影天堂資料採集需求文件(先用正則表示式做) 一、最新電影頁面電影連結採集 1. 首頁url：http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html 2. 從該頁面根據正則匹配資料，具體要求如下： 2.1 匹配電

scrapy實戰爬取電影天堂相關資訊

# encoding: utf-8 import scrapy from scrapy import Selector from scrapy import Request from pacong.items import MovieNews, Mov

python爬取電影天堂的下載連結

電影天堂下載連結都是magnet的，搞下來想下就下沒有廣告

一個一個挨著去爬肯定慢啊，建一個多執行緒的去爬 mui.py

多執行緒有可能會發生WinError 10060報錯，使用time.sleep(1)避免

相關推薦