1. 程式人生 > >團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具 新的 翻頁 需求 使用 html 頁面 應該 一個

首先要明白爬網頁實際上就是:
找到包含我們需要的信息的網址(URL)列表
通過 HTTP 協議把頁面下載回來
從頁面的 HTML 中解析出需要的信息
找到更多這個的 URL,回到 2 繼續
其次還要明白:
一個好的列表應該:
包含足夠多的電影的 URL
通過翻頁,可以遍歷到所有的電影
一個按照更新時間排序的列表,可以更快抓到最新更新的電影
最後模擬過程知道豆瓣網站不能一次性爬取所有信息,只能分類爬取
使用工具pyspider
分析完成實現代碼,測試模擬運行,按照時間列表爬取每類最新電影資訊

代碼分解,便於加入團隊後組員理解代碼


團隊成員:張文然,張宸

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息