完全零基礎小白該如何學爬蟲？大牛總結最適合零基礎的爬蟲教程！

阿新 • • 發佈：2018-05-19

blog alt req fcc headers 套路求根 TP SM

技術分享圖片

2. 開始直接上手

轉機出現在看過一篇爬蟲的技術文章後，清晰的思路和通俗易懂的語言讓我覺得，這才是我想學的爬蟲。於是決定先配一個環境，試試看爬蟲到底是怎麽玩的。（當然你可以理解為這是浮躁，但確實每個小白都想去做直觀、有反饋的事情）

因為怕出錯，裝了比較保險的 Anaconda，用自帶的 Jupyter Notebook 作為IDE來寫代碼。看到很多人說因為配置環境出各種BUG，簡直慶幸。很多時候打敗你的，並不是事情本身，說的就是爬蟲配置環境這事兒。

技術分享圖片

用 urllib 下載和解析頁面的固定句式

當然 BeautifulSoup 中的基本方法是不能忽略的，但也無非是 find、get_text() 之類，信息量很小。就這樣，通過別人的思路和自己查找美麗湯的用法，完成了豆瓣電影的基本信息爬取。

技術分享圖片

用 BeautifulSoup 爬取豆瓣電影詳情

3. 爬蟲漸入佳境

有了一些套路和形式，就會有目標，可以接著往下學了。還是豆瓣，自己去摸索爬取更多的信息，爬取多部電影，多個頁面。這個時候就發現基礎不足了，比如爬取多個元素、翻頁、處理多種情況等涉及的語句控制，又比如提取內容時涉及到的字符串、列表、字典的處理，還遠遠不夠。

技術分享圖片

requests+xpath 爬取豆瓣TOP250圖書信息

通過 requests+xpath，我可以去爬取很多網站網站了，後來自己練習了小豬的租房信息和當當的圖書數據。爬拉勾的時候就發現問題了，首先是自己的請求根本不會返回信息，原來要將自己的爬蟲偽裝成瀏覽器，終於知道別人代碼中那一坨 headers 信息是幹啥的了

歡迎大家關註我的博客：https://home.cnblogs.com/u/sm123456/

歡迎大家加入千人交流資源共享群：125240963

技術分享圖片

完全零基礎小白該如何學爬蟲？大牛總結最適合零基礎的爬蟲教程！

blog alt req fcc headers 套路求根 TP SM 2. 開始直接上手轉機出現在看過一篇爬蟲的技術文章後，清晰的思路和通俗易懂的語言讓我覺得，這才是我想學的爬蟲。於是決定先配一個環境，試試看爬蟲到底是怎麽玩的。（當然你可以理解為這是浮躁，但確實每