利用scrapy框架實現一個簡單的爬蟲專案

阿新 • • 發佈：2018-12-14

首先簡單介紹一下什麼是scrapy框架？具體詳情見百科！！！

總之，scrapy是一個用於python開發抓取網站網頁的框架，更加通俗的講就是爬蟲框架！！！

下面就是利用scrapy爬取web的一個小專案：

import scrapy

class BooksSpider(scrapy.Spider):
    name = 'books'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):

        # 1.提取資料
        for sel in response.css('article.product_pod'):
            #獲取書名
            name  = sel.xpath('//h3/a[@title]/text()').extract_first()
            #獲取書的價格
            price = sel.css(' p.price_color::text').extract_first()
            #獲取書的評分  這裡使用到正則匹配標籤屬性中的評分
            rating = sel.css('p.star-rating').re_first('star-rating (\w+)')

            #把屬性封裝入字典中
            book = {
                'name':name,
                'price':price,
                'rating':rating,
            }

            yield book

        # 2.提取連結，產生新的請求
        #提取下一頁的連結
        next_page = response.css('ul.pager li.next a::attr(href)').extract_first()

        #判斷下一頁是否存在
        if next_page:
            """
            這裡注意urljoin()函式的用法，從相對路徑獲得絕對路徑
            from urlparse import urljoin
           輸入： urljoin("http://www.asite.com/folder/currentpage.html", "anotherpage.html")
           輸出：'http://www.asite.com/folder/anotherpage.html'
            """
            next_page = response.urljoin(next_page)
            request = scrapy.Request(next_page,callback=self.parse)
            yield request

注意：

1.在終端執行時，輸入scrapy crawl books -o books.csv 執行會把獲取的結果儲存在books.csv檔案中。

2.其中使用到了urljoin函式的用法。

3.yield的用法。

利用scrapy框架實現一個簡單的爬蟲專案

首先簡單介紹一下什麼是scrapy框架？具體詳情見百科！！！總之，scrapy是一個用於python開發抓取網站網頁的框架，更加通俗的講就是爬蟲框架！！！下面就是利用scrapy爬取web的一個小專案： import scrapy class BooksSpi

laravel框架實現一個簡單網站的思路

1配置好環境,使用make:auth,完成好網站的基本註冊登入功能. 2.在訪問網站的頁面的時候,一個網站的頭部和尾部都是相同的,就可以利用blade模板繼承,將頭部和尾部提出來,在寫的頁面中,include頭部和尾部. 3.實現上傳視訊功能,建立模型(model): ar

【Android遊戲開發十六】Android Gesture之【觸控式螢幕手勢識別】操作！利用觸控式螢幕手勢實現一個簡單切換圖片的功能！

原創,轉載務必在明顯處註明：很多童鞋說我的程式碼執行後，點選home或者back後會程式異常，如果你也這樣遇到過，那麼你肯定沒有仔細讀完Himi的博文，第十九篇Himi專門寫了關於這些錯誤的原因和解決方法，這裡我在部落格都補充說明下，省的童鞋們總疑惑這一塊；請點選下面聯絡進入

利用http協議實現一個簡單的web伺服器

目錄檔案： htdoc： html檔案： <html> <head> <h1>hello</h1> </head> <body> <p

【遠端呼叫框架】如何實現一個簡單的RPC框架（三）優化一：利用動態代理改變使用者服務呼叫方式

【如何實現一個簡單的RPC框架】系列文章：這篇部落格，在（一）（二）的基礎上，對第一版本實現的服務框架進行改善，不定期更新，每次更新都會增加一個優化的地方。 1、優化一：利用動態代理改變使用者服務呼叫方式 1.1 目的改變使用者

通過ASP.NET MVC框架 + 原生JavaScript + Ajax + SQL SERVER 實現一個簡單的有論壇功能的網站（有通過iis發布的例子）

簡單的接下來發送思維學會 control javascrip 數據庫今天　　ASP.NET MVC. M 為Model模型層， V 為View視圖層， C 為Controller控制層。要想使用MVC框架來寫網站就需要了解M V C 的作用分別為哪些。給大家簡單

[python] 理解metaclass並實現一個簡單ORM框架

lds asc into password 這樣的內容建行 ati 什麽 metaclass 除了使用type()動態創建類以外，要控制類的創建行為，還可以使用metaclass。 metaclass，直譯為元類，簡單的解釋就是：當我們定義了類以後，就可以根據這個

利用AOP實現一個簡單的快取儲存、清除的工具

基本要求：利用aop實現一個簡單的快取儲存、清除的工具，從實際使用上來說，切面應該在provider層。在service層方法呼叫和資料庫查詢之間生效。為了簡化過程，不要求與資料庫互動，資料可以隨機生成，不要求使用redis等中介軟體，可以直接快取到記憶體中。程式碼實現非常的基礎，能夠很好

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案二、定義 item 三、啟用 pipeline 管道四、編寫爬蟲 Spider 五、執行爬蟲六、結果檢視未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置一、通過命令構建一個爬蟲專

使用React服務端渲染Next.js框架構建一個簡單專案

最近在學習React的服務端的東西，感覺有些難度，最近看的多了，有點感覺了，比如React16.x中的服務端渲染（SSR）寫的不錯，很很簡單，後來發現Next框架很簡單，所以抄錄下來了。伺服器端渲染服務端渲染是指頁面的渲染和生成是在服務端完成的，並將渲染好的頁面返回客戶端。 N

JAVAWEB學習（12） - 實現一個簡單的MVC框架

實現一個簡單的MVC框架 1. 目標 SmartMVC核心是一個通用的控制器(DispatcherServlet)。利用SmartMVC,我們在開發一個web應用時，只需要新增相應的配置，通過該控制器就可以呼叫相應的模型或者檢視。也就是說，只需要寫模型和檢視，不再需要寫控制器了。

利用scrapy框架進行爬蟲

今天一個網友問爬蟲知識，自己把許多小細節都忘了，很慚愧，所以這裡寫一下大概的步驟，主要是自己鞏固一下知識，順便複習一下。（scrapy框架有一個好處，就是可以爬取https的內容）【爬取的是楊子晚報，這裡就以此為例，建立scrapy爬蟲網址：http://www.yangtse.com/】第一步：安

利用scrapy-redis實現分散式爬蟲

環境要求 Python 2.7, 3.4 or 3.5 Redis >= 2.8 Scrapy >= 1.1 redis-py >= 2.10 1. 先安裝scrapy-redis sudo pip3 in

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

目的：功能就是翻頁請求步驟：如下爬取職位名，職位連結等  職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：下一步驟：寫爬蟲：tencent.py檔案寫方法一：或者這樣寫

使用akka實現一個簡單的RPC框架（一）

一、概述目前大多數的分散式架構底層通訊都是通過RPC實現的，RPC框架非常多，比如前我們學過的Hadoop專案的RPC通訊框架，但是Hadoop在設計之初就是為了執行長達數小時的批量而設計的，在某些極端的情況下，任務提交的延遲很高，所有Hadoop的RPC顯得有些笨重。

通過ASP.NET MVC框架 + 原生JavaScript + Ajax + SQL SERVER 實現一個簡單的有論壇功能的網站（有通過iis釋出的例子）

　　ASP.NET MVC. M 為Model模型層， V 為View檢視層， C 為Controller控制層。要想使用MVC框架來寫網站就需要了解M V C 的作用分別為哪些。給大家簡單的介紹一下：　　　　1.當你的這個網站要與資料庫互動的時候，你可以使用EF建立一個數據庫模型,也可以用類存放你所需互動

用Nodejs實現一個簡單的爬蟲功能。（ES6標準）

Nodejs版本：v10.11.0 依賴模組：express，superagent，cheerio 程式碼： const express = require('express'); const superagent = require('superagent'); co

.NET Core微服務之路：利用DotNetty實現一個簡單的通訊過程

　　上一篇我們已經全面的介紹過《基於gRPC服務發現與服務治理的方案》，我們先複習一下RPC的呼叫過程（筆者會在這一節的幾篇文章中反覆的強調這個過程呼叫方案），看下圖

實現一個簡單的MVC框架(SmartMVC)

建立一個maven工程(smartmvc-exec） 2.導包(dom4j) dom4j dom4j 1.6.1 3.新增一個jsp(/WEB-INF/hello.jsp) <%@ page pageEncoding=“utf-8” content

用mpvue與node實現一個簡單的爬蟲

序言爬蟲技術，在當今的互聯網裡面是佔據著非常重要的位置的。那什麼是爬蟲呢？亦即是按照一種特定的指令碼，請求指定的網頁並獲取資料的一段程式。而我們今天這個分享呢，就是利用node的幾個模組，配合mpvue實現小程式的爬蟲功能。需求分析 1. 爬蟲目標利用掃碼

利用scrapy框架實現一個簡單的爬蟲專案

相關推薦