scrapy的學習之路1(簡單的例子)

阿新 • • 發佈：2018-01-20

strong os.path pro tle text arch try mobile pip

scrapy的安裝

環境:python3.6

1

    pip install -i https://pypi.douban.com/simple/  scrapy

2

    scrapy startproject ArticleSpider

****main.py是後面創建用來運行scrapy的****

技術分享圖片

3

cd ArticleSpider

scrapy genspider jobbole blog.jobbole.com
                 ------- ----------------
                 spider名    網站域名

技術分享圖片

4

在ArticleSpider創建main.py,可以通過此文件運行scrapy

from scrapy.cmdline import execute
import sys
import os


# print(__file__) #本文件名
# print(os.path.dirname(__file__)) #父文件名
# print(os.path.abspath(os.path.dirname(__file__))) #路徑和父文件名

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #設置環境，必須

execute(["scrapy", "crawl", "jobbole"])

5

以上運行可能在win下會報錯

技術分享圖片

6

settings.py

技術分享圖片

準備工作完

1

在jobbole.py下

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
import re
from urllib import parse


class JobboleSpider(scrapy.Spider):
    name = ‘jobbole‘
    allowed_domains = [‘blog.jobbole.com‘]
    start_urls = [‘http://blog.jobbole.com/all-posts/‘]
    
    def parse(self, response):
        # 獲取列表頁每一個item的url
        post_urls = response.css(‘#archive .floated-thumb .post-thumb a::attr(href)‘).extract()
        for post_url in post_urls:
            print(post_url)
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_info)  # 把獲取到的url交給詳情頁的方法處理
        # 獲取下一頁的url
        next_url = response.css(‘.next.page-numbers::attr(href)‘).extract_first()
        if next_url:
            yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)  # 把獲取到的下一頁的url交給自己的方法處理
    
    """獲取詳情頁的信息"""
    def parse_info(self, response):
        # 以下都是獲取詳情頁信息
        res_title = response.xpath(‘//div[@class="entry-header"]/h1/text()‘).extract_first()
        res_date = response.xpath(‘//p[@class="entry-meta-hide-on-mobile"]/text()‘).extract_first().strip().replace(‘·‘, ‘‘).strip()
        res_zhan = response.xpath(‘//span[contains(@class, "vote-post-up")]/h10/text()‘).extract_first()
        res_content = response.xpath(‘//div[@class="entry"]/p/text()‘).extract_first()

        res_cate_a = response.xpath(‘//p[@class="entry-meta-hide-on-mobile"]/a/text()‘).extract_first()
        res_cate_b = [i.strip() for i in res_cate_a if not i.strip().endswith(‘評論‘)]
        res_cate_c = ‘,‘.join(res_cate_b)

        res_shoucang = response.xpath(‘//div[@class="post-adds"]/span[2]/text()‘).extract_first().strip()
        match_obj1 = re.match(‘.*(\d+).*‘, res_shoucang)
        if match_obj1:
            res_shoucang = match_obj1.group(1)
        else:
            res_shoucang = 0

        res_comment = response.xpath(‘//div[@class="post-adds"]/a/span/text()‘).extract_first().strip()
        match_obj2 = re.match(‘.*(\d+).*‘, res_comment)
        if match_obj2:
            res_comment = match_obj2.group(1)
        else:
            res_comment = 0

scrapy的學習之路1(簡單的例子)

strong os.path pro tle text arch try mobile pip scrapy的安裝環境:python3.6 1 pip install -i https://pypi.douban.com/simple/ scrapy 2

python學習之路1

對象是否 font 得到 spa 一個部分 ont style 一、python 符號運算 + 加 - 兩個對象相加 - 減 - 得到負數或是一個數減去另一個數 * 乘兩個數相乘或是返回一個被重復若幹次的字符串 / 除 - x除以y % 取模

Python 學習之路1 了解Python的編譯原理，運行速度

可能程序集 nbsp 錯誤解釋 .exe 完成字節方便為什麽學習Python呢？目前有許多的開發語言，其中運行速度最快的無疑是C語言了，因為C是最接近機器的語言，但是為什麽還有其他的各種語言呢，因為完成C語言的功能可能需要更多的代碼，而其他的語言可能需要

PHP-學習之路1

則表達式字符串開發流程模式配置這一目前這就是項目結構　　相信入職快有5個月了，目前項目做過HIS，zySystem,ComStoreSystem當然今天不是來介紹的，後期直到第四個月後APP護身寶經理拍板今後也就是明年正式交於我們團隊接手與擴展，運維。雖然

kubernets學習之路(1)--概念總結

lock Dokcer 多余 div 結合擁有中一同時 Kubernete 一、寫在最前在16年開始聽說的k8s，那時候dokcer非常的火，當時也研究了一部分，也算了解docker,後續沒有使用場景，於是就沒有繼續深入的學習。隨著微服務的架構越來越流程

python學習之路實現簡單的計算機功能。

內部表達式 remove 符號加減 per multipl 計算機 print 計算器的主要思維是： 1、對輸入的表達式去除其空格 2、判斷用戶輸入的表達式中的括號是否合法 3、每次找到這個表達式只有一對括號的表達式（就是這找到的表達式內部沒有括號） 4、對找到的只有一

vue學習之路 - 1.初步感知

mar 進行配置單元素 ie8 getter 控件 world 特性一、安裝　　這裏使用node的npm包管理工具進行操作。操作前請先下載node。　　在工程文件夾中使用以下命令安裝vue: npm install vue 　　如下圖所示：我在 he

TensorFlow學習之路1-TensorFlow介紹

TensorFlow是一個採用資料流圖（data flow graphs），用於資料計算的開源軟體庫。什麼是資料流圖？ TensorFlow的資料流圖是由“節點”（nodes）和“線”（edges）組成的有向無環圖來描述數學計算。“節點”一般用來表示施加的數學操作，但也可以表示資料輸入（feed in）

Python學習之路(1)

Python學習之路(1) 1. Python語言概述 Python是一種計算機程式設計語言。是一種動態的、面向物件的指令碼語言，語言預設字尾為.py。經過多年發展，已經在系統程式設計、網路爬蟲、人工智慧、科學計算、系統運維、WEB開發等多個領域廣泛應用。在網路爬蟲方面，Python的常用框

轉載：什麼是 .bashrc，為什麼要編輯 .bashrc？ linux學習之路 1

如果你執行一個基於 Unix 或者類 Unix 的作業系統，bash 很有可能是作為預設終端被安裝的。雖然存在很多不同的 shell，bash 卻是最常見或許也是最主流的。如果你不明白那意味著什麼，bash 是一個能解釋你輸入進終端程式的東西，並且基於你的輸入來執行命令。它在一定程度上支援使用指令碼

Redis學習之路(1)----初識Redis

一、什麼是Redis Redis官網上的介紹是這樣的： Redis is an open source (BSD licensed), in-memory data structure store, used as a database, cache and message

【Java學習之路---1】List的ArrayList和LinkedList的KTV點歌系統修改

本程式碼是參考書籍敲出，加入了部分自己的東西讓程式完善一些，謝謝！！！ KTVArrayList程式碼： 1 import java.util.Scanner; 2 import java.util.ArrayList; 3 4 public class KTVByArrayList {

我的微控制器學習之路1

為了更好地學習微控制器，同時與大家一起進步，我將以一個飛控程式的main函式開始讀，記錄每一個不懂的語句，並寫下心路歷程。我從圖書館借了一本C primer plus，本打算了解每個不懂得語句得整個體系，即如上得define，不止一種用法，我這裡不懂這個

MVC——WebApi（學習之路1）

一、MVC和WebApi路由機制比較 1、MVC裡面的路由在MVC裡面，預設路由機制是通過url路徑去匹配對應的action方法，比如/Home/GetUser這個url，就表示匹配Home這個Controller下面的GetUser方法，這個很好理解，因為在MVC

Java學習之路(1)

2018年11月02日 14:09:32 簡學閱讀數：3 標籤： Java

ZYNQ學習之路1. Linux最小系統構建

開發環境：window10, vivado 2017.1, ubuntu 16.04, Eclipse+cdt硬體環境：米爾科技zturn board，zynq7z010 本筆記詳細介紹了開發ZYNQ

後端基礎之Python學習之路1

總體來說我還是比較欣賞Python的，大體來說感覺Python和node有點相似，大神不要噴我、我說的相似不是語法，而是輸入python就可以在終端進行除錯，和node一模一樣，當然這是在我初學者角度去分析的。哇塞，python也是弱型別語言，感覺找到組織

Spring Boot 學習之路——1 入門demo

前言：使用Spring Boot已有一年多時間，卻從未靜下心來總結，今天抽空寫個傻瓜式教程，鞏固一下。Spring Boot的主要優點：為所有Spring開發者更快的入門開箱即用，提供各種預設配置來簡化專案配置內嵌式容器簡化Web專案沒有冗餘程式碼生成和XML配置的要求（Sp

Sass學習之路(1)——Sass簡介

Sass是CSS的一種前處理器語言，類似的語言還有Less，Stylus等。那麼什麼是CSS前處理器？ CSS 前處理器定義了一種新的語言，其基本思想是，用一種專門的程式語言，為 CSS 增加了

QT的學習之路 1佈局控制元件（Layout）

一.佈局控件（Layout）垂直佈局（ vertically ），相關類： QVBoxLayout水平佈局（ horizontally ）相關類： QHBoxLayout網格佈局（ grid）

scrapy的學習之路1(簡單的例子)

scrapy的安裝

環境:python3.6

1

2

3

4

5

6

準備工作完

1

相關推薦