前端之 —— node.js摸爬打滾之路（一）

阿新 • • 發佈：2017-07-10

turn lan name resp function oba ack val 括號

安裝：

window下的安裝，node.js直接上官網下載：https://nodejs.org/en/

選擇LTS，也就是版本號比較低的穩定版，下載下來後運行下載的文件進行安裝；

通過win+R打開cmd命令行：執行以下命令安裝淘寶鏡像：

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

學習express框架：

全局安裝express:

cnpm install express -g

建立新文件夾sesson1並進入sesson1:

mkdir sesson1 && cd sesson1

使用npm生成package.json文件：(加-y 可以免去確認)

npm init -y

安裝utility：

cnpm install utility --save

新建app.js文件，復制以下內容：

var express = require(‘express‘)  //引入express模塊並賦給變量express
var utility = require(‘utility‘) //引入utility庫
var app = express() //加括號表示將express實例化，並賦給變量app

//app.get是express實例的一個方法，常用方法：get、post、put/patch、delete；
//第一個參數是路徑，第二個參數是一個回調函數，函數會接收到兩個對象，分別是 request 和 response，簡寫成：req 和 res;
 
// req 中包含了瀏覽器傳來的各種信息，query，body，headers等都可以通過 req 對象訪問。
// res 對象，一般通過它向瀏覽器輸出信息。

app.get(‘/‘,function(rep,res){var q = req.query.q
  var md5Value = utility.md5(q)
  res.send(md5Value)
}).listen(3000,function(rep,res){
  console.log(‘app is running at port 3000‘)
})

cmd執行app.js:

node app.js

瀏覽器輸入：http://locallhost:3000/?q=Hello World ，出現Hello World字符串轉md5的值 : 0a4d55a8d778e5022fab701977c5d840bbc486d0

簡單爬蟲的實現：

mkdir lesson2 && cd lesson2

npm init -y

cnpm install cheerio --save-dev

cnpm intsall bluebird --save

新建app.js文件，復制以下內容：

var http = require(‘http‘)
var express = require(‘express‘)
var cheerio = require(‘cheerio‘)
var Promise = require(‘bluebird‘)
var app = express()
var fetchCourseArray = [],pageArray =[]

function getPageAsync(url){
  return new Promise(function(resolve,reject){
      console.log(‘正在爬取...‘+url)

      http.get(url,function(res){
      var html = ‘‘
      res.on(‘data‘,function(data){
          html += data
      })
      res.on(‘end‘,function(){
          resolve(html)
      })
    }).on(‘error‘,function(){
        reject(e)
        console.log(‘任何時候，都不是代碼的錯!‘)
    })
  })
}

pageArray.push(‘http://coderschool.cn/1853.html‘)
pageArray.forEach(function(value,index){
    fetchCourseArray.push(getPageAsync(pageArray[index]))
})

Promise
    .all(fetchCourseArray)
    .then(function(pagesArr){
        pagesArr.forEach(function(html){
            var $ = cheerio.load(html)
            var a = $(‘.post-1853 p a‘)
            itemArr = []
            a.each(function(){
              itemArr.push({
                    title:$(this).text(),
                    href:$(this).attr(‘href‘)
              })
            })
            itemArr.forEach(function(item){
                console.log(item.title +‘: ‘+item.href)
            })
        })    
    })

app.get(‘/‘, function(req,res){
    res.send(itemArr)
}).listen(3000,function(){
    console.log(‘app is listening at port 3000‘)
})

cmd執行：

node app.js

頁面輸出itemArr數組，cmd命令行打印爬取頁面的指定內容。

爬蟲並發抓取：

var cheerio = require(‘cheerio‘)
var eventproxy = require(‘eventproxy‘)
var superagent = require(‘superagent‘)
var url = require(‘url‘)

var cnodeUrl = ‘https://cnodejs.org/‘

superagent.get(cnodeUrl)
    .end(function(err, res) {
        if (err) {
          return console.error(err)
        }
        topicUrls = []
        var $ = cheerio.load(res.text)

        $(‘#topic_list .topic_title‘).each(function(idx, element){
            var $element = $(element)
            var href = url.resolve(cnodeUrl,$element.attr(‘href‘))
            topicUrls.push(href)
        })

        var ep = new eventproxy()
        ep.after(‘topic_html‘,topicUrls.length,function(topics){
            topics = topics.map(function(topicPair){
                var topicUrl = topicPair.topicUrl
                var topicHtml = topicPair.text
                var $ = cheerio.load(topicHtml)
                return ({
                    title: $(‘.topic_full_title‘).text().trim(),
                    href: topicUrl,
                    comment1: $(‘.reply_content‘).eq(0).text().trim(),
                    author1:$(‘.user_name a‘).text().trim(),
                    score1:$(‘.floor .big‘).text().trim()
                })
            })

            console.log(‘final:‘)
            console.log(topics)
        })

        topicUrls.forEach(function(topicUrl){
            superagent.get(topicUrl)
                .end(function(err,res){
                    console.log(‘fetch ‘ + topicUrl + ‘ successful‘)
                    ep.emit(‘topic_html‘,{topicUrl: topicUrl, text: res.text})
                })
        })
    })

cmd執行：

node app.js

cmd命令行打印並發爬取多個頁面的指定內容。

控制爬蟲並發數量：

var cheerio = require(‘cheerio‘)
var superagent = require(‘superagent‘)
var url = require(‘url‘)
var async = require(‘async‘)

var cnodeUrl = ‘https://cnodejs.org/‘

superagent.get(cnodeUrl)
    .end(function(err, res) {
        if (err) {
          return console.error(err)
        }
        var topicUrls = []
        var $ = cheerio.load(res.text)

        $(‘#topic_list .topic_title‘).each(function(idx, element){
            var $element = $(element)
            var href = url.resolve(cnodeUrl,$element.attr(‘href‘))
            topicUrls.push(href)
        })

        var concurrencyCount = 0
        var itemArr = []
        var fetchUrl = function(topicUrl, callback){
            var delay = parseInt((Math.random() * 10000000) % 2000, 10)
            concurrencyCount ++
            console.log(‘並發數：‘+ concurrencyCount,‘正在抓取：‘,topicUrl,‘耗時：‘+delay + ‘ms‘)
            superagent.get(topicUrl)
                .end(function(err,res){
                    var $ = cheerio.load(res.text)
                    var topics = {
                        title: $(‘.topic_full_title‘).text().trim(),
                        href: topicUrl,
                        comment1: $(‘.reply_content‘).eq(0).text().trim(),
                        author1:$(‘.user_name a‘).text().trim(),
                        score1:$(‘.floor .big‘).text().trim()
                    }
                    itemArr.push(topics)
                })
            setTimeout(function(){
                concurrencyCount --
                callback(null,topicUrl + ‘html content‘)
            },delay)
        }

        async.mapLimit(topicUrls,5,
            function(topicUrl, callback){
                fetchUrl(topicUrl, callback)
            },
            function(err, result){
                console.log(‘final:‘)
                console.log(result)
                console.log(itemArr)
            })
    })

cmd執行：

node app1.js

cmd命令行打印爬取指定並發數的多個頁面的指定內容。

非教程，只是自己學習的記錄，當然也希望可以幫到您。

參考資料：

原文地址：https://github.com/alsotang/node-lessons

前端之 —— node.js摸爬打滾之路（一）

turn lan name resp function oba ack val 括號安裝： window下的安裝，node.js直接上官網下載：https://nodejs.org/en/ 選擇LTS，也就是版本號比較低的穩定版，下載下來後運行下載的文件進行安裝；通

教你如何用node.js開發微信公眾號（一）

內容簡介本文章簡單介紹瞭如何用node.js開發微信公眾號。主要內容包括signature的驗證，access_token的生成，微信事件的接收，還有各種api的呼叫。準備工作開發前需要安裝好node.js,因為我是基於express框架開發的，所以裝了express(框架按自己的需求選擇),需要

使用Node.js搭建微信支付後臺（一）

第一部分前期儲備 1.1 註冊前的概述從微信公眾平臺可以獲取到公眾號的分類如下: 1. 服務號:主要偏於為使用者傳達資訊（類似報紙雜誌），認證前後都是每天只可以群發一條訊息;【適用人群】：媒體，企業，政府或其他組織 2. 訂閱號: 主要偏於服務互動（類似銀行，114，提供

react爬坑之路（一）--報錯output.path不是絕對路徑

bpa file 文件開始 put pac 這就是文件頭部之前　　之前，一直在糾結是學習angular好，學習vue好，還是學習react好，網上一搜索，也是各種對比，各種互噴，看過之後更糾結。就跟小時候一樣糾結長大了是上清華好，還是上北大好，最後證明我想多了。總之

初識vue.js，我的學習之路（一）

自動打開下一步鏡像分享圖片 bpa demo 中間前端技術 width 在以前做項目時經常是新建一些html、css、等一些文件，但在接觸了vue.js之後我發現我已經有點看不懂前端了，這對於我這麽一個菜鳥來說實在是很苦逼的事情。現在的前端技術都離不開

Vue 爬坑之路（一）—— 使用 vue-cli 搭建項目（增補）

web http class 模板 clas ebp 搭建 com png cd 指定好安裝目錄 vue init webpack 項目名稱執行 vue vue list 查看可應用模板 vue init webpack +名字

Vue 爬坑之路（一）—— 使用 vue-cli 搭建項目

wrong run 自己文件的 ima tca 來安 mage 前綴 vue-cli 是一個官方發布 vue.js 項目腳手架，使用 vue-cli 可以快速創建 vue 項目，GitHub地址是：https://github.com/vuejs/vue-cli 一、

前端開發框架總結之利用Jtopo實現網路拓撲功能（一）

前端開發框架總結之利用Jtopo實現網路拓撲功能（一）前言：前段時間由於專案需要實現一個網路裝置拓撲管理的

前端成長之路（一）setState需要注意的幾點

一直沒有對setState有什麼很深入的瞭解，最近閱讀了一些文章，深感setState的運用並不簡單 setState的使用不當，很有可能會導致一些莫名其妙的bug 首先：setState並不保證同步執行呼叫setState後，並不會直接改變state的值，而

web前端進化之路（一）——小程式開發

最近學習前端感覺很多知識學起來容易，但是很多知識點很容易忘記，想做一個工具來方便自己來學習，正好結合小程式，分享給大家。照顧初學者，可能講的比較細，理解哈。準備工具小程式一個已申請（名稱是：we

Vue 爬坑之路（一）—— 使用 vue-cli 搭建專案

vue-cli 是一個官方釋出 vue.js 專案腳手架，使用 vue-cli 可以快速建立 vue 專案，GitHub地址是：https://github.com/vuejs/vue-cli 一、安裝 node.js 首先需要安裝node環境，可以

學習前端之路（一）

為了讓自己能夠記下一些常用的知識，特此寫下來mark，以便渣渣的自己隨時查閱。今天開始做第一個專案，聽說很簡單，那就假裝很簡單吧。Build a Tribute Page. 需要使用到Bootstrap框架。 1、container Bootstrap 固定佈局如果

linux驅動開發之蜂鳴器驅動源碼分析（一）

linux 蜂鳴器驅動蜂鳴器的驅動源碼在/driver/char/buzzer/x210-buzzer.c文件中，源碼如下#include <linux/module.h> #include <linux/kernel.h> #include <linux

我的學習之路（一）SQL盲註學習篇

網絡安全 dvwa sql盲註我的學習之路，現在零基礎，是一個小白，請各位大牛批評指正！寫下這篇，是對自己的一個思路的整理，僅供參考。 Dvwa中登錄進入，首先在DVWA Security中設置等級為low，然後進入SQL Injection(blind),隨意輸入一個數字進行抓包，然後找

成長之路（一） GridLayout 布局

bsp ren 1.0 androi enc 代碼區 andro XML orien 效果圖代碼區 <?xml version="1.0" encoding="utf-8"?><GridLayout xmlns:android="htt

硬件傳輸模塊系列之藍牙模塊無線上傳（一）

名稱支持藍牙連接關閉輸入配對藍牙沒有串口藍牙模塊HC-06 知識點一：藍牙狀態 led指示藍牙連接狀態，閃爍表示沒有藍牙連接，常亮表藍牙已連接並打開串口（端口）知識點二：相關參數輸入電壓3.6v-6V，未配對時電流30mA,配對成功後為10mA。未建

多線程編程之Linux環境下的多線程（一）

posix you host 說明通過常用新的變量 func 一、Linux環境下的線程　　相對於其他操作系統，Linux系統內核只提供了輕量級進程的支持，並未實現線程模型。Linux是一種“多進程單線程”的操作系統，Linux本身只有進程的概念，而其所謂的“線程

13.Django之數據庫models&orm初探（一）

try api 示例 mar 叠代交互 reverse 一行 gre 一、使用django orm的準備操作。django 默認支持sqlite，mysql, oracle,postgresql數據庫。在默認情況下django的項目中會默認使用sqlite數據庫，在打開s

Hadoop學習之路（一）理論基礎和邏輯思維

file 工作 puts 範圍小文件集合無效任務問題三個題目第一題問題描述統計出當前這個一行一個IP的文件中，到底哪個IP出現的次數最多解決思路 //必須要能讀取這個內容 BufferedReader br = n

Python學習之路（一）

Python 基礎 Python基礎學習1（1）變量在Python中用來存儲數據所指向的內存地址叫做變量（2）變量的命名變量的命名由數字，字母，下劃線組成，數字不能開頭；不要使用Python中的關鍵字和函數名稱來命名變量；命名時要簡明，具有描述性；變量名區分大小寫。命名方式遵循駝峰命名法和下劃線命名法

前端之 —— node.js摸爬打滾之路（一）

安裝：

學習express框架：

簡單爬蟲的實現：

爬蟲並發抓取：

控制爬蟲並發數量：

相關推薦