PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結構

阿新 • • 發佈：2020-03-05

百度的搜尋引擎有反爬蟲機制，我先直接用guzzle試試水。程式碼如下：

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\QueryList;

//進入網頁
$jar = new \GuzzleHttp\Cookie\CookieJar;
$client = new GuzzleHttp\Client(['cookies' => true]);

$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar
]);

if($ql->getStatusCode()!=200){
    echo '網站狀態不正常';die;
}

echo  $ql->getBody();

PHP

百度直接攔截了，進了跳轉頁面，我試試加個瀏覽器標頭檔案，再試試。

修改後的header如下：

$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar,
    'headers' => [
    'Accept-Encoding' => 'gzip, deflate, br',
    'Accept'     => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Language'      => 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control'      => 'no-cache',
    'Connection'      => 'keep-alive',
    'User-Agent'      => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

PHP

我測試了下，網站打開了。

我們繼續，輸入關鍵詞，並搜尋,結果發現被安全攔截了，所以我感覺直接用GuzzleHttp搞不動，於是我繼續我的神器：jaeger/querylist和jaeger/querylist-puppeteer。

安裝步驟：

1.安裝依賴

在這之前，要先啟用php的proc_open函式，否則無法安裝完整

composer install jaeger/querylist

composer install jaeger/querylist-puppeteer

2.安裝nodejs

yum install nodejs

3.安裝npm

4.安裝@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP啟用proc_open

程式碼如下：

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\QueryList;
use QL\Ext\Chrome;

$ql = QueryList::getInstance();
// 註冊外掛，預設註冊的方法名為: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
    $page->goto('https://www.baidu.com');
    // 這裡故意設定一個很長的延長時間，讓你可以看到chrome瀏覽器的啟動
    sleep(3);
    //輸入關鍵詞
    $wd = '簡慶旺部落格';
    $page->type("input[id='kw']",$wd);
    sleep(1);
    //點選搜尋
    $page->click("input[type='submit']");

    //等待搜尋結果
    sleep(3);
    //獲取結果
    $html = $page->content();
    //用jquery選擇器抽取結果
    $rules = array(
        'title'=>['#content_left h3 a','text'],//標題
        'url'=>['#content_left h3 a','href'],//跳轉網址
        'description'=>['div .c-abstract','text'],//描述
    );
    $ql = QueryList::html($html);
    $rt = $ql->rules($rules)->query()->getData();
    //如果有需要，可以把$rt入庫，以及做其他操作
    sleep(10);
    $browser->close();
    // 返回值一定要是頁面的HTML內容
    return $html;
},[
    'headless' => false, // 啟動視覺化Chrome瀏覽器,方便除錯
    'devtools' => false, // 開啟瀏覽器的開發者工具
])->find('title')->text();

PHP

$rt是我的結果集合，列印下，如下

原文在我部落格：

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結構

百度的搜尋引擎有反爬蟲機制，我先直接用guzzle試試水。程式碼如下： <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:58 */ require ('./vendor/autoload.php'); use QL\Qu

PHP多程序抓取百度搜索結果

<?php /** * 多程序抓取百度結果頁自然結果，包括標題、摘要、圖片、連結、來源 * @since 2016-04-15 */ class NaturalResultSpider { private $_strQuery = null; pub

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

python爬取百度搜索結果ur匯總

百度搜索 sta attr amp end rom range 百度篩選寫了兩篇之後，我覺得關於爬蟲，重點還是分析過程分析些什麽呢： 1）首先明確自己要爬取的目標　　比如這次我們需要爬取的是使用百度搜索之後所有出來的url結果 2）分析手動進行的獲取目標的過程，以便

HttpClient 實現爬取百度搜索結果（自動翻頁）

如果你對HttpClient還不是很瞭解，建議先移步我的另一篇部落格HttpClient4.x之請求示例後再來看這篇部落格。我們這裡的專案採用maven搭建。在閱讀前要對jdk和maven有一定的瞭解。另外開發工具這裡我這裡使用的是：Spring Tool Suite（STS）當然你也可以使用其

pyhon3爬取百度搜索結果

前不久為了在群裡鬥圖，想多蒐集點表情包學習了一下python爬蟲，蒐集了一萬多張吧。下載太多，完全不知道有什麼圖，還是鬥不過！！！！！今天又想爬取百度的搜尋結果，本人還是小白，怕忘記記錄一下，望大神賜教指正同樣是以爬取圖片為例，還很簡陋，沒什麼實用價值

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

Python爬蟲爬取百度搜索內容介面-xpath

百度爬蟲搜尋介面1.0版百度爬蟲搜尋介面1.0版：通過百度關鍵字遍歷到一級頁面的url 通過百度關鍵字遍歷到一級頁面的title標題通過百度關鍵字遍歷到一級頁面的text文字爬取思路拼接url 經過測試，初始時拼接url，只需要加入keyword

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

利用百度搜索結果爬取郵箱

.... sheet pro 編輯部 pic exception exc gecko 正則表達幫同學做一個關於爬取教授郵箱的任務，在百度搜索中輸入教授的名字+長江學者+郵箱，爬取並篩選每個教授的郵箱，最後把郵箱信息寫入到Excel表中：--爬取結果爭取率大概在50%-60

java使用htmlunit爬取百度搜索資訊

在maven專案裡新增所需的開源包，這裡我使用2.23版本 <dependency> <groupId&

百度搜索結果爬蟲

程式碼如下 import requests from lxml import etree # 抓取整個頁面 words = input("輸入搜尋內容：") headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;

python--輸入檢索詞自動爬取百度搜索頁標題信息

htm 中心 keyword == 一個經濟 () NPU 招聘會背景：在百度每次輸入關鍵詞檢索後，會出現很多的檢索頁，不利於有效閱讀，為更方便收集檢索信息，編寫了一個可以收集每個檢索頁與檢索詞相關的十條檢索信息（百度在每個檢索頁放置十條檢索標題信息）。可以根據需要選

C# 百度搜索結果xpath分析

als 接收數據 har rim resp inner ets webclient containe using System; using System.Collections.Generic; using System.IO; using System.Linq; u

selenium-webdriver循環點擊百度搜索結果以及獲取新頁面的handler

pre Coding 之前 ref port 圖片自動化測試自動頁面　　webdriver還是很有意思的，之前用過Ruby的watir的自動化測試框架，感覺selenium的這套框架更好一些，很容易就可以上手。我雖然不做自動化這塊，不過先玩玩再說，多學點東西

百度搜索結果HTML分析

lpar 查找需求搜索結果格式化工具 all AI tom www 目的：為了從搜索結果中提取所有網頁，以備後續處理。訪問百度鏈接分析名稱值說明 wd 任意文字關鍵字 rn 可以不指定，默認為10，最大為50，最小為1，可設置為任意值一頁包

python3 學習2（分頁翻看百度搜索結果）

# -*- coding: utf-8 -*- from selenium import webdriver import time if __name__ == "__main__": driver = webdriver.Chrome()

如何讓百度搜索結果顯示網站 logo

很多人都有用百度搜索自己想要的東西，例如想學習做網站的人會在百度上搜索“學做網站”，從而獲得符合自己需要的內容。我們在使用百度搜索結果看到，有的搜尋結果有一張LOGO圖片，如上圖，而有的卻沒有這張圖片。在搜尋結果中顯示站點LOGO，可以有效的提高使用者的點選率，對網站品牌的建設更有利。那

百度搜索法的評價分析

使用者介面好處：現代有一句話叫有問題問度娘，足以見出百度現在在人們心中的地位，在百度中可以查到大部分你想要的，並且實時更新資料，並推薦實時熱點給你壞處：有時候推薦的東西沒有營養，廣告應該提高門檻記住使用者選擇好處：記住你所感興趣的，不用你再一次搜尋，這樣可以

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結構

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結

相關推薦