Jsoup獲取網頁內容（並且解決中文亂碼問題）

阿新 • • 發佈：2020-11-23

1. 根據連線地址獲取網頁內容，解決中文亂碼頁面內容，請求失敗後嘗試3次

private static Document getPageContent(String urlStr) {
        for (int i = 1; i <= 3; i++) {
            try {
                URL url = new URL(urlStr);
                HttpURLConnection connection = (HttpURLConnection) url.openConnection();
                 
// 預設就是Get，可以採用post，大小寫都行，因為原始碼裡都toUpperCase了。
                connection.setRequestMethod("GET");
                // 是否允許快取，預設true。
                connection.setUseCaches(Boolean.FALSE);
                // 是否開啟輸出輸入，如果是post使用true。預設是false
                // connection.setDoOutput(Boolean.TRUE);
                 
// connection.setDoInput(Boolean.TRUE);
                // 設定請求頭資訊
                connection.addRequestProperty("Connection", "close");
                // 設定連線主機超時（單位：毫秒）
                connection.setConnectTimeout(8000);
                // 設定從主機讀取資料超時（單位：毫秒）
                connection.setReadTimeout(8000);
                 
// 設定Cookie
                // connection.addRequestProperty("Cookie", "你的Cookies");
                // 開始請求
                int index = urlStr.indexOf("://") + 3;
                String baseUri = urlStr.substring(0, index) + url.getHost();
                Document doc = Jsoup.parse(connection.getInputStream(), "GBK", baseUri);
                if (doc != null) {
                    return doc;
                }
                Thread.sleep(3 * 1000);
                continue;
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return null;
    }

2. 解析網頁資料，通過多種方式獲取頁面元素

    public static void main(String[] args) {
        String urlStr = "http://test.cn/a.html";// 靜態頁面連結地址
        Document doc = getPageContent(urlStr);
        if (doc != null) {
            // 1. 根據id查詢元素
            Element e1 = doc.getElementById("id");
            // 2. 根據標籤獲取元素
            Elements e2 = doc.getElementsByTag("p");
            // 3. 根據class獲取元素
            Element e3 = doc.getElementsByClass("class_p").first();
            // 4. 根據屬性獲取元素
            Element e4 = doc.getElementsByAttributeValue("href", "http://test.cn").first();
            // 5. 根據查詢器獲取元素(class 為writing的div下的p)
            Elements e5 = doc.select("div.writing>p");
            Elements es = doc.select("div .writing p");
            if (es != null && es.size() > 0) {
                for (Element p : es) {
                    String pStr = p.text().trim();
                    System.out.println(pStr);
                }
            }
        }
    }

Jsoup獲取網頁內容（並且解決中文亂碼問題）

1. 根據連線地址獲取網頁內容，解決中文亂碼頁面內容，請求失敗後嘗試3次 private static Document getPageContent(String urlStr) {

使用Java Jsoup爬取網頁內容（存入本地並從本地讀取）

GetPageInfo獲取資料、存入本地、從本地讀取資料 import lombok.SneakyThrows; import org.jsoup.Connection;

Python使用selenium + headless chrome獲取網頁內容的方法示例

使用python寫爬蟲時，優選selenium，由於PhantomJS因內部原因已經停止更新，最新版的selenium已經使用headless chrome替換掉了PhantomJS，所以建議將selenium更新到最新版，使用selenium + headless chrome

網頁內容 | webContents (webContents) – Electron 中文開發手冊

[ 網頁內容|webContents (webContents) - Electron 中文開發手冊呈現和控制網頁。Process: MainwebContents是一個EventEmitter。它負責渲染和控制網頁，並且是該BrowserWindow物件的屬性。訪問該webContents物件的

java.net.*爬取網頁，Jsoup解析網頁內容

java.net.* 建立網路連線 Jsoup解析網頁內容 package com.sun.util; import java.io.BufferedReader;

PHP獲取網頁內容的7種方法

方法1: 用file_get_contents以get方式獲取內容 PHP <?php $url=\'http://www.domain.com/?para=123\';

WebBrowser、獲取網頁內容、模擬點選、控制元件操作、常用屬性、事件

WebBrowser、獲取網頁內容、模擬點選、控制元件操作、常用屬性、事件獲取值 //獲取普通標籤的值

Spring Mvc 中Controller的開發（Post請求中文亂碼的解決）

Post請求中文亂碼的問題結果控制檯輸出中文亂碼：解決方案：在Spring MVC中預設仍然存在中文亂碼的問題。需要藉助其提供的一個過濾器來處理。

java爬蟲（三）利用HttpClient和Jsoup模擬網頁登陸（無驗證碼）

簡介：注意問題：本文是基於校園資訊門戶進行的實驗，因為使用者名稱密碼需要的涉密，因此文中的程式碼不加修改肯定不能直接執行成功。如果讀者二次開發過程執行程式碼出現問題歡迎與作者聯絡。可以直接留言，也可以

【C#】C#中使用GDAL3（二）：Windows下讀寫Shape檔案及超詳細解決中文亂碼問題

　　轉載請註明原文地址：https://www.cnblogs.com/litou/p/15035790.html 　　本文為《C#中使用GDAL3》的第二篇，總目錄地址：https://www.cnblogs.com/litou/p/15004877.html

PHP讀取檔案,解決中文亂碼UTF-8的方法分析

本文例項講述了PHP讀取檔案,解決中文亂碼UTF-8的方法。分享給大家供大家參考，具體如下：

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

文章中的例子主要借鑑wordColud的examples，在文章對examples中的例子做了一些改動。

Jmeter 解決中文亂碼問題

使用CSV引數化方式，配置檔案，配置檔案編碼為UTF-8 執行指令碼後，檢視結果樹，結果中的中文顯示為亂碼

Linux如何聯網，以及SecureCRT解決中文亂碼問題.

文章目錄前言一、Linux如何聯網1.開啟服務找到以下兩項,手動開啟2.按照圖片操作

GVIM中文亂碼問題（文字及選單亂碼）

Vim是Linux平臺中非常出色的文字編輯器，Gvim編輯器是vim位於Windows平臺的版本，當知道Gvim編輯器開始，我就在Windows安裝了Gvim編輯器。

servlet 解決中文亂碼

目錄1 get請求request亂碼2 post請求request亂碼3 response亂碼4 使用例子 1 get請求request亂碼

Servlet上傳檔案解決中文亂碼問題

技術標籤：Javaservletjava亂碼 <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns="http://xmlns.jcp.org/xml/ns/javaee"

使用commons-fileupload和commons-io上傳檔案和接收欄位和引數（解決引數亂碼）

技術標籤：javajava 之前遇到用commons-fileupload和commons-io 這兩個包來接收表單的資料和檔案就出現各種亂碼和接收不到引數的問題，最終參考了各種資料寫出下面的可行的模板這是註冊商鋪的流程大家可以用自

微信紅包封面故事可展示視訊號內容（ 1 分鐘內視訊），支援更多跳轉

1月21日訊息據微信官方宣佈，紅包封面新增展示視訊號內容，並支援更多跳轉能力。

IDEA properties檔案中文自動轉為ASCII碼（properties輸入中文亂碼問題）

IDEA 的properties檔案中預設是不會將中文轉為ASCII碼的。只需要在File->Settings->File Encodings裡面設定編碼的自動轉變即可，如圖操作：

Jsoup獲取網頁內容（並且解決中文亂碼問題）

相關推薦