抓取並解析網頁資料（xml解析、html解析）

阿新 • • 發佈：2019-01-16

網頁有兩種格式，一種是xml另一種是html,目前似乎好像大部分都是html格式的，檢視網頁格式的方法是在瀏覽器中右鍵–>檢視原始碼或者直接F12即可。

一、XML解析

1）DOM解析

DOM(Document Object Mode)是將XML檔案的所有內容以文件樹的方式存在記憶體中，通過節點以及節點之間的關係來解析XML檔案。由於DOM操作會將整個XML檔案存放在記憶體中，所以消耗記憶體大，較大的文件不採用這種方法解析。

2）SAX解析

SAX解析，逐行掃描XML文件，遇到標籤時觸發姐系處理器，採用事件處理的方式解析XML，在讀取文件的同時即可對XML進行處理。可以解析超大XML，但是SAX解析只能讀取XML中的資料，無法對資料進行增刪改

3）PULL解析

PULL解析器是一個開源Java專案，既可用於Android應用也可用於JavaEE程式。Android中集成了PULL解析器，因此，Android中常用的就是PULL解析
此處提供一個xml地址：http://bbs.csdn.net/recommend_tech_topics.atom

使用案例：

此處使用pull解析的方式

需要解析的xml：

 <entry>
    <id>http://bbs.csdn.net/topics/392114349</id>
    <published>2017-03-08T15:51:57+08:00</published 
>
    <updated>2017-12-19T15:04:26+08:00</updated>
    <link rel="alternate" type="text/html" href="http://bbs.csdn.net/topics/392114349"/>
    <title>dubbo下如何使用hibernate的級聯操作</title>
    <summary>dubbo下如何使用hibernate的級聯操作</summary>
    <author>a461666405</author 
>
  </entry>
 <!--部分程式碼，具體點選上面連結 -->

根據xml內容分類建立實體類即可。

新建一個XMLSerivce工具類用來解析xml

public class XMLService {
    // 返回資訊集合
    public static List<Bean> getNewsInfo(InputStream is) throws Exception {
        XmlPullParser parser = Xml.newPullParser(); // 獲取Pull解析器
        parser.setInput(is, "utf-8");
        List<Bean> list = null;
        Bean bean = null;

        // 得到當前事件的型別
        int type = parser.getEventType();

        while (type != XmlPullParser.END_DOCUMENT) {

            switch (type) {
                // XML文件的開始START_DOCUMENT 例如：<?xml version="1.0" encoding="UTF-8"?> 0
                case XmlPullParser.START_DOCUMENT:
                    list = new ArrayList<>();
                    break;
                // XML文件節點開始START_TAG 例如：<entry> 2
                case XmlPullParser.START_TAG:
                    bean = new Bean();
                    if ("entry".equals(parser.getName())) {
                        Log.e("XML", "<ebtry>");


                    } else if ("id".equals(parser.getName())) {
                        String path = parser.nextText();
                        bean.setPath(path);
                        Log.e("XML", "path == " + path + "parse == " + parser.getName());

                    } else if ("published".equals(parser.getName())) {
                        String published = parser.nextText();
                        bean.setPublised(published);
                        Log.e("XML", "published == " + published + "parse == " + parser.getName());

                    } else if ("updated".equals(parser.getName())) {
                        String updtaed = parser.nextText();
                        bean.setUpdated(updtaed);
                        Log.e("XML", "updated == " + updtaed + "parse == " + parser.getName());

                    } else if ("title".equals(parser.getName())) {
                        String title = parser.nextText();
                        bean.setTitle(title);
                        Log.e("XML", "title == " + title + "parse == " + parser.getName());

                    } else if ("summary".equals(parser.getName())) {
                        String summary = parser.nextText();
                        bean.setUpdated(summary);
                        Log.e("XML", "summary == " + summary + "parse == " + parser.getName());

                    } else if ("author".equals(parser.getName())) {
                        String author = parser.nextText();
                        bean.setUpdated(author);
                        Log.e("XML", "author == " + author + "parse == " + parser.getName());

                    }
                    break;
                // XML文件的結束節點 如</entry> 3
                case XmlPullParser.END_TAG:

                    if ("entry".equals(parser.getName())) {
                        Log.e("XML", "解析xml一個節點完成" + parser.getName());

                        // 處理完一個entry標籤
                        list.add(bean);
                        bean = null;
                    }
                    break;
            }
            type = parser.next(); // 解析下一個節點
        }
        return list;
    }
}

在Activity中，

private void pullParseXml(){

        final Message message = new Message();
        beanList = new ArrayList<>();

        new Thread(new Runnable() {
            @Override
            public void run() {

                try {
                    URL url = new URL("http://bbs.csdn.net/recommend_tech_topics.atom");
                    HttpURLConnection conn = (HttpURLConnection) url.openConnection();
                    conn.setRequestMethod("GET");
                    conn.setConnectTimeout(5000);
                    int code = conn.getResponseCode();
                    if (code == 200){
                        Log.e("XML","請求成功");
                        InputStream is = conn.getInputStream();
                        beanList = XMLService.getNewsInfo(is);
                        Log.e("XML",beanList.size()+ "");

                        // 成功獲取資料 給主執行緒發訊息
                        message.what = 3;
                        handler.sendMessage(message);
                    }

                } catch (Exception e) {
                    // 獲取資料失敗，給主執行緒發訊息，處理資料
                    message.what = 4;
                    handler.sendMessage(message);

                    e.printStackTrace();
                }

            }
        }).start();

    }

得到的資料：
pull解析xml

二、Html解析

資料來源來自虎撲體育

虎撲體育原始碼

1）Jsoup

Jsoup 是一款 Java 的 HTML 解析器，可直接解析某個 URL 地址、HTML 文字內容。它提供了一套非常省力的 API，可通過 DOM，CSS 以及類似於 jQuery 的操作方法來取出和操作資料。

Jsoup的主要功能：
1. 從一個 URL，檔案或字串中解析 HTML；
2. 使用 DOM 或 CSS 選擇器來查詢、取出資料；
3. 可操作 HTML 元素、屬性、文字；

——註釋寫在程式碼裡—–

使用前需要匯入Jsoup的jar包，複製jar包AndroidStudio中lib目錄下並右鍵Add As Library。點選下載

使用案例

 private void getDataByJsoup(){

        final NewsInfo newsInfo = new NewsInfo();
        final Message message = new Message();
        newsList.add(newsInfo);

        // 開啟一個新執行緒
        new Thread(new Runnable() {
            @Override
            public void run() {
                try {
                    // 網路載入HTML文件
                    Document doc = Jsoup.connect("https://voice.hupu.com/nba")
                            .timeout(5000) // 設定超時時間
                            .get(); // 使用GET方法訪問URL
                    Elements elements = doc.select("div.list-hd");
                    for (Element element:elements){

                        String title = element.select("a").text(); // 新聞標題
                        String url = element.select("a").attr("href"); // 新聞內容連結
                        newsInfo.setTitle(title);
                        newsInfo.setNewsUrl(url);
                        Log.e("TAG","Jsoup ======>>" + title + url);
                    }
                    Elements elements1 = doc.select("div.otherInfo");
                    for (Element element: elements1){

                        String time = element.select("a").text(); // 時間
                        newsInfo.setNewsTime(time);
                        Log.e("TAG","Jsoup ======>>" + time );

                    }

                    message.what = 1;

                } catch (IOException e) {
                    message.what = 2;
                    e.printStackTrace();
                }
                handler.sendMessage(message);

            }
        }).start();

    }

獲取的資料：

Jsoup獲取的資料

抓取並解析網頁資料（xml解析、html解析）

一、XML解析

1）DOM解析

2）SAX解析

3）PULL解析

使用案例：

二、Html解析

1）Jsoup

使用案例

抓取並解析網頁資料（xml解析、html解析）

網路爬蟲中Fiddler抓取PC端網頁資料包與手機端APP資料包

網頁資料抓取之讀取網頁資料

Java從網路中請求獲取JSon資料以及解析JSON資料----（自創，請註明）

微信小程式聯盟：微信小程式之獲取並解密使用者資料（獲取openId、unionId）

JAVA微信小程式之獲取並解密使用者資料（獲取openId、unionId）

java工具類之Excel檔案匯入、讀取資料（支援xls、和xlsx）

androidstudio怎麼使用DDMS檢視DATABASE資料（最權威、親自實踐）

1、lib7z-Memory從記憶體或網路解壓資料（編譯原始碼、前期準備）

機器學習基礎（三十六）—— 非規整資料（值缺失、異常值）的處理

android 使用epublib開源框架解析epub檔案（章節內容、書籍選單）

使用java開源工具httpClient及jsoup抓取解析網頁資料

Java抓取網頁資料（原網頁+Javascript返回資料）

node.js 小爬蟲抓取網頁資料（2）

Python實例之抓取淘寶商品數據（json型數據）並保存為TXT

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

利用神州靈雲AppTrace抓取到的APP資料反向給做Jmeter介面測試（二）

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

自動抓取並解析一個商品頁

新浪微博爬蟲分享（一天可抓取 1300 萬條資料）

抓取並解析網頁資料（xml解析、html解析）

一、XML解析

1）DOM解析

2）SAX解析

3）PULL解析

使用案例：

二、Html解析

1）Jsoup

使用案例

相關推薦