java爬蟲爬取網頁資訊

阿新 • • 發佈：2019-01-11

今天接觸到一個專案中非要讓我用爬蟲來爬取一個學校網頁的新聞頁面加子頁面所有文字資訊，畢竟需求就是上帝，然後查詢了一會之後發現並不難就是匹配字元、標籤是有些麻煩

好了直接上pom.xml

<dependency>
      <groupId>org.apache.httpcomponents</groupId>
      <artifactId>httpclient</artifactId>
      <version>4.5.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
    <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.11.3</version>
    </dependency>

還有一個logger的log檔案我感覺沒用就直接給刪掉了

工具類

package com.bing.util;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


import java.io.IOException;

public class joUtil {
    public static void main(String[] args){
        try {
            Document doc = Jsoup.connect("http://soft.zut.edu.cn/") .timeout(60000).get();
            doc.html();
            Element tagElement = doc.getElementsByClass("news").first();
//            String[] str = new String[10];
//            String[] href = new String[10];

            for(int i=0;i<tagElement.getElementsByTag("li").size();i++){
                System.out.println(tagElement.getElementsByTag("li").get(i));
                System.out.println(tagElement.getElementsByTag("a").get(i).attr("href"));
                System.out.println("http://soft.zut.edu.cn/"+tagElement.getElementsByTag("a").get(i).attr("href"));
                Document doc2 = Jsoup.connect("http://soft.zut.edu.cn/"+tagElement.getElementsByTag("a").get(i).attr("href")) .timeout(60000).get();
                doc2.html();

                Elements tagElement2 = doc2.getElementsByClass("v_news_content");
                Elements tagTitle = doc2.getElementsByClass("titlestyle67237");
                System.out.println("子頁面爬取開始---->");
                System.out.println("標題");
                System.out.println(tagTitle.text());
                System.out.println("正文");
                System.out.println(tagElement2.text());
                System.out.println("子頁面爬取結束--->");
//                str[i] = tagElement.getElementsByTag("li").get(i).text();
//                System.out.println("第幾次爬取？");
//                System.out.println(i);
            }
//            for (String s : str) {
//                System.out.println(s);
//            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

}

最後執行

這是一個學校官網的頁面爬取再進行子頁面的新聞資訊爬取直接通過Document的元素操作進行的畢竟第一次接觸還算不錯想要的資訊都爬取出來了大家有更好的方法歡迎艾特我謝謝

java爬蟲爬取網頁資訊

今天接觸到一個專案中非要讓我用爬蟲來爬取一個學校網頁的新聞頁面加子頁面所有文字資訊，畢竟需求就是上帝，然後查詢了一會之後發現並不難就是匹配字元、標籤是有些麻煩好了直接上pom.xml &

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

pom檔案  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

java爬蟲爬取網站資訊儲存資料庫

需求分析 1：爬取虎嗅首頁獲取首頁文章地址：https://www.huxiu.com/ 2：爬取虎嗅分頁地址，獲取分頁上的文章地址。 3：爬取文章詳情頁,獲取文章資訊（標題、正文、作者、釋出時間、評論數、點贊數、收藏數）。 4：將爬到的文章資訊入庫。實現思路 1：爬首頁

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

爬蟲之Scrapy遞迴爬取網頁資訊

# -*- coding: utf-8 -*- import re import scrapy from zhipin.items import ZhipinItem class BossZhipinSpider(scrapy.Spider):

爬蟲（進階），爬取網頁資訊並寫入json檔案

import requests # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re import json from bs4 import BeautifulSoup import copy print('正在爬取網頁連結……'

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

第一週、學會爬取網頁資訊總結

目標：爬取網頁，獲得自己需要的資訊步驟：1. 匯入需要的模組2. 利用request向目標網站獲得網頁資訊3. 用BeautifulSoup解析所獲得的網頁 3. 獲得需要的資訊所在的標籤內容 4. 精簡標籤獲得關鍵資訊5. 獲得關鍵資訊之後，再處理（比如比大小）1、匯入需要的模組BeautifulSoup模

c# 爬蟲爬取商品資訊

在一個小專案中,需要用到京東的所有商品ID,因此就用c#寫了個簡單的爬蟲。在解析HTML中沒有使用正則表示式，而是藉助開源專案HtmlAgilityPack解析HTML。一、下載網頁HTML 首先我們寫一個公共方法用

java爬蟲爬取資源，小白必須會的入門程式碼塊

java作為目前最火的語言之一，他的實用性也在被無數的java語言愛好者逐漸的開發，目前比較流行的爬取資源，用java來做也更簡單一些,下面是爬取網頁上所有手機型號，引數等極為簡便的資料 package day1805; import java.io.IOException; im

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

java程式爬取網頁上的圖片

最近需要在網上找一寫圖片，所以寫了一個爬取圖片的程式，新手有寫的不足之處還請各位大佬指點一二。原始碼如下 package com.sysh.ssm.service; import org.apache.commons.lang3.StringEscapeUtils; i

python爬蟲——爬取網頁的中文

# 爬取網頁的中文內容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #讀取excel def excel(fname):

python 3.3 爬取網頁資訊小例

# -*- coding:gb2312 -*- import urllib.request source_stram = urllib.request.urlopen("http://www.12306.cn/mormhweb/kyfw/") #save_path=

Java爬蟲爬取網易汽車車型庫

最近由於工作需要，寫了一個小的爬蟲，主要用於爬取網易汽車車型庫（http://product.auto.163.com/）上的不同品牌/車標（共175個車標）下不同車系（共1650個系列）的的圖片（各八張）程式碼下載程式碼如下：共CarBra

一個簡單的網路爬蟲---爬取網頁中的圖片

這裡貼上py原始碼,這個爬蟲很簡單，爬取網頁的圖片，通過正則表示式匹配對應的圖片的url 然後下載之，基本上也沒有什麼容錯處理，僅供學習之用 # -*- coding: utf-8 -*- import urllib2 import urllib im

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

java爬蟲爬取美女圖片

前言：抓住國慶假期的小尾巴，分享一波福利。 if (!existUrl(cache, saveUrl)) { //插入資料庫

python根據標籤爬取網頁資訊

這裡以豆瓣TOP250為案例，爬取網頁資訊import requests#python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re from bs4 import B

Python爬蟲---爬取股票資訊

最近開了個股票賬戶，爬取一下300和600開頭的股票資訊，來篩選股票僅僅爬取資訊，不做排序和分析程式碼地址包含的庫 import requests from bs4 import BeautifulSoup import traceback i

java爬蟲 爬取網頁資訊

相關推薦

java爬蟲爬取網頁資訊