1. 程式人生 > >html頁面索引資料(網頁爬蟲)

html頁面索引資料(網頁爬蟲)

博主第三篇文章

博主自己喜歡倒騰,比較喜歡搞事情,所以這次分享點兒福利給大家哦

多餘的不說,還是看程式碼實際

package com.test.reptile;

import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/**
 * Tips:這裡引入Jsoup jar包哦
 * @author hedong
 */
public class ReptileTest {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String url = "http://www.btanf.com/search/加勒比-first-asc-1";// 這裡的加勒比可以自己隨意更改,具體自己去比對www.btanf.com的get資料
		getString(url);
	}

	public static void getString(String url) {
		try {
			Document doc = null;
			doc = Jsoup.connect(url).timeout(10000).get();// 連結超時設定,自己定義
			List<String> list1 = new ArrayList<>();// 儲存資料,可以存redis,博主不做處理了,你們自己實現吧
			List<String> list2 = new ArrayList<>();// 儲存資料,同上
			// 第一個屬性
			Elements elemp = doc.getElementsByTag("p");// 找到所有p標籤的值,<p>我就是要獲取的值</p>
			Elements elema = doc.getElementsByTag("a");// 道理同上
			for (int i = 0; i < elemp.size(); i++) {// 遍歷,不多解釋
				list1.add(elemp.get(i).text());// text()方法在這裡面算是核心方法吧,可以獲取所有值,可以用下面的方法試試,就能理解了
				// System.out.println(elemp.text());用這個方法試試就知道了
			}
			for (int i = 0; i < elema.size(); i++) {
				if (elema.get(i).text().equals("迅雷連結")) {// 過濾自己想要的資料
					list2.add(elema.get(i).attr("href"));// 獲取標籤裡面的href的值
				}
			}
			// 處理資料並且包裝到類裡面
			List<ReptileBean> list3 = new ArrayList<>();
			for (int i = 0; i < list2.size(); i++) {
				list3.add(new ReptileBean(list1.get(i), list2.get(i)));
			}
			// 列印所有值
			for (ReptileBean reptileBean : list3) {
				System.out.println(reptileBean);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

	}
}
package com.test.reptile;

public class ReptileBean {

	private String arg0;
	private String arg1;
	public String getArg0() {
		return arg0;
	}
	public void setArg0(String arg0) {
		this.arg0 = arg0;
	}
	
	public String getArg1() {
		return arg1;
	}
	public void setArg1(String arg1) {
		this.arg1 = arg1;
	}
	@Override
	public String toString() {
		return "ReptileBean [arg0=" + arg0 + ", arg1=" + arg1 + "]";
	}
	public ReptileBean() {
		super();
	}
	public ReptileBean(String arg0, String arg1) {
		super();
		this.arg0 = arg0;
		this.arg1 = arg1;
	}
}

博主原創,轉載請說明出處

如有問題可聯絡博主[email protected]

相關推薦

html頁面索引資料網頁爬蟲

博主第三篇文章博主自己喜歡倒騰,比較喜歡搞事情,所以這次分享點兒福利給大家哦多餘的不說,還是看程式碼實際package com.test.reptile; import java.util.ArrayList; import java.util.List; import

HTML頁面跳轉重定向的五種方法

<span id="totalSecond">5</span> <script language="javascript" type="text/javascript"> var second = document.getElementById('totalSecon

企業級搜尋引擎Solr 第三章 索引資料Indexing Data

Indexing richer documents       索引對MIDI檔案中的卡拉OK歌詞建索引是個微不足道的例子了。我們只簡單的忽略了所有的內容,然後把它們存到Solr的text域中,不對文件的結構進行任何的處理。       但是其它的文件結構,比如PDF,會更復雜,只是取得文字可能不會得到很好

【python】爬蟲篇:python對於html頁面的解析

我,菜雞,有什麼錯誤,還望大家批評指出!! 前言: 根據自己寫的上一篇文章,我繼續更第二部分的內容,詳情請點選如下連結 【python】爬蟲篇:python連線postgresql(一):https://blog.csdn.net/lsr40/article/details/833118

HTML練習網頁計算器

ext else oos bsp height title action element ntb 1 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.

HTML-頁面布局11月5日

html一、盒子模型:整體的寬=margin-left(right)+padding-left(right)+border+content整體的高=margin-top(bottom)+padding-top(bottom)+border+content二、頁面布局:(1)標準流:按照原先格式排版塊兒元素等一

VC++6.0下基於MFC框架利用CInternetSession和CHttpFile獲取網頁資料附程式碼

例:從網站http://qq.ip138.com/weather/guangdong/GuangZhou.htm獲取近三天的日期、天氣、溫度、風向,程式碼如下: //新增標頭檔案 #include <afxinet.h> //獲取網路資料 void CSensorSysDlg:

asp.net頁面通過Javascript使用CanvasJS.Chart畫曲線,曲線實現動態載入後臺資料通過ajax

頁面程式碼: <html> <head> <script src="jQuery.js" type="text/javascript"></script> <script src="https://canvasjs.com/assets/

利用正則表示式處理爬取的今日頭條內容資料Python爬蟲資料清洗

本次要處理的是抓取的頭條內容,內容如下: content = '''content: '&lt;div&gt;&lt;blockquote&gt;&lt;p&gt;&lt;strong&gt;想要更多科技類資訊,歡迎關注公眾號“

html 頁面實現列印jqprint

使用的一些問題: 出現Cannot read property ‘opera’ of undefined錯誤問題是juqery版本相容問題 解決方法:加入遷移輔助外掛jquery-migrate

一個用Python編寫的股票資料滬深爬蟲和選股策略測試框架

一個股票資料(滬深)爬蟲和選股策略測試框架,資料基於雅虎YQL和新浪財經。 根據選定的日期範圍抓取所有滬深兩市股票的行情資料。 根據指定的選股策略和指定的日期進行選股測試。 計算選股測試實際結果(包括與滬深300指數比較)。 儲存資料到JSON檔案、CS

用Java程式碼從網頁中獲取資料示例程式碼

package com.mashensoft.net; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java

今天用了一下Requests-HTMLPython爬蟲

具體怎麼使用看文件吧,或者GitHub找! 程式碼如下: from requests_html import HTMLSession from datetime import datetim

js點選按鈕更改html頁面的圖片兩個來回換

<!DOCTYPE html> <html> <body> <img id="image" src="111.png" onmousedown="secou

JSP(3):servlet 用同一使用者的不同頁面共享資料session

用同一使用者的不同頁面共享資料:  隱藏表單 這是最常見的一種方式,也是最簡單的,但有時該技巧非常管用:形如: <from action=login> <input type=hidden name=a value=b> </from>

使用 CSS 修改 HTML 預設單選radio和複選框checkbox樣式網頁

HTML 預設的單選和複選框有多醜大家都是有目共睹,所以我們UI設計的小哥哥小姐姐們在設計時候,為了美觀經常會設計一些漂亮的單選或者複選框,這就要求我們前端開發童鞋必須去修改HTML單選複選框的預設樣式,當然修改的方式有很多種,我在這裡展示的是如何用CSS來修改

Android webView載入html頁面不顯示顯示白屏

Android webView載入網頁不顯示(顯示白屏) 最近專案上線後發現了一個bug,某些使用者打不開webView載入的靜態網頁,大部分使用者卻是可以,起初以為是手機原因,後來測試發現,只要是

python3 取頁面指定資料json

開發十年,就只剩下這套架構體系了! >>>   

html特殊字符css3 content

字符 class lan ron ffd display lock ont round 由於偶爾用到,又經常忘記,所以把網上的資料考下來記錄一下。 <!DOCTYPE html> <html lang="en"> <head> <

HTML第四課+CSS基礎

默認 map leg tro 優先 fieldset -h 16進制 aml 回顧 結構標簽 html body head 頭部標簽 meta title link 格式標簽 hn br hr p pre center 列表標簽 ul li ol dl dt