html頁面索引資料（網頁爬蟲）

阿新 • • 發佈：2019-01-21

博主第三篇文章

博主自己喜歡倒騰，比較喜歡搞事情，所以這次分享點兒福利給大家哦

多餘的不說，還是看程式碼實際

package com.test.reptile;

import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/**
 * Tips:這裡引入Jsoup jar包哦
 * @author hedong
 */
public class ReptileTest {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String url = "http://www.btanf.com/search/加勒比-first-asc-1";// 這裡的加勒比可以自己隨意更改，具體自己去比對www.btanf.com的get資料
		getString(url);
	}

	public static void getString(String url) {
		try {
			Document doc = null;
			doc = Jsoup.connect(url).timeout(10000).get();// 連結超時設定，自己定義
			List<String> list1 = new ArrayList<>();// 儲存資料，可以存redis，博主不做處理了，你們自己實現吧
			List<String> list2 = new ArrayList<>();// 儲存資料，同上
			// 第一個屬性
			Elements elemp = doc.getElementsByTag("p");// 找到所有p標籤的值，<p>我就是要獲取的值</p>
			Elements elema = doc.getElementsByTag("a");// 道理同上
			for (int i = 0; i < elemp.size(); i++) {// 遍歷，不多解釋
				list1.add(elemp.get(i).text());// text()方法在這裡面算是核心方法吧，可以獲取所有值，可以用下面的方法試試，就能理解了
				// System.out.println(elemp.text());用這個方法試試就知道了
			}
			for (int i = 0; i < elema.size(); i++) {
				if (elema.get(i).text().equals("迅雷連結")) {// 過濾自己想要的資料
					list2.add(elema.get(i).attr("href"));// 獲取標籤裡面的href的值
				}
			}
			// 處理資料並且包裝到類裡面
			List<ReptileBean> list3 = new ArrayList<>();
			for (int i = 0; i < list2.size(); i++) {
				list3.add(new ReptileBean(list1.get(i), list2.get(i)));
			}
			// 列印所有值
			for (ReptileBean reptileBean : list3) {
				System.out.println(reptileBean);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

	}
}

package com.test.reptile;

public class ReptileBean {

	private String arg0;
	private String arg1;
	public String getArg0() {
		return arg0;
	}
	public void setArg0(String arg0) {
		this.arg0 = arg0;
	}
	
	public String getArg1() {
		return arg1;
	}
	public void setArg1(String arg1) {
		this.arg1 = arg1;
	}
	@Override
	public String toString() {
		return "ReptileBean [arg0=" + arg0 + ", arg1=" + arg1 + "]";
	}
	public ReptileBean() {
		super();
	}
	public ReptileBean(String arg0, String arg1) {
		super();
		this.arg0 = arg0;
		this.arg1 = arg1;
	}
}

博主原創，轉載請說明出處

如有問題可聯絡博主[email protected]

html頁面索引資料（網頁爬蟲）

博主第三篇文章博主自己喜歡倒騰，比較喜歡搞事情，所以這次分享點兒福利給大家哦多餘的不說，還是看程式碼實際package com.test.reptile; import java.util.ArrayList; import java.util.List; import

HTML頁面跳轉（重定向）的五種方法

<span id="totalSecond">5</span> <script language="javascript" type="text/javascript"> var second = document.getElementById('totalSecon

企業級搜尋引擎Solr 第三章索引資料（Indexing Data）

Indexing richer documents 索引對MIDI檔案中的卡拉OK歌詞建索引是個微不足道的例子了。我們只簡單的忽略了所有的內容，然後把它們存到Solr的text域中，不對文件的結構進行任何的處理。但是其它的文件結構，比如PDF，會更復雜，只是取得文字可能不會得到很好

【python】爬蟲篇：python對於html頁面的解析（二）

我，菜雞，有什麼錯誤，還望大家批評指出！！前言：根據自己寫的上一篇文章，我繼續更第二部分的內容，詳情請點選如下連結【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/833118

HTML練習（網頁計算器）

ext else oos bsp height title action element ntb 1 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.

HTML-頁面布局（11月5日）

html一、盒子模型：整體的寬=margin-left（right）+padding-left（right）+border+content整體的高=margin-top（bottom）+padding-top（bottom）+border+content二、頁面布局：（1）標準流：按照原先格式排版塊兒元素等一

VC++6.0下基於MFC框架利用CInternetSession和CHttpFile獲取網頁資料（附程式碼）

例：從網站http://qq.ip138.com/weather/guangdong/GuangZhou.htm獲取近三天的日期、天氣、溫度、風向，程式碼如下： //新增標頭檔案 #include <afxinet.h> //獲取網路資料 void CSensorSysDlg:

asp.net頁面通過Javascript使用CanvasJS.Chart畫曲線，曲線實現動態載入後臺資料（通過ajax）

頁面程式碼： <html> <head> <script src="jQuery.js" type="text/javascript"></script> <script src="https://canvasjs.com/assets/

利用正則表示式處理爬取的今日頭條內容資料（Python爬蟲資料清洗）

本次要處理的是抓取的頭條內容，內容如下： content = '''content: '<div><blockquote><p><strong>想要更多科技類資訊，歡迎關注公眾號“

html 頁面實現列印（jqprint）

使用的一些問題：出現Cannot read property ‘opera’ of undefined錯誤問題是juqery版本相容問題解決方法：加入遷移輔助外掛jquery-migrate

一個用Python編寫的股票資料（滬深）爬蟲和選股策略測試框架

一個股票資料（滬深）爬蟲和選股策略測試框架，資料基於雅虎YQL和新浪財經。根據選定的日期範圍抓取所有滬深兩市股票的行情資料。根據指定的選股策略和指定的日期進行選股測試。計算選股測試實際結果（包括與滬深300指數比較）。儲存資料到JSON檔案、CS

用Java程式碼從網頁中獲取資料（示例程式碼）

package com.mashensoft.net; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java

今天用了一下Requests-HTML庫（Python爬蟲）

具體怎麼使用看文件吧，或者GitHub找！程式碼如下： from requests_html import HTMLSession from datetime import datetim

js點選按鈕更改html頁面的圖片（兩個來回換）

<!DOCTYPE html> <html> <body> <img id="image" src="111.png" onmousedown="secou

JSP(3):servlet 用同一使用者的不同頁面共享資料（session）

用同一使用者的不同頁面共享資料：隱藏表單這是最常見的一種方式，也是最簡單的，但有時該技巧非常管用：形如： <from action=login> <input type=hidden name=a value=b> </from>

使用 CSS 修改 HTML 預設單選（radio）和複選框（checkbox）樣式（網頁版）

HTML 預設的單選和複選框有多醜大家都是有目共睹，所以我們UI設計的小哥哥小姐姐們在設計時候，為了美觀經常會設計一些漂亮的單選或者複選框，這就要求我們前端開發童鞋必須去修改HTML單選複選框的預設樣式，當然修改的方式有很多種，我在這裡展示的是如何用CSS來修改

Android webView載入html頁面不顯示（顯示白屏）

Android webView載入網頁不顯示（顯示白屏）最近專案上線後發現了一個bug，某些使用者打不開webView載入的靜態網頁，大部分使用者卻是可以，起初以為是手機原因，後來測試發現，只要是

python3 取頁面指定資料（json）

開發十年，就只剩下這套架構體系了！ >>>

html特殊字符（css3 content）

字符 class lan ron ffd display lock ont round 由於偶爾用到，又經常忘記，所以把網上的資料考下來記錄一下。 <!DOCTYPE html> <html lang="en"> <head> <

HTML第四課+（CSS基礎）

默認 map leg tro 優先 fieldset -h 16進制 aml 回顧結構標簽 html body head 頭部標簽 meta title link 格式標簽 hn br hr p pre center 列表標簽 ul li ol dl dt

html頁面索引資料（網頁爬蟲）

相關推薦