html頁面索引資料(網頁爬蟲)
博主第三篇文章
博主自己喜歡倒騰,比較喜歡搞事情,所以這次分享點兒福利給大家哦
多餘的不說,還是看程式碼實際
package com.test.reptile; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; /** * Tips:這裡引入Jsoup jar包哦 * @author hedong */ public class ReptileTest { public static void main(String[] args) { // TODO Auto-generated method stub String url = "http://www.btanf.com/search/加勒比-first-asc-1";// 這裡的加勒比可以自己隨意更改,具體自己去比對www.btanf.com的get資料 getString(url); } public static void getString(String url) { try { Document doc = null; doc = Jsoup.connect(url).timeout(10000).get();// 連結超時設定,自己定義 List<String> list1 = new ArrayList<>();// 儲存資料,可以存redis,博主不做處理了,你們自己實現吧 List<String> list2 = new ArrayList<>();// 儲存資料,同上 // 第一個屬性 Elements elemp = doc.getElementsByTag("p");// 找到所有p標籤的值,<p>我就是要獲取的值</p> Elements elema = doc.getElementsByTag("a");// 道理同上 for (int i = 0; i < elemp.size(); i++) {// 遍歷,不多解釋 list1.add(elemp.get(i).text());// text()方法在這裡面算是核心方法吧,可以獲取所有值,可以用下面的方法試試,就能理解了 // System.out.println(elemp.text());用這個方法試試就知道了 } for (int i = 0; i < elema.size(); i++) { if (elema.get(i).text().equals("迅雷連結")) {// 過濾自己想要的資料 list2.add(elema.get(i).attr("href"));// 獲取標籤裡面的href的值 } } // 處理資料並且包裝到類裡面 List<ReptileBean> list3 = new ArrayList<>(); for (int i = 0; i < list2.size(); i++) { list3.add(new ReptileBean(list1.get(i), list2.get(i))); } // 列印所有值 for (ReptileBean reptileBean : list3) { System.out.println(reptileBean); } } catch (Exception e) { e.printStackTrace(); } } }
package com.test.reptile; public class ReptileBean { private String arg0; private String arg1; public String getArg0() { return arg0; } public void setArg0(String arg0) { this.arg0 = arg0; } public String getArg1() { return arg1; } public void setArg1(String arg1) { this.arg1 = arg1; } @Override public String toString() { return "ReptileBean [arg0=" + arg0 + ", arg1=" + arg1 + "]"; } public ReptileBean() { super(); } public ReptileBean(String arg0, String arg1) { super(); this.arg0 = arg0; this.arg1 = arg1; } }
博主原創,轉載請說明出處
如有問題可聯絡博主[email protected]
相關推薦
html頁面索引資料(網頁爬蟲)
博主第三篇文章博主自己喜歡倒騰,比較喜歡搞事情,所以這次分享點兒福利給大家哦多餘的不說,還是看程式碼實際package com.test.reptile; import java.util.ArrayList; import java.util.List; import
HTML頁面跳轉(重定向)的五種方法
<span id="totalSecond">5</span> <script language="javascript" type="text/javascript"> var second = document.getElementById('totalSecon
企業級搜尋引擎Solr 第三章 索引資料(Indexing Data)
Indexing richer documents 索引對MIDI檔案中的卡拉OK歌詞建索引是個微不足道的例子了。我們只簡單的忽略了所有的內容,然後把它們存到Solr的text域中,不對文件的結構進行任何的處理。 但是其它的文件結構,比如PDF,會更復雜,只是取得文字可能不會得到很好
【python】爬蟲篇:python對於html頁面的解析(二)
我,菜雞,有什麼錯誤,還望大家批評指出!! 前言: 根據自己寫的上一篇文章,我繼續更第二部分的內容,詳情請點選如下連結 【python】爬蟲篇:python連線postgresql(一):https://blog.csdn.net/lsr40/article/details/833118
HTML練習(網頁計算器)
ext else oos bsp height title action element ntb 1 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.
HTML-頁面布局(11月5日)
html一、盒子模型:整體的寬=margin-left(right)+padding-left(right)+border+content整體的高=margin-top(bottom)+padding-top(bottom)+border+content二、頁面布局:(1)標準流:按照原先格式排版塊兒元素等一
VC++6.0下基於MFC框架利用CInternetSession和CHttpFile獲取網頁資料(附程式碼)
例:從網站http://qq.ip138.com/weather/guangdong/GuangZhou.htm獲取近三天的日期、天氣、溫度、風向,程式碼如下: //新增標頭檔案 #include <afxinet.h> //獲取網路資料 void CSensorSysDlg:
asp.net頁面通過Javascript使用CanvasJS.Chart畫曲線,曲線實現動態載入後臺資料(通過ajax)
頁面程式碼: <html> <head> <script src="jQuery.js" type="text/javascript"></script> <script src="https://canvasjs.com/assets/
利用正則表示式處理爬取的今日頭條內容資料(Python爬蟲資料清洗)
本次要處理的是抓取的頭條內容,內容如下: content = '''content: '<div><blockquote><p><strong>想要更多科技類資訊,歡迎關注公眾號“
html 頁面實現列印(jqprint)
使用的一些問題: 出現Cannot read property ‘opera’ of undefined錯誤問題是juqery版本相容問題 解決方法:加入遷移輔助外掛jquery-migrate
一個用Python編寫的股票資料(滬深)爬蟲和選股策略測試框架
一個股票資料(滬深)爬蟲和選股策略測試框架,資料基於雅虎YQL和新浪財經。 根據選定的日期範圍抓取所有滬深兩市股票的行情資料。 根據指定的選股策略和指定的日期進行選股測試。 計算選股測試實際結果(包括與滬深300指數比較)。 儲存資料到JSON檔案、CS
用Java程式碼從網頁中獲取資料(示例程式碼)
package com.mashensoft.net; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java
今天用了一下Requests-HTML庫(Python爬蟲)
具體怎麼使用看文件吧,或者GitHub找! 程式碼如下: from requests_html import HTMLSession from datetime import datetim
js點選按鈕更改html頁面的圖片(兩個來回換)
<!DOCTYPE html> <html> <body> <img id="image" src="111.png" onmousedown="secou
JSP(3):servlet 用同一使用者的不同頁面共享資料(session)
用同一使用者的不同頁面共享資料: 隱藏表單 這是最常見的一種方式,也是最簡單的,但有時該技巧非常管用:形如: <from action=login> <input type=hidden name=a value=b> </from>
使用 CSS 修改 HTML 預設單選(radio)和複選框(checkbox)樣式(網頁版)
HTML 預設的單選和複選框有多醜大家都是有目共睹,所以我們UI設計的小哥哥小姐姐們在設計時候,為了美觀經常會設計一些漂亮的單選或者複選框,這就要求我們前端開發童鞋必須去修改HTML單選複選框的預設樣式,當然修改的方式有很多種,我在這裡展示的是如何用CSS來修改
Android webView載入html頁面不顯示(顯示白屏)
Android webView載入網頁不顯示(顯示白屏) 最近專案上線後發現了一個bug,某些使用者打不開webView載入的靜態網頁,大部分使用者卻是可以,起初以為是手機原因,後來測試發現,只要是
python3 取頁面指定資料(json)
開發十年,就只剩下這套架構體系了! >>>
html特殊字符(css3 content)
字符 class lan ron ffd display lock ont round 由於偶爾用到,又經常忘記,所以把網上的資料考下來記錄一下。 <!DOCTYPE html> <html lang="en"> <head> <
HTML第四課+(CSS基礎)
默認 map leg tro 優先 fieldset -h 16進制 aml 回顧 結構標簽 html body head 頭部標簽 meta title link 格式標簽 hn br hr p pre center 列表標簽 ul li ol dl dt