使用SparkSQL實現根據ip地址計算歸屬地一

阿新 • • 發佈：2018-12-16

之前使用過RDD實現過這個案例，如果不知道可以去參考我寫的博文，這裡要實現的就是在之前那個基礎上進行修改的，具體實現思路就是將ip地址規則和訪問日誌檔案中的資料進行整理然後轉換成DataFrame之後註冊成表，然後寫Sql語句進行Join操作

具體程式碼實現：

package cn.ysjh0014.SparkSql


import cn.ysjh0014.TestIp
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object IpLocationSQL {

  def main(args: Array[String]): Unit = {

    val session: SparkSession = SparkSession.builder().appName("IpLocationSQL").master("local[4]").getOrCreate()

    //取到HDFS中的ip規則
    import session.implicits._
    val rulesLines: Dataset[String] = session.read.textFile(args(0))
    //整理ip規則資料
    val Dept: Dataset[(Long, Long, String)] = rulesLines.map(line => {
      val fields = line.split("[|]")
      val startNum = fields(2).toLong
      val endNum = fields(3).toLong
      val province = fields(6)
      (startNum, endNum, province)
    })
    val ipRulesRdd: DataFrame = Dept.toDF("startNum","endNum","province")


    //建立RDD，讀取訪問日誌
     val accessLines: Dataset[String] = session.read.textFile(args(1))

    //整理資料
    val result : Dataset[Long] = accessLines.map(log => {
      //將log日誌的每一行進行切分
      val fields = log.split("[|]")
      val ip = fields(1)
      //將ip轉換成十進位制
      val ipNum = TestIp.ip2Long(ip)
      ipNum
    })

    val DFResult: DataFrame = result.toDF("ipNum")

    //建立檢視
    val table1: Unit = ipRulesRdd.createTempView("table1")
    val table2: Unit = DFResult.createTempView("table2")

    //寫SQL
    val ys: DataFrame = session.sql("SELECT province,count(*) counts FROM table1 JOIN table2 ON (ipNum>=startNum AND ipNum<=endNum) GROUP BY province ORDER BY counts DESC")

    ys.show()

    session.stop()

  }
}

執行結果：

你執行上邊程式碼的時候會發現很慢，資料量大的時候會更慢，這是因為進行查詢的時候是一條一條資料進行比較的，而沒有使用之前的二分查詢，所以效率不高

使用SparkSQL實現根據ip地址計算歸屬地一

之前使用過RDD實現過這個案例，如果不知道可以去參考我寫的博文，這裡要實現的就是在之前那個基礎上進行修改的，具體實現思路就是將ip地址規則和訪問日誌檔案中的資料進行整理然後轉換成DataFrame之後註冊成表，然後寫Sql語句進行Join操作具體程式碼實現： packa

使用SparkSQL實現根據ip地址計算歸屬地二

在使用SparkSQL實現根據ip地址計算歸屬地一中雖然實現了最終目的，但是當資料量大的時候Join的代價是很大的，因為其他機器上都沒有這個ip地址規則，所以要想進行比較只能從其他機器上拉過來再進行比較，那麼如何進行優化呢，我們通過之前的使用SparkCore中的RDD的操

Spark案例之根據ip地址計算歸屬地一

1.需求根據訪問日誌中的ip地址計算出訪問者的歸屬地，並且按照省份，計算出訪問次數，最後將計算好的結果寫入到Mysql中 2.思路分析 1)整理訪問日誌中的資料，切分出ip欄位，然後將ip欄位轉換成十進位制 2)載入ip地址的規則，取出有用的欄位，然後將

Spark案例之根據ip地址計算歸屬地二

之前的是單機版的根據ip地址計算歸屬地，當資料量小的時候還可以，但是在大資料實際生產中是不行的，必須將它改造成一個Spark程式，然後在Spark叢集上執行 Spark程式和單機版的程式不一樣，下面來仔細分析一下Spark程式的執行流程首先是一個Spark叢集，叢集中有Master和

Spark案例之根據ip地址計算歸屬地四

之前案例三中的ip地址規則是在Driver端的機器磁碟中儲存著的，但是現在如果實在hdfs中儲存著的又該如何實現呢首先要分析清楚才能實現，儲存在hdfs中並不像想象中的那麼容易，首先程式碼實在Driver端寫的，在Driver端寫從hdfs中取出ip地址規則的程式碼會觸發action，然後生成

Spark案例之根據ip地址計算歸屬地三

案例二中已經詳細的通過圖和介紹詳細的說明了在Spark叢集中根據ip地址計算歸屬地並將結果儲存到mysql資料庫中的執行流程，下面就來做具體的實現現在的環境就如案例二中說的一樣，ip地址規則是儲存在Driver端的機器磁碟中，而日誌檔案是儲存在hdfs中，所以現在需要首先在Driver端拿到i

根據ip地址計算歸屬地

package utils import java.sql.DriverManager object UtilsDemo { /** * 定義一個ip轉換的成十進位制 * @param ip * @return */ def ip2Long(ip:Stri

Spark- 根據ip地址計算歸屬地

char task mysql 計算 search 還在變量內存方法主要考察的是廣播變量的使用： 1、將要廣播的數據 IP 規則數據存放在HDFS上，（廣播出去的內容一旦廣播出去產就不能改變了，如果需要實時改變的規則，可以將規則放到Redis中） 2、在Spar

Django2.0結合geoip2模組實現根據ip地址遮蔽異常請求

首先安裝geoip2： sudo pip3 install geoip2 然後下載GeoIP的資料庫： wget http://geolite.maxmind.com/download/geoip

java實現根據ip地址獲取地理位置

記錄學習使用，轉載地址：http://www.jb51.net/article/54287.htm 程式呼叫了“騰訊ip分享計劃”提供的介面，當然也可以改成ip138提供的介面，不過這兩個網站返回的字串格式有些不同，要分別做解析。 public String getAdd

php實現獲取IP地址歸屬地

function getIPLoc_sina($queryIP){ $url = 'http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip='.$queryIP; $ch = cur

根據ip地址和子網掩碼獲取廣播地址的java實現

/** * 獲取廣播地址 * */ public static String getBroadcastAddress(String subnet, String ip) { String[] ips = ip.split("\\."); String[]

IP地址和廣播地址不在一個網段內時根據IP地址和子網掩碼計算廣播地址

看TCP/IP詳解卷1這部大作的時候，看到裡面計算廣播地址的方法，就在自己的機器上測試了一下，結果遇到了一個小困難：我的機器上IP地址和廣播地址不在一個網段：廣播地址就是把IP地址中主機號的那幾位設定為1,可是這裡看起來確實都設定為1了（廣播地址的最後一段為255）

3. nginx + http_geoip_module 實現根據 ip 來做不同的處理

文章目錄安裝 Nginx 安裝 MaxMind 的 GeoIP 庫下載 IP 資料庫配置 Nginx 如果想遮蔽某個地區的 IP 訪問的話，用 iptables 把來自某個國家的 IP 重定向到預定頁

根據IP地址定位城市

java: public class MainActivity extends AppCompatActivity { private TextView mText; private String mIPAddress; @Override prote

前端使用js根據ip地址獲取城市地理位置

根據ip地址定位城市資訊

最近需要一個需求就是根據ip地址獲取使用者的地址資訊,搜尋了網上的方法,有H5定位和呼叫web api介面定位. 相比之下H5要求瀏覽器支援,在移動裝置上可以實現呼叫手機gps獲取位置資訊,精確度很高。web api定位可以定位到城市，相對來說精確度不高,對比了百度,高德,淘寶,新浪的web a

PHP根據IP地址範圍進行重定向

前段時間一個朋友找到我，需要在他的伺服器上實現根據IP地址來限制訪問者，伺服器環境為WIN+PHPStudy，經過查詢資料和測試，成功達到了朋友要求，現在把程式碼分享給大家，非常簡單明瞭，可用性強。 <?php header("Content-type:

根據ip地址獲取地理位置及座標

根據ip獲取地理位置資訊，不用http和webservice介面，減少請求時間。我們可以利用了GeoLite2 庫，GeoLite2 資料庫是一個免費的 IP 地理定位資料庫，GeoLite2 Country 與 City 資料庫在每月的第一個週二更新。GeoLite2 AS

Java 根據 IP 地址來獲取位置 -- 使用 ip2region

首先在 maven 裡面引入 ip2region : <dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId&

使用SparkSQL實現根據ip地址計算歸屬地一

相關推薦