MapReduce 之-- 某個使用者在某個位置從某個時刻開始停留了多長時間--升級版

阿新 • • 發佈：2018-12-24

package kaoshi831;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable 
;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class MRsort {
    /**
     * 
     *
        資料意義：某個使用者在某個位置從某個時刻開始停留了多長時間
        處理邏輯：
        對同一個使用者，在同一個位置，連續的多條記錄進行合併
        合併原則：開始時間取最早的，停留時長加和
        使用者ID，位置ID，開始時間，停留時長（分鐘）
     *  user_a,location_a,2018-01-01 08:00:00,60
     */ 

    static class MyMapper extends Mapper<LongWritable, Text, SortOwn, Text>{
        private Text mv=new Text();
        private SortOwn so = new SortOwn();
        @Override
        protected void map(LongWritable key,
                Text value, 
                Mapper<LongWritable, Text, SortOwn, Text>.Context 
 context)
                throws IOException, InterruptedException {
            //user_a,location_a,2018-01-01 08:00:00,60
            String[] sp = value.toString().split(",");  //讀取每行的元素   
            so.setUlid(sp[0]+"\t"+sp[1]);           //將欄位，（使用者ID，位置ID，開始時間）新增到包裝類中
            so.setTime(sp[2]);                      //按照，（使用者ID，位置ID）分組，（開始時間）排序
            mv.set(sp[3]);
            context.write(so, mv);
        }
    }
    static class MyReducer extends Reducer<SortOwn,Text , Text, IntWritable>{
        private Text outkey = new Text();
        private IntWritable outvalue= new IntWritable();
        @Override
        protected void reduce(SortOwn key,
                Iterable<Text> values, 
                Context context)
                throws IOException, InterruptedException {
            //user_a,location_a,2018-01-01 08:00:00,60
            int sum=0;  
            for(Text v:values){
                String sp = v.toString();
                sum+=Integer.parseInt(sp);
                System.out.println(key);        //測試key的位置--（包裝類中我將"開始時間"按照倒序排列），所有取最後一個key.getTime();
            }                                   //values是個迭代器，類似指標的遍歷方式
            String k=key.getUlid()+"\t"+key.getTime();
            outkey.set(k);
            outvalue.set(sum);
            context.write(outkey, outvalue);
        }
    }

    public static void main(String[] args) throws IllegalArgumentException, IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
        System.setProperty("HADOOP_USER_NAME", "hadoop");
        Configuration conf=new Configuration();
        Job job=Job.getInstance(conf);

        job.setJarByClass(kaoshi831.MRsort.class);

        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        job.setMapOutputKeyClass(SortOwn.class);
        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //新增分組
        job.setGroupingComparatorClass(MyGroup.class);

        FileInputFormat.addInputPath(job, new Path("hdfs://hadoop01:9000/ksin"));

        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf);
        Path path=new Path("hdfs://hadoop01:9000/ksout01");
        if(fs.exists(path)){
            fs.delete(path, true);
        }
        FileOutputFormat.setOutputPath(job,path);

        job.waitForCompletion(true);

    }

}

//自定義包裝類，實現WritableComparable

package kaoshi831;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class SortOwn implements WritableComparable<SortOwn>{
    //user_a,location_a,2018-01-01 08:00:00,60
    private String ulid;
    private String time;

    @Override
    public String toString() {
        return ulid + "," + time;
    }
    public SortOwn() {
        super();
        // TODO Auto-generated constructor stub
    }
    public String getUlid() {
        return ulid;
    }
    public void setUlid(String ulid) {
        this.ulid = ulid;
    }
    public String getTime() {
        return time;
    }
    public void setTime(String time) {
        this.time = time;
    }
    public SortOwn(String ulid, String time) {
        super();
        this.ulid = ulid;
        this.time = time;
    }
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(ulid);
        out.writeUTF(time);

    }
    @Override
    public void readFields(DataInput in) throws IOException {
        this.ulid=in.readUTF();
        this.time=in.readUTF();
    }
    @Override
    public int compareTo(SortOwn o) {
        int tmp=this.ulid.compareTo(o.ulid);
        if(tmp==0){
            return o.time.compareTo(this.time);//倒序
        }
        return tmp;
    }

}

//自定義分組繼承WritableComparator

package kaoshi831;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class MyGroup extends WritableComparator {
    public MyGroup(){//通過構造載入
        super(SortOwn.class,true);//用反射，載入要分組的類
    }
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        //定義分組條件
        SortOwn sb1=(SortOwn)a;
        SortOwn sb2=(SortOwn)b;
            return sb1.getUlid().compareTo(sb2.getUlid());
    }
}

MapReduce 之-- 某個使用者在某個位置從某個時刻開始停留了多長時間--升級版

package kaoshi831; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configurat

MapReduce之--某個使用者在某個位置從某個時刻開始停留了多長時間

package kaoshi831; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.ArrayList; import java.util.

GitChat · 架構 | 從訂單中心開始，聊“多KEY”類業務資料庫水平切分架構實踐

前言本篇講義將以“訂單中心”為例，介紹“多key”類業務，隨著資料量的逐步增大，資料庫效能顯著降低，資料庫水平切分相關的架構實踐。一、什麼是“多key”類業務所謂的“多key”，是指一條元資料中，有多個屬性上存在前臺線上查詢需求。訂單中心業務分析訂單中心是一個非常常見的“多k

窮人如何致富：從1萬賺到100萬究竟需要多長時間？

物慾橫流的世界，金錢總是會讓人眼冒綠光，以金錢為標題難免有譁眾取寵之嫌，身在金融場，天天與銅臭味相伴，談金錢反而比談情說愛更讓自己舒服，所以文章滿是銅臭味，實在羞於登大雅之堂。 <script type="text/javascript" src="http://pag

從訂單中心開始，聊“多KEY”類業務資料庫水平切分架構實踐

有一類“多KEY”特徵的業務，典型代表是“訂單中心”，業務查詢維度會覆蓋order_id/buyer_id/seller_id，這個業務場景，隨著使用者資料量越來越大，資料庫效能顯著降低，如何來對訂單中心業務進行水平切分是本章的重點： “多KEY”類業務的特點與場景。“多

SpringMVC 之 mvc:exclude-mapping 不攔截某個請求

void attribute pack logs context exception 必須 nbsp exce 在使用 SpringMVC 是，配置了一個 Session 攔截器，用於攔截用戶是否登錄，但是用戶訪問登錄頁面和註冊頁面時就不需要攔截了，這時就需要用到這個標簽了

資料庫中某個表中的某個欄位的值是用逗號隔開的多個值，根據逗號拆分並從另一個表中查出資料返回

有兩個表A，B,表結構如下： A表 B表關聯關係說明如下：（1）A.hospital_catalog=B.id （2）A表中hospital_catalog欄位的值是以逗號 “,” 隔開，且兩邊用中括號“[ ]”包起，

動畫 -- 從某個定點開始放大某個檢視

參考： https://blog.csdn.net/yongyinmg/article/details/37927833 https://www.jianshu.com/p/a5cd9ba42bad 從某個定點開始放大某個檢視 - (void)animateApplyToView:(

mysql，實現某個欄位從特定數字開始自增編碼

mysql資料庫使用Navicat工具新建更新SQL，實現某個欄位從特定數字開始自增編碼 set @rownum=10004243; update webdata set AR_ID=( select @rownum := @rownum +1 as nid)； set @r

tableau 如何只從某個維度聚合

其實這個問題展開來講就是在 tableau 中，fixed、include、exclude 的區別。這三個函式的使用方式很相近 {FIXED/INCLUDE/EXCLUDE 維度：需要聚合的值 } 例如： {FIXED [訂單 ID]:SUM([利潤])} FIXED只從要使用的維度聚合

JS倒計時：從某個固定時間開始倒記

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html x

linux怎麼找到oracle的安裝位置？即linux下怎麼找到某個東西的位置？

通過某個檔名稱去查詢，如sqlplus，安裝oracle，肯定會安裝sqlplus。所以找sqlplus的位置，然後，就能找到oracle的安裝位置。用locate 來查詢 locate s

mysql獲取從某個時間到今天的每一天的日期，以及笛卡爾積

1.要獲得從指定日期到今天的每一天的日期 select date_format(assigned_date,’%Y-%m-%d’) assigned_date from (select adddate(‘2014-01-01’,t

Git本地從某個分支上建立新分支以及拉取遠端分支到本地分支

0、在gitlab上建立一個新的遠端分支以後，要先用一下命令來fetch一下該分支： git fetch origin 新建的分支名字 1、本地從當前所在分支上建立一個新分支： git check

查詢列表中某個值的位置（python）

p=list.index(value) list為列表的名字 value為查詢的值 p為value在list的位置 Python3.2.2列表操作總結 list操作：快速建立list、新增item、刪除item、重新賦值item、顛倒item順

vsftpd配置只允許從某個主機訪問

當我們往伺服器上上傳檔案時，如果使用普通使用者登入，就要提供使用者名稱和密碼，這在ftp上是明文傳輸的，顯然不夠安全，一旦被截獲，就可能被利用而進入系統，雖然可以使用SSL加密傳輸，但是這樣一來速度就下降了不少。所以我們就採用限制IP訪問的方式，只允許從某個IP連線進來，然

程式碼實現從某個表中查詢資料插入到另一個表中

前提條件&產生問題原因： 1、由於資料量比較大，又沒有使用hadoop等方式處理資料。所以使用分表的形式。分表的看另一篇文章。 2、然後，需求變了，臥槽～～～需求又變了！！！不用分表了，需要把所有的分表資料，插入到一張表中。當然，這所有表的欄位要求一致。 ///稍

計算從某個日期開始往前或往後天數的日期

基本需求：給出一個日期，可以是當天日期，計算往前N天或者往後N天的日期。給出的演算法基本思路： 1.設定一個基礎日期,比如1901-1-1 2.先算出給定日期和基礎日期之間的天數n 3.往前m天或往後m天，則得到的日期天數n1=n+/- m 4.n1天數用基礎天數做為起點

查找列表中某個值的位置

使用 lis 列表切片切片 spl split方法 idc sign 為什麽 p=list.index(value) list為列表的名字 value為查找的值 p為value在list的位置 ? 以下內容引自：http://www.linuxidc.com/Linux/

如何檢查某個用戶是否具有某個權限

其中哪些 splay auth auto spl dem 問題 cimage 比如下圖這個ABAP development studi裏創建的角色是為了實現CDS view DEMO_CDS_AUTH_LIT_PFCG的權限控制，裏面使用到了權限對象S_CARRID. 假

MapReduce 之-- 某個使用者在某個位置從某個時刻開始停留了多長時間--升級版

相關推薦