MapReduce之--某個使用者在某個位置從某個時刻開始停留了多長時間

阿新 • • 發佈：2018-12-24

package kaoshi831;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 
 *
	資料意義：某個使用者在某個位置從某個時刻開始停留了多長時間
	處理邏輯：
	對同一個使用者，在同一個位置，連續的多條記錄進行合併
	合併原則：開始時間取最早的，停留時長加和
	使用者ID，位置ID，開始時間，停留時長（分鐘）
 *	user_a,location_a,2018-01-01 08:00:00,60
 */
public class GroupSort {
	 
	static class MyMapper extends Mapper<LongWritable, Text, Text, Text>{
		Text outkey = new Text();
		Text outvalue = new Text();
		@Override
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {
			String[] sp = value.toString().split(",");
//			String sb = sp[2].substring(11, 13);
			outkey.set(sp[0]+","+sp[1]);		//key發使用者ID，位置ID
			outvalue.set(sp[2]+","+sp[3]);		//value發開始時間，停留時長（分鐘）
			context.write(outkey, outvalue);
		}
	}
	static class MyReducer extends Reducer<Text, Text, Text, Text>{
		List<String> list = new ArrayList<>();
		Text outvalue = new Text();
		int sum=0;
		@Override
		protected void reduce(Text key,
				Iterable<Text> values, 
				Reducer<Text, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {

			//user_a,location_a,2018-01-01 08:00:00,60
			for(Text v:values){
				String[] sp = v.toString().split(",");
				sum+=Integer.parseInt(sp[1]);
				System.out.println(sp[0]);
				list.add(sp[0]);		//新增到list集合中
			}
			Collections.sort(list);		//對list集合排序（2018-01-01 08:00:00字串也可以排的處理）
			outvalue.set(list.get(0)+"\t"+sum);
			context.write(key, outvalue);
			sum=0;
			list.clear();		//為了保險清理一下快取
		}
	}

	public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
		System.setProperty("HADOOP_USER_NAME", "hadoop");
		Configuration conf=new Configuration();
		Job job=Job.getInstance(conf);
		
		job.setJarByClass(kaoshi831.GroupSort.class);
		
		job.setMapperClass(MyMapper.class);
		job.setReducerClass(MyReducer.class);
		
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);

		FileInputFormat.addInputPath(job, new Path("hdfs://hadoop01:9000/ksin"));
		
		FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf);//建立一個hdfs的檔案系統
		Path path=new Path("hdfs://hadoop01:9000/ksout001");
		if(fs.exists(path)){			//對所在路徑下的檔案清除
			fs.delete(path, true);
		}
		FileOutputFormat.setOutputPath(job,path);
		
		job.waitForCompletion(true);	//列印日誌

	}

}

使用了list集合做排序

在實際的生產中不建議使用，ArrayList底層是陣列

Integer.MAX_VALUE（(2^31)-1）個元素。

當資料量達到50%時效能就會明顯下降

，處理資料有限，對效能影響很大

//執行結果
user_a,location_a	2018-01-01 08:00:00	240
user_a,location_b	2018-01-01 10:00:00	60
user_a,location_c	2018-01-01 08:00:00	180
user_b,location_a	2018-01-01 15:00:00	180

MapReduce 之-- 某個使用者在某個位置從某個時刻開始停留了多長時間--升級版

package kaoshi831; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configurat

MapReduce之--某個使用者在某個位置從某個時刻開始停留了多長時間

package kaoshi831; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.ArrayList; import java.util.

GitChat · 架構 | 從訂單中心開始，聊“多KEY”類業務資料庫水平切分架構實踐

前言本篇講義將以“訂單中心”為例，介紹“多key”類業務，隨著資料量的逐步增大，資料庫效能顯著降低，資料庫水平切分相關的架構實踐。一、什麼是“多key”類業務所謂的“多key”，是指一條元資料中，有多個屬性上存在前臺線上查詢需求。訂單中心業務分析訂單中心是一個非常常見的“多k

窮人如何致富：從1萬賺到100萬究竟需要多長時間？

物慾橫流的世界，金錢總是會讓人眼冒綠光，以金錢為標題難免有譁眾取寵之嫌，身在金融場，天天與銅臭味相伴，談金錢反而比談情說愛更讓自己舒服，所以文章滿是銅臭味，實在羞於登大雅之堂。 <script type="text/javascript" src="http://pag

從訂單中心開始，聊“多KEY”類業務資料庫水平切分架構實踐

有一類“多KEY”特徵的業務，典型代表是“訂單中心”，業務查詢維度會覆蓋order_id/buyer_id/seller_id，這個業務場景，隨著使用者資料量越來越大，資料庫效能顯著降低，如何來對訂單中心業務進行水平切分是本章的重點： “多KEY”類業務的特點與場景。“多

SpringMVC 之 mvc:exclude-mapping 不攔截某個請求

void attribute pack logs context exception 必須 nbsp exce 在使用 SpringMVC 是，配置了一個 Session 攔截器，用於攔截用戶是否登錄，但是用戶訪問登錄頁面和註冊頁面時就不需要攔截了，這時就需要用到這個標簽了

資料庫中某個表中的某個欄位的值是用逗號隔開的多個值，根據逗號拆分並從另一個表中查出資料返回

有兩個表A，B,表結構如下： A表 B表關聯關係說明如下：（1）A.hospital_catalog=B.id （2）A表中hospital_catalog欄位的值是以逗號 “,” 隔開，且兩邊用中括號“[ ]”包起，

動畫 -- 從某個定點開始放大某個檢視

參考： https://blog.csdn.net/yongyinmg/article/details/37927833 https://www.jianshu.com/p/a5cd9ba42bad 從某個定點開始放大某個檢視 - (void)animateApplyToView:(

mysql，實現某個欄位從特定數字開始自增編碼

mysql資料庫使用Navicat工具新建更新SQL，實現某個欄位從特定數字開始自增編碼 set @rownum=10004243; update webdata set AR_ID=( select @rownum := @rownum +1 as nid)； set @r

tableau 如何只從某個維度聚合

其實這個問題展開來講就是在 tableau 中，fixed、include、exclude 的區別。這三個函式的使用方式很相近 {FIXED/INCLUDE/EXCLUDE 維度：需要聚合的值 } 例如： {FIXED [訂單 ID]:SUM([利潤])} FIXED只從要使用的維度聚合

JS倒計時：從某個固定時間開始倒記

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html x

linux怎麼找到oracle的安裝位置？即linux下怎麼找到某個東西的位置？

通過某個檔名稱去查詢，如sqlplus，安裝oracle，肯定會安裝sqlplus。所以找sqlplus的位置，然後，就能找到oracle的安裝位置。用locate 來查詢 locate s

mysql獲取從某個時間到今天的每一天的日期，以及笛卡爾積

1.要獲得從指定日期到今天的每一天的日期 select date_format(assigned_date,’%Y-%m-%d’) assigned_date from (select adddate(‘2014-01-01’,t

Git本地從某個分支上建立新分支以及拉取遠端分支到本地分支

0、在gitlab上建立一個新的遠端分支以後，要先用一下命令來fetch一下該分支： git fetch origin 新建的分支名字 1、本地從當前所在分支上建立一個新分支： git check

查詢列表中某個值的位置（python）

p=list.index(value) list為列表的名字 value為查詢的值 p為value在list的位置 Python3.2.2列表操作總結 list操作：快速建立list、新增item、刪除item、重新賦值item、顛倒item順

vsftpd配置只允許從某個主機訪問

當我們往伺服器上上傳檔案時，如果使用普通使用者登入，就要提供使用者名稱和密碼，這在ftp上是明文傳輸的，顯然不夠安全，一旦被截獲，就可能被利用而進入系統，雖然可以使用SSL加密傳輸，但是這樣一來速度就下降了不少。所以我們就採用限制IP訪問的方式，只允許從某個IP連線進來，然

程式碼實現從某個表中查詢資料插入到另一個表中

前提條件&產生問題原因： 1、由於資料量比較大，又沒有使用hadoop等方式處理資料。所以使用分表的形式。分表的看另一篇文章。 2、然後，需求變了，臥槽～～～需求又變了！！！不用分表了，需要把所有的分表資料，插入到一張表中。當然，這所有表的欄位要求一致。 ///稍

計算從某個日期開始往前或往後天數的日期

基本需求：給出一個日期，可以是當天日期，計算往前N天或者往後N天的日期。給出的演算法基本思路： 1.設定一個基礎日期,比如1901-1-1 2.先算出給定日期和基礎日期之間的天數n 3.往前m天或往後m天，則得到的日期天數n1=n+/- m 4.n1天數用基礎天數做為起點

查找列表中某個值的位置

使用 lis 列表切片切片 spl split方法 idc sign 為什麽 p=list.index(value) list為列表的名字 value為查找的值 p為value在list的位置 ? 以下內容引自：http://www.linuxidc.com/Linux/

如何檢查某個用戶是否具有某個權限

其中哪些 splay auth auto spl dem 問題 cimage 比如下圖這個ABAP development studi裏創建的角色是為了實現CDS view DEMO_CDS_AUTH_LIT_PFCG的權限控制，裏面使用到了權限對象S_CARRID. 假

MapReduce之--某個使用者在某個位置從某個時刻開始停留了多長時間

相關推薦