hadoop鏈式處理

阿新 • • 發佈：2019-02-07

場景說明：

我們使用hadoop叢集處理文字的時候，如果想要複用之前的mapper，動態靈活的增加或者減少某些業務邏輯就可能會用到。

對於以下的文字，我們只對含有“房價”的單子或者句子感興趣，又想要複用之前的mapper邏輯（word->[word,1]）,對於五次以下的單詞還要過濾掉，我們可以在一次job中解決。

石家莊房價真高啊
石家莊房價真高啊
石家莊房價真高啊
石家莊房價真高啊
石家莊房價還可以吧
石家莊房價還可以吧
石家莊房價還可以吧
石家莊房價還可以吧
石家莊房價太特麼高了
石家莊房價太特麼高了
石家莊房價太特麼高了
石家莊房價太特麼高了
石家莊房價太特麼高了
石家莊房價太特麼高了
石家莊房價太特麼高了
石家莊房價太特麼高了
北京房價便宜
北京房價便宜
北京房價便宜
北京房價便宜
北京房價便宜
北京房價便宜
北京房價便宜
北京房價便宜
北京房價便宜
hello tom
hello tom
hello tom
hello tom
hello tom
hello tom
hello tom
hello tom
hello tom2
hello tom2
hello tom2

mapper1,word->[word,1]

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.StringTokenizer;

/**
 * word count mapper類
 * 第一次map處理
 */
public class WcMapper1 extends Mapper<LongWritable,Text,Text,IntWritable>{

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        Text keyOut = new Text();
        IntWritable valueOut = new IntWritable();
        StringTokenizer tokenizer = new StringTokenizer(value.toString());
        while(tokenizer.hasMoreTokens()){
            keyOut.set(tokenizer.nextToken());
            valueOut.set(1);
            context.write(keyOut,valueOut);
        }
    }
}

mapper2 過濾出含有“房價”的詞

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * word count mapper類
 * 第二次map處理
 */
public class WcMapper2 extends Mapper<Text,IntWritable,Text,IntWritable>{

    @Override
    protected void map(Text key, IntWritable value, Context context) throws IOException, InterruptedException {
        if(key.toString().indexOf("房價") != -1){
            context.write(key,value);
        }
    }
}

reduce 統計

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.Iterator;

/**
 * word count reducer
 */
public class WcReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        Iterator<IntWritable> iterator = values.iterator();
        int count = 0;
        while (iterator.hasNext()){
            count += iterator.next().get();
        }
        context.write(key,new IntWritable(count));
    }
}

reduceMapper 過濾掉5次以下的統計結果

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WcReducerMapper1 extends Mapper<Text,IntWritable, Text, IntWritable> {
    protected void map(Text key, IntWritable value, Context context) throws IOException, InterruptedException {
        if(value.get() > 5){
            context.write(key,value);
        }
    }
}

執行主函式app

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.chain.ChainMapper;
import org.apache.hadoop.mapreduce.lib.chain.ChainReducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WcApp {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","file:///");
        Job job = Job.getInstance(conf);

        //設定job的各種屬性
        job.setJobName("WcChainApp");                        //作業名稱
        job.setJarByClass(WcApp.class);                 //搜尋類
        job.setInputFormatClass(TextInputFormat.class); //設定輸入格式

        //新增輸入路徑
        FileInputFormat.addInputPath(job,new Path("/home/hadoop/chain/fangjia.txt"));
        //設定輸出路徑
        FileOutputFormat.setOutputPath(job,new Path("/home/hadoop/chain/out"));

        //在mapper鏈條上增加Mapper1
        ChainMapper.addMapper(job,WcMapper1.class, LongWritable.class,Text.class,Text.class,IntWritable.class, conf);
        //在mapper鏈條上增加Mapper2
        ChainMapper.addMapper(job,WcMapper2.class, Text.class, IntWritable.class,Text.class,IntWritable.class, conf);

        //在reduce鏈條上設定reduce
        ChainReducer.setReducer(job,WcReducer.class,Text.class,IntWritable.class,Text.class,IntWritable.class,conf);
        //在reduce鏈條上增加Mapper2
        ChainReducer.addMapper(job,WcReducerMapper1.class, Text.class, IntWritable.class,Text.class,IntWritable.class, conf);

        job.setNumReduceTasks(3);                       //reduce個數
        job.waitForCompletion(true);
    }
}

執行結果

//cat part-r-00001
石家莊房價太特麼高了	8
//cat part-r-00002
北京房價便宜	9

使用方式

點開ChainMappeer的原始碼，官方註釋中有：

<p>
 * Using the ChainMapper and the ChainReducer classes is possible to compose
//下面那句話正則的方式說明map要1一個或一個以上，reduce的map要0個或多個
 * Map/Reduce jobs that look like <code>[MAP+ / REDUCE MAP*]</code>. And
 * immediate benefit of this pattern is a dramatic reduction in disk IO.
 * </p>
 * <p>
 * IMPORTANT: There is no need to specify the output key/value classes for the
 * ChainMapper, this is done by the addMapper for the last mapper in the chain.
 * </p>
 * ChainMapper usage pattern:
 * <p>
 * 
 * <pre>
 * ...
 * Job = new Job(conf);
 *
 * Configuration mapAConf = new Configuration(false);
 * ...
 * ChainMapper.addMapper(job, AMap.class, LongWritable.class, Text.class,
 *   Text.class, Text.class, true, mapAConf);
 *
 * Configuration mapBConf = new Configuration(false);
 * ...
//第二個map的輸入時第一個的輸出，每個map都可以有自己的config
 * ChainMapper.addMapper(job, BMap.class, Text.class, Text.class,
 *   LongWritable.class, Text.class, false, mapBConf);
 *
 * ...
 *
 * job.waitForComplettion(true);
 * ...

hadoop鏈式處理

場景說明：我們使用hadoop叢集處理文字的時候，如果想要複用之前的mapper，動態靈活的增加或者減少某些業務邏輯就可能會用到。對於以下的文字，我們只對含有“房價”的單子或者句子感興趣，又想要複用之前的mapper邏輯（word->[word,1]）,對於五次以下的單

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

請求的鏈式處理——責任鏈模式

next return pop extend pri fin 職責人員 spa 什麽是責任鏈模式職責鏈能夠是一條直線、一個環或者一個樹形結構，最常見的職責鏈是直線型。即沿著一條單向的鏈來傳遞請求。鏈上的每個對象都是請求處理者。職責鏈模式能夠將請求的

RxJava如何結合觀察者與鏈式處理

RxJava如何結合觀察者與鏈式處理 Author: Dorae Date: 2018年12月3日17:10:31 轉載請註明出處一、概述首先問自己幾個問題，如果非常清楚這幾個問題的目的與答案，那麼恭喜你，不用繼續往下看了-_-。 RxJava是幹什麼的；鏈式呼叫中當存在

請求的鏈式處理—職責鏈模式

1 採購單的分級審批 Sunny軟體公司承接了某企業SCM(Supply Chain Management，供應鏈管理)系統的開發任務，其中包含一個採購審批子系統。該企業的採購審批是分級進行的，即根據採購金額的不同由不同層次的主管人員來審批，主任可以審

請求的鏈式處理——職責鏈模式（四）

16.4 純與不純的職責鏈模式職責鏈模式可分為純的職責鏈模式和不純的職責鏈模式兩種： (1) 純的職責鏈模式一個純的職責鏈模式要求一個具體處理者物件只能在兩個行為中選

洛谷P3371單源最短路徑Dijkstra版（鏈式前向星處理）

jks 沒有 style bool while add 是什麽最短短路徑首先講解一下鏈式前向星是什麽。簡單的來說就是用一個數組（用結構體來表示多個量）來存一張圖，每一條邊的出結點的編號都指向這條邊同一出結點的另一個編號（怎麽這麽的繞）如下面的程序就是存鏈式前向星。（

不要打破鏈式呼叫！一個極低成本的RxJava全域性Error處理方案

RxJava與CallbackHell 在正式鋪展開本文內容之前，我們先思考一個問題：你認為 RxJava 真的好用嗎,它好用在哪？ CallbackHell，中文翻譯為回撥地獄，在以往沒有依賴RxJava + Retrofit進行網路請求的程式碼中，這

Hadoop 裡MapReduce裡實現多個job任務包含（迭代式、依賴式、鏈式）

一、迭代式，所謂的迭代式，下一個執行的Job任務以上一個Job的輸出作為輸入，最終得到想要的結果。這裡我只寫關鍵的程式碼了 Job job = new Job(new Configuration(),“test”); JobConf jobConf=(JobCon

express中的get post use處理，鏈式操作，封裝中介軟體

1、在express中的get處理表單處理的資料，即伺服器獲取get方式提交的資料，通過req.query獲取提交的資料，格式是json // 客戶端程式碼 <!doctype html> <html> <head>

C++__鏈式棧（練習）

num nbsp private emp ace public int set namespace 鏈式棧 stack.h #ifndef STACK_H_ #define STACK_H_ typedef int data_type; enum STACK_OP

深入了解jQuery之鏈式結構

先來 ret clas return == 所有 .... div tar 本文是在閱讀了Aaron艾倫的jQuery源碼解析(地址：http://www.imooc.com/learn/172)後的個人體會以及筆記。在這裏感謝艾倫老師深入淺出的講解！！ 1 什麽是鏈式？

數據結構學習筆記（二）線性表的順序存儲和鏈式存儲

出錯初始化 node != test span 輸入 des val 線性表：由同類型數據元素構成有序序列的線性結構　　--》表中元素的個數稱為線性表的長度　　--》沒有元素時，成為空表　　--》表起始位置稱表頭，表結束位置稱表尾順序存儲：　　 1 package

第21課線性表的鏈式存儲結構

線性術語雙向鏈表 height 問題 col 方便物理內存 spa 1. 鏈式存儲的特點（1）為了表示每個數據元素與其直接後繼元素之間的邏輯關系；（2）數據元素除了存儲本身的信息外，還需要存儲其直接後繼的信息。（3）避免了順序存儲結構線性表在插入和刪除元素時需要

數據庫-鏈式查詢

參數 avi spl 註釋 attach 鎖機制 max-width attribute function where where方法的用法是ThinkPHP查詢語言的精髓，也是ThinkPHP ORM的重要組成部分和亮點所在，可以完成包括普通查詢、表達式查詢、快捷查詢、區

正則表達式處理srt

字符空白 net 刪除行空行匹配則表達式 magic rip 處理srt的<font color ="" > 所用的正則表達式為 <.*?> 而不是<.*>? 目標： 1 刪除序號行序號行只有一個數字代表scripti

js代碼風格之鏈式結構

div remove show js代碼 next() 縮進 child 結構 rip <div class="box"> 　　<ul class="menu"> 　　　　<li class="level1"> 　　　　　　&

POJ 3349 Snowflake Snow Snowflakes 哈希(鏈式解決沖突)

printf int 存在 ash 循環 cstring ios include 哈希題意:n個數列每個數列6個元素a[i],a[i]<=1e7,兩個數列只要,經過若幹次循環移動能相等則定義為相似.n<=1e5,問n個數列中是否存在兩個數列相似? 每個數列

流式處理框架對比

流式處理處理 ont 調優 cnblogs eve 上線用戶避免分布式流處理是對無邊界數據集進行連續不斷的處理、聚合和分析的過程，與MapReduce一樣是一種通用計算框架，期望延遲在毫秒或者秒級別。這類系統一般采用有向無環圖(DAG)。DAG是任務鏈的圖形化表示

數據結構與算法2-4 堆棧鏈式存儲

數據 erro col free pty spa ret nod 插入鏈表中，只有一端進行插入與刪除在表頭的位置，以避免需要知道實際數據長度結構： typedef struct Node() { ElementType data; struct

hadoop鏈式處理

場景說明：

mapper1,word->[word,1]

mapper2 過濾出含有“房價”的詞

reduce 統計

reduceMapper 過濾掉5次以下的統計結果

執行主函式app

執行結果

使用方式

相關推薦