大資料Hadoop 學習心得003 （操作篇）

阿新 • • 發佈：2020-08-18

主要對於Hadoop的MapReduce:

MapReduce:

Map: 解析分發資料

Reduce：執行計算邏輯

例如：DB--sql語句根據地址來從access運算資料（採用分而治之，並非採用單一的節點進行運算，多節點參與運算）

select count(*) from access log group by url;

例如：

A B C D

url1 url1 url1 url1

url2 url2 url2 url2

url3 url3 url3 url3

url4 url4 url4 url4

當進行運算時（多節點分而治之）： count1節點來計算url1

count2節點來計算url2

count3節點來計算url3

count4節點來計算url4

具體程式碼實現上：

public class WordCount{

//分發資料
public static class TokenizerMapper 
extends Mapper<Object,Text,Text,IntWritable>{

 
private final static IntWritable one = new IntWritable(1);
private Text word=new Text();
//核心的Map 解析分析資料
public void map(Object key,Text value,Context context) throws IOExcption,InterruptedException{
//對資料進行切分和資料化
StringTokenizer itr= new StringTokenizer(value.toString());
while(itr.hasMoreTakens()){
word.set（itr.nextToken());
 
//將歸納組隊 相同的Key分成一組（這裡的key為word） value為統計的某個屬性
context.write(word,one);
       }    
    }
}
public static IntSumReduce extends Reduce<Text,IntWritable,Text,IntWritable>{
private IntWritable result=new IntWritable();
public void reduce(Text key,Iterable<IntWritable> values,Context context) 
throws IOException,IntrruptException{
        int sum=0;
        for(IntWritable val:values){
           sum+=val.get();
     }
         result.set(sum);
         context.write(key,result);   
  }
}


public static void main(String[] args){
       Configuration config=new Configuration();
       Job job=Job.getInstance(config,"word count");
       job.setJarByClass(WordCount.class)
           .setMapperClass(Tokenizer.class)
           .setCombinerClass(IntSumReduce.class)
           .setReducerClass(IntSumReduce.class) 
           .setOutputKeyClass(Text.class)
           .setOutputValueClass(IntWritable.class);
     FileInputFormat.addInputPath(job,new Path(args[0]));
     FileOutputFormat.addOutputPath(job,new Path(args[1]));
           System.out.println(job.waitForCompletion(true)?0:1);
   }
 }

大資料Hadoop 學習心得003 （操作篇）

主要對於Hadoop的MapReduce: MapReduce: Map:解析分發資料 Reduce：執行計算邏輯例如：DB--sql語句根據地址來從access運算資料（採用分而治之，並非採用單一的節點進行運算，多節點參與運算）

2020百度大資料競賽-Top3 故事分享（開源連線）新手入門

2020第六屆百度&西安交大大資料競賽暨IKCEST第二屆“一帶一路”國際大資料競賽”

一.關於stl的使用的個人學習和總結（string篇）

STL是Standard Template Library的簡稱，中文名標準模板庫。對於STL的學習，主要是對 string，vector，list，map，set，sort，reverse的使用。

一.關於STL的使用的個人學習和總結（vector篇）

向量 vector 是一種物件實體, 能夠容納許多其他型別相同的元素, 因此又被稱為容器。與string相同, vector 同屬於STL(Standard Template Library, 標準模板庫)中的一種自定義的資料型別, 可以廣義上認為是陣列的增強

36、python併發程式設計之多執行緒（操作篇）

目錄：一 threading模組介紹二開啟執行緒的兩種方式三在一個程序下開啟多個執行緒與在一個程序下開啟多個子程序的區別

34、python併發程式設計之多程序（操作篇）

目錄：一 multiprocessing模組介紹二 Process類的介紹三 Process類的使用四守護程序

大資料機器學習（四）K-近鄰演算法

K-近鄰演算法（K-nearest neighbor，KNN）實質：找k個最近的鄰居，人多取勝（問題是k值該取多少怎麼確定）三個基本要素：

大資料--hive的基礎認識（學習筆記）

一.什麼是hive Hive是基於Hadoop的資料倉庫解決方案。由於Hadoop本身在資料儲存（hdfs）和計算(Map-reduce)方面有很好的可擴充套件性和高容錯性，因此使用Hive構建的資料倉庫也秉承了這些特性。

大資料Hadoop之mapreduce（二）

一、Mapreduce原理分析 1.1maptask執行機制　　（1）首先，讀取資料元件Inputformat（預設為TextInputFormat）會通過getsplit（）方法對對應目錄中的檔案進行邏輯切片，預設128M，一個切片對應一個maptask。

大資料Hadoop-Spark叢集部署知識總結（一）

大資料Hadoop-Spark叢集部署知識總結一、啟動/關閉 hadoop myhadoop.sh start/stop 分步啟動：

[喵咪大資料]Hadoop節點新增下線和磁碟擴容操作

Hadoop絕非一個簡單程式,叢集模式下更是如此,所有的資料都儲存在Hadoop中如果操作不當會存在丟失資料的風險,那麼怎麼在安全的情況,擴容下線維護或者磁碟滿了怎麼增加空間,就是今天的主要內容了.

大資料Hadoop之——Flink Table API 和 SQL（單機Kafka）

目錄一、Table API 和 Flink SQL 是什麼二、配置Table依賴（scala）三、兩種 planner（old & blink）的區別

大資料Hadoop之——搭建本地flink開發環境詳解（window10）

目錄一、下載安裝IDEA 二、搭建本地hadoop環境（window10）三、安裝Maven 四、新建專案和模組

大資料Hadoop之——任務排程器Azkaban（Azkaban環境部署）

目錄一、概述 1）什麼是任務排程？ 2）常見任務排程工具 3）什麼是Azkaban 二、Azkaban 與 Oozie 對比

大資料Hadoop之——基於記憶體型SQL查詢引擎Presto（Presto-Trino環境部署）

目錄一、概述二、Trino特點三、Trino架構 1）架構和服務節點 2）Trino資料模型四、Trino安裝部署

大資料Hadoop之——任務排程器Oozie（Oozie環境部署）

目錄一、概述二、Oozie架構三、Oozie環境部署（Oozie與CDH整合） 1）新增服務 2）將 Oozie 服務新增到 CDH

大資料Hadoop之——資料採集儲存到HDFS實戰（Python版本）

要實現這個示例，必須先安裝好hadoop和hive環境，環境部署可以參考我之前的文章：大資料Hadoop原理介紹+安裝+實戰操作（HDFS+YARN+MapReduce）大資料Hadoop之——資料倉庫Hive

九齒耙(Ninerake)資料採集大資料深度學習智慧分析Python爬蟲軟體的正則表示式規則簡介

正則表示式易於使用，功能強大，可用於複雜的搜尋和替換以及基於模板的文字檢查。這對於輸入形式的使用者輸入驗證特別有用-驗證電子郵件地址等。您還可以從網頁或文件中提取電話號碼，郵政編碼等，在日誌檔案中搜索複

大資料入門學習(Linux)

一、計算機入門知識介紹 1、計算機原理 1.1、馮·諾伊曼結構核心思想：將程式和資料都存放在計算機中，按儲存器的儲存程式首地址執行程式的第一條指令，然後進行資料的處理計算。

大資料入門學習(資料庫)

一、資料庫概述資料庫就是儲存資料的倉庫，其本質是一個檔案系統，資料按照特定的格式將資料儲存起來，使用者可以對資料庫中的資料進行增加，修改，刪除及查詢操作。