1. 程式人生 > >Hive資料倉庫學習(一)之Hive初步認識

Hive資料倉庫學習(一)之Hive初步認識

Hive,資料倉庫,是基於Hadoop的一個數據倉庫工具,它可以將結構化的資料檔案對映在一直資料庫表中,使用HQL(類SQL)開發,是一款很好的離線處理資料工具,在Hadoop中,用來進行離線批處理的事MapReduce,但是MapReduce比較難,新手不太好上手,所以利用Hive,Hive可以將sql語句轉換為mapreduce任務執行,所以既保證了效率,又不會讓新人難以接受,它同MapReduce一樣,不支援實時查詢。

Hive的體系結構如下:

使用者介面,包括 CLI,JDBC/ODBC,WebUI

元資料儲存,通常是儲存在關係資料庫如 mysql, derby 中

Driver:直譯器、編譯器、優化器、執行器

Hadoop:用 HDFS 進行儲存,利用 MapReduce 進行計算

Hive基本資料型別:

Integers(整型數字型別):TINYINT   1 byte、SMALLINT  2 byte、INT   4 byte、BIGINT   8 byte、Boolean 、BOOLEAN 、Floating point numbers(浮點數):FLOAT –單精度、DOUBLE – 雙精度

String type(字串型別):STRING