Hive資料倉庫學習(一)之Hive初步認識
阿新 • • 發佈:2018-12-18
Hive,資料倉庫,是基於Hadoop的一個數據倉庫工具,它可以將結構化的資料檔案對映在一直資料庫表中,使用HQL(類SQL)開發,是一款很好的離線處理資料工具,在Hadoop中,用來進行離線批處理的事MapReduce,但是MapReduce比較難,新手不太好上手,所以利用Hive,Hive可以將sql語句轉換為mapreduce任務執行,所以既保證了效率,又不會讓新人難以接受,它同MapReduce一樣,不支援實時查詢。
Hive的體系結構如下:
使用者介面,包括 CLI,JDBC/ODBC,WebUI
元資料儲存,通常是儲存在關係資料庫如 mysql, derby 中
Driver:直譯器、編譯器、優化器、執行器
Hadoop:用 HDFS 進行儲存,利用 MapReduce 進行計算
Hive基本資料型別:
Integers(整型數字型別):TINYINT 1 byte、SMALLINT 2 byte、INT 4 byte、BIGINT 8 byte、Boolean 、BOOLEAN 、Floating point numbers(浮點數):FLOAT –單精度、DOUBLE – 雙精度
String type(字串型別):STRING