大資料學習之路94-kafka叢集安裝

阿新 • • 發佈：2018-11-09

解壓 Kafka 安裝包

修改配置檔案 config/server.properties

vi  server.properties
broker.id=0	//為依次增長的：0、1、2、3、4，叢集中唯一id
log.dirs=/kafkaData/logs // Kafka 的訊息資料儲存路徑zookeeper.connect=master:2181,slave1:2181,slave2:2181   //zookeeperServers   列表，各節點以逗號分開

Vi  zookeeper.properties
dataDir=/root/zkdata #指向你安裝的zk 的資料儲存目錄

#  將 Kafka server.properties	zookeeper.properties    檔案拷貝到其他節點機器
KAFKA_HOME/config>scp server.properties	zookeeper.properties xx:$PWD

在每臺節點上啟動：

bin/kafka-server-start.sh config/server.properties &

如果我們希望啟動在後臺，並且不把一堆日誌展現在頁面就可以這麼啟動：

bin/kafka-server-start.sh     config/server.properties  >> /var/kafka.log 2>&1 &

接下來我們檢視一下有哪些topic資訊，在預設情況下它沒有任何的topic:

bin/kafka-topics.sh --list --zookeeper localhost:2181

這裡的kafka-topics.sh相當於是一個客戶端，它如果想要看kafka裡面的資訊，就要連線到我們的叢集上。

所以客戶端就要先連線zookeeper才能連線到我們的叢集上。

我們如何使用kafka?其實使用kafka就是往kafka中寫資料和從kafka中讀取資料

我們在往kafka中寫資料之前，首先就要建立一個topic,就像我們在往資料庫中寫資料之前首先要建立一張表一樣。

這個topic其實就是一個分類，以後不同型別的資料寫到不同的topic

接下來我們來建立topic,其實我們在任何一臺機器上建立topic都可以，因為我們在一臺機器上建立，其他的機器會同步。

bin/kafka-topics.sh --create --zookeeper marshal:2181,marshal01:2181,marshal02:2181,
marshal03:2181,marshal04:2181,marshal05:2181 --replication-factor 3 --partitions 1 
--topic test

replication-factor 就是副本因子儲存3份

partitions 就是分割槽

如何刪除topic:

bin/kafka-topics.sh --delete --zookeeper marshal:2181,marshal01:2181,marshal02:2181,
marshal03:2181,marshal04:2181,marshal05:2181 --topic cmcc

生產者向topic中寫入資料：

bin/kafka-console-producer.sh --broker-list marshal:9092,marshal01:9092,marshal02:9092,
marshal03:9092,marshal04:9092,marshal05:9092 --topic test

消費者進行消費：

bin/kafka-console-consumer.sh --zookeeper marshal:2181,marshal01:2181,marshal02:2181,
marshal03:2181,marshal04:2181,marshal05:2181 --topic test --from-beginning

這裡的 --from-beginning就是從最開始讀。如果不加這個，則在消費者程序啟動之前的資料不會被讀到。

我們上面是通過命令列的方式進行消費的，我們還可以通過寫程式的方式來消費。

package com.xiaoniu.kafka;



import kafka.javaapi.producer.Producer;
import kafka.producer.ProducerConfig;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;


import java.util.Properties;

public class ProducerDemo {
    public static void main(String[] args)throws Exception{
        //封裝配置引數
        Properties props = new Properties();
        //kafka的brokers列表
        props.setProperty("bootstrap.servers", "marshal:9092,marshal01:9092,marshal02:9092,marshal03:9092,marshal04:9092,marshal05:9092");
        //key和value的序列化方式，因為需要網路傳輸所以需要序列化
        props.setProperty("key.serializer", StringSerializer.class.getName());
        props.setProperty("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        /**
         * 傳送資料的時候是否需要應答
         * 取值範圍：
         *  [all, -1, 0, 1]
         *  0：leader不做任何應答
         *  1：leader會給producer做出應答
         *  all、-1：fllower->leader -> producer
         * 預設值：
         *  1
         */
        //props.setProperty("acks", "1");

        /**
         * 自定義分割槽
         * 預設值：org.apache.kafka.clients.producer.internals.DefaultPartitioner
         */
        //props.setProperty("partitioner.class", "org.apache.kafka.clients.producer.internals.DefaultPartitioner");

        //建立一個生產者的客戶端例項
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(props);

        int count = 0;
        while (count < 1000) {
            int partitionNum = count % 1;

            //封裝一條訊息
            ProducerRecord record = new ProducerRecord("test", partitionNum,"", count + "");
            //傳送一條訊息
            kafkaProducer.send(record);

            count++;
            Thread.sleep(1 * 1000);
        }
        //釋放
        kafkaProducer.close();
        System.out.println("send End...");

    }
}

package com.xiaoniu.kafka;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.util.Arrays;
import java.util.HashMap;
import java.util.Iterator;

public class ConsumerDemo {
    public static void main(String[] args) {

        HashMap<String, Object> config  = new HashMap<String, Object>();
        config.put("bootstrap.servers", "marshal:9092,marshal01:9092,marshal02:9092,marshal03:9092,marshal04:9092,marshal05:9092");
        config.put("key.deserializer", StringDeserializer.class.getName());
        config.put("value.deserializer", StringDeserializer.class.getName());
        config.put("group.id", "g000001");

        /**
         * 從哪個位置開始獲取資料
         * 取值範圍：
         *  [latest, earliest, none]
         * 預設值：
         *  latest
         */
        config.put("auto.offset.reset", "earliest");
        /**
         * 是否要自動遞交偏移量（offset）這條資料在某個分割槽所在位置的編號
         */
        config.put("enable.auto.commit", false);

        //建立一個消費者客戶端例項
        KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(config);
        //訂閱主題（告訴客戶端從哪個主題獲取資料）
        kafkaConsumer.subscribe(Arrays.asList("test"));

        while (true) {
            //拉去資料， 會從kafka所有分割槽下拉取資料
            ConsumerRecords<String, String> records = kafkaConsumer.poll(2000);
            Iterator<ConsumerRecord<String, String>> iterator = records.iterator();
            while (iterator.hasNext()) {
                ConsumerRecord<String, String> record = iterator.next();
                System.out.println("record = " + record);
            }
        }

        //釋放連線
        //kafkaConsumer.close();
    }
}

我們還可以檢視叢集的狀態：

活躍的分割槽的職責負責讀寫資料，不活躍的分割槽負責同步資料。

大資料學習之路94-kafka叢集安裝

解壓 Kafka 安裝包修改配置檔案 config/server.properties vi server.properties broker.id=0 //為依次增長的：0、1、2、3、4，叢集中唯一id log.dirs=/kafkaData/logs // Kafka

大資料學習之路93-kafka簡介

kafka是實時計算中用來做資料收集的，它是一個訊息佇列。它使用scala開發的。那麼我們就會想我們這裡能不能用hdfs做資料儲存呢？它是分散式的，高可用的。但是它還缺少一些重要的功能：比如說我們往hdfs中寫資料，之後我們需要實時的讀取。當我們讀到某一行的時候斷掉了，假如說這個讀取

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

大資料學習之路98-Zookeeper管理Kafka的OffSet

我們之前的OffSet都是交給broker自己管理的，現在我們希望自己管理。我們可以通過zookeeper進行管理。我們在程式中想要使用zookeeper,那麼就肯定會有api允許我們操作。 new ZKGroupTopicDirs() 注意：這裡使用客戶端的時候導包為：

大資料學習之路96-SparkStreaming整合Kafka

我們前面SparkStreaming獲取資料的來源是TCP,但是平常是不會這麼用的，我們通常用的是Kafka。 SparkStreamingContext是不直接提供對Kafka的訪問的。這個時候就有KafkaUtils 這裡有兩個方法 1.createDirectStream

大資料學習之路87-SparkSQL的執行結果以不同方式寫出,及載入

我們可以將我們之前寫的wordcount的結果寫成各種格式： csv格式：程式碼如下： package com.test.SparkSQL import org.apache.avro.generic.GenericData.StringType import org.apach

大資料學習之路91-Hadoop的高可用

我們之前一直沒有配置過hadoop的高可用，今天我們就來配置一下之前我們的namenode只要一掛，則整個hdfs叢集就完蛋。雖然我們可以通過重啟的方式來恢復，可是我們重啟好之前，我們的hdfs叢集就不能提供服務了。所以它存在單點故障問題。我們可以設定兩臺namenode ,一臺為a

大資料學習之路90-sparkSQL自定義聚合函式UDAF

什麼是UDAF？就是輸入N行得到一個結果，屬於聚合類的。接下來我們就寫一個求幾何平均數的一個自定義聚合函式的例子我們從開頭寫起，先來看看需要進行計算的數如何產生： package com.test.SparkSQL import java.lang import org

大資料學習之路89-sparkSQL自定義函式計算ip歸屬地

使用sparkSQL當遇到業務邏輯相關的時候，就有可能會搞不定。因為業務l邏輯需要寫很多程式碼，呼叫很多介面。這個時候sql就搞不定了。那麼這個時候我們就會想能不能將業務邏輯嵌入到sql中？這種就類似於我們在hive中使用過的自定義函式UDF(user define function使用者

大資料學習之路95-SparkStreaming寫WordCount

程式如下： package com.test.sparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming

大資料學習之路92-sparkSQL整合hive

我們知道sparkSQL跟hive是相容的，他支援hive的元資料庫，sql語法，多種型別的UDF，而且還支援hive的序列化和反序列化方式，意思就是hive寫的自定義函式，spark拿過來就能用。最重要的就是MetaStore元資料庫，以後一旦我們使用hive的Meta

大資料學習之路103-redis的分片代理

哨兵的出現是為了實現主節點的HA,那麼從節點會不會出現問題呢？假如所有的讀取操作都在從節點6380上，那麼6380節點就會很累，而6381節點就會很清閒。這個時候就需要負載均衡，我們這裡的負載均衡需要通過代理伺服器來實現。我們可以將需要訪問的從節點的位置配置在代理伺服器上。

大資料學習之路102-redis的哨兵機制

哨兵的HA會通過修改配置檔案來實現主節點的切換。只有主節點有寫許可權，從節點只能讀。我們接下來實驗一下：首先我們將redis的三個埠的服務啟動起來：然後我們啟動哨兵：接下來我們強制將主節點關掉，看哨兵會做什麼事？我們可以看到此時的

大資料學習之路101-redis的持久化詳解及主從複製

接下來我們配置一下主從結構的星型模型：首先將配置檔案複製3份，然後修改主節點的配置檔案：首先關閉RDB: 然後關閉AOF: 修改第二個配置檔案：先修改埠，他不能和主節點的埠衝突：為了區分是哪個節點打的日誌，我們還需要

大資料學習之路105-視窗函式及foreachRDD,foreachPartition,foreach對比

sparkstreaming的視窗函式：視窗函式的作用主要是計算一段時間之內的資料的變化，那麼就會有人產生疑問，為什麼視窗與視窗之間需要重疊呢？其實不重疊也是可以的，但是如果不重疊的話，將來做出來的報表一個時間段與另一個時間段的資料就會產生劇烈的變化。視窗函式可以讓我們一下子操

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

如何系統規劃大資料學習之路

大資料的領域非常廣泛，往往使想要開始學習大資料及相關技術的人望而生畏。大資料技術的種類眾多，這同樣使得初學者難以選擇從何處下手。。本文將為你開始學習大資料的征程以及在大資料產業領域找到工作指明道路，提供幫助。目前我們面臨的最大挑戰就是根據我們的興趣和技能選定正確的角色。為了解決這個問題，

大資料學習之路-phoenix

1.phoenix安裝 ------------------ 1.安裝phoenix a)下載apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz 下載網址：https://phoenix.apache.org/download.html b)tar

大資料學習之路-Centos6安裝python3.5

Centos 6.8安裝python3.5.2 因為學習所需，需要用到python3.x的環境，目前Linux系統預設的版本都是python2.x的，還有一些自帶的工具需要用到python2.6版本，所以要求的是python3 和 python2 共存，pip2 和** pip3共存，如何安裝

大資料學習之路80-RDD的儲存級別

前面我們說過如果我們想提高spark RDD的執行效率的話，我們可以將常用的RDD cache到記憶體中這樣我們用的話就可以直接拿，執行的效率也會快很多，當然這個cache如果不釋放就會一直佔用記憶體的空間。兩次執行rdd2.count的速度明顯不一樣，第二次的速度會

大資料學習之路94-kafka叢集安裝

相關推薦