日誌采集框架Flume

阿新 • • 發佈：2017-09-27

transacti 單元 table 需求解壓數據傳輸取數據 event 事件

概述

Flume是一個分布式、可靠、和高可用的海量日誌采集、聚合和傳輸的系統。
Flume可以采集文件，socket數據包等各種形式源數據，又可以將采集到的數據輸出到HDFS、hbase、hive、kafka等眾多外部存儲系統中
一般的采集需求，通過對flume的簡單配置即可實現
Flume針對特殊場景也具備良好的自定義擴展能力，因此，flume可以適用於大部分的日常數據采集場景

運行機制

1、 Flume分布式系統中最核心的角色是agent，flume采集系統就是由一個個agent所連接起來形成

2、 每一個agent相當於一個數據傳遞員，內部有三個組件：

　　a) Source：采集源，用於跟數據源對接，以獲取數據

　　b) Sink：下沈地，采集數據的傳送目的，用於往下一級agent傳遞數據或者往最終存儲系統傳遞數據

　　c) Channel：angent內部的數據傳輸通道，用於從source將數據傳遞到sink

註意：source 到 Channel 到 Sink之間傳遞數據的形式是Event事件；Event事件是一個數據流單元。

技術分享

Flume采集系統結構圖

1. 簡單結構

單個agent采集數據

技術分享

復雜結構

多級agent之間串聯

技術分享

Flume實戰案例

Flume的安裝部署

1、Flume的安裝非常簡單，只需要解壓即可，當然，前提是已有hadoop環境

上傳安裝包到數據源所在節點上

然後解壓 tar -zxvf apache-flume-1.6.0-bin.tar.gz

然後進入flume的目錄，修改conf下的flume-env.sh，在裏面配置JAVA_HOME

2、根據數據采集的需求配置采集方案，描述在配置文件中(文件名可任意自定義)

3、指定采集方案配置文件，在相應的節點上啟動flume agent

先用一個最簡單的例子來測試一下程序環境是否正常

1、先在flume的conf目錄下新建一個文件

vi netcat-logger.conf

# 定義這個agent中各組件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 描述和配置source組件：r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# 描述和配置sink組件：k1
a1.sinks.k1.type = logger

# 描述和配置channel組件，此處使用是內存緩存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 描述和配置source  channel   sink之間的連接關系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

1、啟動agent去采集數據

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console

-c conf 指定flume自身的配置文件所在目錄

-f conf/netcat-logger.con 指定我們所描述的采集方案

-n a1 指定我們這個agent的名字

1、測試

先要往agent采集監聽的端口上發送數據，讓agent有數據可采

隨便在一個能跟agent節點聯網的機器上

telnet anget-hostname port （telnet localhost 44444）

技術分享

日誌采集框架Flume

transacti 單元 table 需求解壓數據傳輸取數據 event 事件概述 Flume是一個分布式、可靠、和高可用的海量日誌采集、聚合和傳輸的系統。 Flume可以采集文件，socket數據包等各種形式源數據，又可以將采集到的數據輸出到HDFS、hb

Flume+Kafka+Zookeeper搭建大數據日誌采集框架

flume+kafka+zookeeper1. JDK的安裝參考jdk的安裝，此處略。2. 安裝Zookeeper 參考我的Zookeeper安裝教程中的“完全分布式”部分。3. 安裝Kafka 參考我的Kafka安裝教程中的“完全分布式搭建”部分。4. 安裝Flume 參考

Hadoop-Flume日誌采集系統

各類 events exec 外部 lec deb sources 高可用性通信 Flume是Cloudera提供的日誌收集系統，具有分布式、高可靠、高可用性等特點，對海量日誌采集、聚合和傳輸，Flume支持在日誌系統中制定各類數據發送，同時，Flume提供對數據進行簡單

Filebeat 關鍵字多行匹配日誌采集（multiline與include_lines）

filebeat 關鍵字多行匹配日誌采集（multiline與include_lines）很多同事認為filebeat采集日誌不能做到多行處理，今天這裏討論下filebeat的multiline與include_lines。先來個案例，以下日誌，我們只要求采集error的字段，2017/06/22 11:2

Net分布式系統之七：日誌采集系統（1）

高並發 log4 並發自動化發送高可用性微信預警 div 　　日誌對大型應用系統或者平臺尤其重要，系統日誌采集、分析是系統運維、維護及用戶分析的基礎。一、系統日誌分類　　一般系統日誌可分為三大類：　　1、用戶行為日誌：通過采集系統用戶使用系統過程中，一

Net分布式系統之七：日誌采集系統（1）(轉)

常見數據抽取 htm elastics nbsp 調用 res 化運維分布式系統 http://www.cnblogs.com/Andon_liu/p/7508107.html 日誌對大型應用系統或者平臺尤其重要，系統日誌采集、分析是系統運維、維護及用戶分析的基礎。

nxlog 日誌采集

products 接口 pat 環境 epo style linu art fin 主要用於各業務後端服務的日誌采集，windows環境和linux環境都支持。 rpm -ivh http://nxlog.co/system/files/products/files/1/n

《基於插件的日誌采集技術實踐》幻燈片下載

日誌插件OSSIM長期以來，大家在收集華為交換機日誌是往往通過syslog協議轉發的方式，將華為＆思科交換機日誌轉發到日誌收集器上，簡單存儲，但這樣並沒有將日誌標準化，也就是OSSIM中對日誌的歸一化處理，本課程對這種過程進行了詳細分析。 PDF下載地址：　http://down.51cto.com/3509

2018年ElasticSearch6.2.2教程ELK搭建日誌采集分析系統（目錄）

1.2 安裝包接口語句參數配置介紹 ofo 計劃裝包章節一 2018年 ELK課程計劃和效果演示 1、課程安排和效果演示簡介：課程介紹和主要知識點說明，ES搜索接口演示，部署的ELK項目演示章節二 elasticSearch 6.2版本基礎講

2018年ElasticSearch6.2.2教程ELK搭建日誌采集分析系統（教程詳情）

domain 服務器日誌環境解決對比修改 tst 阿裏雲服務們的章節一 2018年 ELK課程計劃和效果演示1、課程安排和效果演示簡介：課程介紹和主要知識點說明，ES搜索接口演示，部署的ELK項目演示es: localhost:9200kibana http:

Hadoop的數據采集框架

ket 靈活異同轉換結構集成使用名稱允許問題導讀： Hadoop數據采集框架都有哪些？ Hadoop數據采集框架異同及適用場景？ Hadoop提供了一個高度容錯的分布式存儲系統，幫助我們實現集中式的數據分析和數據共享。在日常應用中我們比如要將各種數據采集到H

如何用istio實現監控和日誌采集

bec warning alt ply 0ms ima .cn 發送 times 大家都知道istio可以幫助我們實現灰度發布、流量監控、流量治理等一些功能。每一個功能都幫助我們在不同場景中實現不同的業務。那我們Istio是如何幫助我們實現監控和日誌采集的呢？這裏我們依然以

大數據日誌采集系統

通過 ket 進入 src post elastic image alt lec ELK提供了一系列采集方案。但對於從app端過來的日誌，沒有接收模塊。一種方案可以用logstash打開socket端口接收，需要客戶端配合。這裏提供通過http的方案。接收服務器采用spri

Filebeat+Kafka+Logstash+ElasticSearch+Kibana 日誌采集方案

其他 ref 使用上下 htm true bat 目前輕量級前言　　　　Elastic Stack 提供 Beats 和 Logstash 套件來采集任何來源、任何格式的數據。其實Beats 和 Logstash的功能差不多，都能夠與 Elasticsearch 產

日誌資訊收集框架--FLUME基本使用

FLUME的產生背景對於關係型資料庫和HDFS,Hive，等的資料，我們可以使用sqoop將資料進行匯入匯出操作，但對於一些日誌資訊（源端）的定時收集，這種方式顯然不能給予滿足，這時有人會想到使用shell指令碼的定時作業排程將日誌收集出來，但是這種方式在

idou老師教你學Istio 25：如何用istio實現監控和日誌采集

設置時間信息 Kubernete 標準每一個搜索 warning 打印日誌度量標準大家都知道istio可以幫助我們實現灰度發布、流量監控、流量治理等功能。每一個功能都幫助我們在不同場景中實現不同的業務。那Istio是如何幫助我們實現監控和日誌采集的呢？這裏我們依

安裝elk，日誌采集系統

除了修改火墻 elk 配置 cal 命令打開 start #elasticsearch安裝 wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.0.0-linux-x86

Flume采集Nginx日誌到HDFS

write 1.5 utc 日誌 onf 需要 pat sel source 下載apache-flume-1.7.0-bin.tar.gz，用 tar -zxvf 解壓，在/etc/profile文件中增加設置： export FLUME_HOME=/o

Flume 高可用配置案例+load balance負載均衡+ 案例:日誌的采集及匯總

觀察添加啟動服務 failover 分布數據收集 and apach balance 高可用配置案例（一）、failover故障轉移在完成單點的Flume NG搭建後，下面我們搭建一個高可用的Flume NG集群，架構圖如下所示：（1）節點分配

開源數據采集組件比較: scribe、chukwa、kafka、flume

方案來源接口場景 hadoop集群取數據數據源配置角色 thrift 針對每天TB級的數據采集，一般而言，這些系統需要具有以下特征：構建應用系統和分析系統的橋梁，並將它們之間的關聯解耦；支持近實時的在線分析系統和類似於Hadoop之類的離線分析系統；具有

日誌采集框架Flume

概述

運行機制

Flume采集系統結構圖

1. 簡單結構

復雜結構

Flume實戰案例

Flume的安裝部署

相關推薦