linux下使用awk,wc,sort,uniq,grep對nginx日誌進行分析和統計

阿新 • • 發佈：2019-01-06

通過對awk, wc, uniq, grep, sort等命令的組合，分析nginx的access和error日誌。

統計各種總量、單位時間量。

access.log日誌格式(見下圖）

說明：
a). 按照Tab鍵拆分每項資料
b). 欄位含義（如下說明）
column1：ip_address
column2：log_time
column3：request
column4：status_code
column5：send_bytes
column6：referer

需求一：統計總記錄數，總成功數，各種失敗數：404，403,500

1. 提取總數

思路：拆分原始檔案，找到狀態列，按照不同條件值，分別獲取總數。

a). 使用awk拆分並提取狀態碼列，並保證該列值大於0，並使用wc命令計算總行

wc -l 對結果進行彙總

awk使用-F來指定資料項分隔符。一個字元可是直接使用，比如-F:(英文逗號分隔)，否則應該使用英文‘’將分隔符括起來，比如

-F'\t'。

b). 新增說明資訊

wc -l 的結果作為awk的第一列，所以取$1

2. 提取成功、各種失敗總數

a). 200成功總數

在使用awk時，針對變數使用條件執行過濾

b). 404失敗總數

c). 403失敗總數

d).500失敗總數

需求二：各種錯誤中，哪類URL出現的次數最多，要求剔除重複項，並倒敘給出結果

    思路：
   1). 拆分獲取request和StatusCode
   2). 對request再拆分獲取真實URL
   3). 對URL排序，排重，再計算總數，最後再倒敘給出結果

a). 使用awk得到某類錯誤（status=500）包含request的中間結果。注意request和status之間使用空格連線

b). 針對中間結果再次使用空格進行拆分，獲取request中的URL

當內容預設使用空格或tab來分隔資料項時，使用awk拆分時，不需要使用-F來執行分隔符。

如下面命令中的 awk '{print $2}' 沒有使用-F指定分隔符。

c). 排序、去除重複項

使用sort對結果進行預設排序

使用uniq -c去除重複項並給出計數結果

d). 根據圖上結果，發現重複的URL會被自動計數，但是計數的結果順序是隨機的。我們需要再次針對結果進行排序，使用sort 中的 -k指定列，並指明要求是按照數字的倒敘

去除重複項後，希望對結果進行倒敘

-k指明使用哪一列進行排序，-k1：表示使用第一列進行排序

n指明排序列為數字

r代表使用倒敘

所以-k1nr 代表：要進行排序的第一列請作為數字看待，並且結果要進行倒敘

注意：在去重前，最好先使用sort對結果進行排序，然後才能順利合併。

需求三：要統計URL中檔名出現的次數，結果中要包含Code 和 Referer。但是 URL和 Referer中都包含 / 字元，對於過濾有干擾，嘗試去解決。

    思路：
   1). 先拆分獲取必要資料
   2). 想辦法將URL中檔名之前的部分去除
   3). 然後再排序等

a). 檢視原始檔案內容

使用cat命令檢視原始檔案內容。

b). 獲取必要資訊

由於是\t分隔各個資料項，所以符合預設拆分，不需要-F指明分隔符

c).將URL中檔名之前的部分剔除，但保留referer中的"/"。

這部分重點：使用了sed命令對URL進行過濾，只保留URL中的檔名部分，其餘部分不再要。

本sed命令只對第一列資料進行應用過濾操作。

#.*/$.* $#\1#解釋：

整個內容被#分成兩部分

第一部分（兩個#號中間的內容）.*/$.* $，用來匹配URL中的兩部分內容

比如URL為：/koubei/2012/11/19/60/abc.jpg (注意最後有一個空格)

.*/用來匹配："/koubei/2012/11/19/60/"

$.* $用來匹配："abc.jpg "

第二部分

\1，用來匹配第一部分中()中的內容，即 "檔名.副檔名 "

整個命令的含義是：

將URL替換成檔名

即將 "/koubei/2012/11/19/60/abc.jpg "替換成"abc.jpg "

d). 執行排序

注意這裡要對第一列先進行排序，否則會影響去重。

e).去重

f).倒敘出結果

linux下使用awk,wc,sort,uniq,grep對nginx日誌進行分析和統計

通過對awk, wc, uniq, grep, sort等命令的組合，分析nginx的access和error日誌。統計各種總量、單位時間量。 access.log日誌格式(見下圖）說明： a). 按照Tab鍵拆分每項資料 b). 欄位含義（如下說明）

利用ngxtop工具對nginx日誌實時分析

nginx參考：通過ngxtop實時監控webserver的訪問情況一、部署準備：python2.7.3+、SQLite（否則會報錯）編譯安裝SQLitecd /usr/local/src && wget #下載安裝包，最新安裝包請參考tar xf sqlite-autoconf-323

logstash對nginx日誌進行解析

eat sent bytes list min oat try port log logstash對nginx日誌進行解析過濾轉換等操作；配置可以用於生產環境，架構為filebeat讀取日誌放入redis，logstash從redis讀取日誌後進行操作；對user_agen

利用logrotate對nginx日誌進行切分

1、指令碼如下： /gdsfapps/flgw/logs/nginx/*.log{ missingok dateext notifempty daily rotate 7 sharedscripts postrotate if [ -f /usr/local/nginx/logs/nginx

linux下awk日誌分析

linux 接口記錄 video 文本命令數據分析假設線上倒出的接口訪問日誌有上百行，該日誌的記錄格式如下：/data1/www/logs/archives/170524/170524.v6.weibo.com_10.72.13.113.0.cn.gz:v6.weibo.com 123.12

linux下awk內置函數的使用(split/substr/length)

ref inux ada 聯網 ssi 人力 car sep ron 一、split 初始化和類型強制 awk的內建函數split允許你把一個字符串分隔為單詞並存儲在數組中。你可以自己定義域分隔符或者使用現在FS(域分隔符)的值。格式： spli

文本處理命令- cat more less cut wc sort uniq

app 存在麻煩 several div 註意 class htm .cn 文本處理命令 cat more less cut wc sort uniq 1.cat cat主要功能：1.一次顯示整個文件。 cat filename2.從鍵盤創建一個文件

文本處理工具cat；tac;ver;less;more;head;tail;wc;sort;uniq

cat；tac;ver;less;mo 文本處理工具查看文本的命令：cat tac rev less more head tail tailf ***cat：查看文件內容-A 顯示文本中的所有符號示例： [root@ming app]#

linux下awk的學習

簡介 awk是一個強大的文字分析工具，相對於grep的查詢，sed的編輯，awk在其對資料分析並生成報告時，顯得尤為強大。簡單來說awk就是把檔案逐行的讀入，以空格為預設分隔符將每行切片，切開的部分再進行各種分析處理。 awk有3個不同版本: awk、nawk和gawk，未作特別說明，一般指

linux 下awk 的使用

因為工作需要，自己接觸了並熟悉awk。awk 是一個非常優秀的文字處理工具，用它你可以處理很多問題。標準的格式： awk [ -F re] [parameter...] ['pattern {action}' ] [-f progfile][in_file...] 在介紹

Linux下awk命令詳解

grep 或 egrep 或awk 過濾兩個或多個關鍵詞: grep -E ‘123|abc’ filename // 找出檔案（filename）中包含123或者包含abc的行 egrep ‘123|abc’ filename //用egrep同樣可以實現 awk

Linux下安全證書申請以及配置到Nginx

types .com rman fastcgi light brush inf inux toc wget https://raw.githubusercontent.com/xdtianyu/scripts/master/lets-encrypt/letsencrypt.

Linux下如何查看tomcat是否啟動/系統日誌等

base path 系統後臺 pst 不知道 size class boot 1、在Linux系統下，重啟Tomcat使用命令操作的！方法一：首先，進入Tomcat下的bin目錄 cd /usr/local/tomcat/bin 使用Tomcat關閉

awk '!arr[$0]++'對文件進行處理

linuxawk ‘!arr[$0]++‘後跟文件，可以過濾掉重復的行。如下面的文件經過處理。 [[email protected] ~]# cat fstab # # /etc/fstab # /etc/fstab # /etc/fstab # /etc/fstab # /etc/fstab

linux下檔案的建立時間、訪問時間、修改時間和改變時間

Linux系統中沒有命令可以確切的檢視一個檔案的生成時間，但是可以知道訪問時間，修改時間，改變時間。可以通過stat命令檢視一個檔案的訪問時間，修改時間，改變時間：以下為三個時間的區別： 1、訪問時間（accesstime）：讀取一次檔案的內容，該時間

如何在Linux中使用ls命令按大小對所有檔案進行排序

ls命令是列出目錄內容的最流行且非常有用的命令。在本文中，我們將解釋如何使用ls sort選項按大小列出目錄內容。 1）按大小列出目錄中的檔案（排序）要列出具有大小排序的特定目錄的內容，我們將使用-lS選項和ls命令。它將在頂部顯示最大的檔案。輸出：總用量 60-rw-rw-r--.&nb

Linux下的軟體Mysql完全解除安裝（包括其依賴和庫等殘留檔案）

原文：https://blog.csdn.net/zeng308041977/article/details/75245795 使用yum安裝的時候會自動把依賴包安裝上，但是我們一般解除安裝的時候以為只要刪除之前安裝的那個包就可以了，其實不然。因為你使用yum方式安裝，其依賴包也會被自動

linux下利用 tail命令實時檢視tomcat執行日誌

1、先切換到logs目錄比如：cd /opt/tomcat安裝路徑/logs 2、tail -f catalina.out 3、這樣執行時就可以實時檢視執行日誌了如下： Ctrl+c 是退出tail命令。順便講一下linux中tail命令 tail 命令從指定點

LeetCode：148. Sort List（對連結串列進行排序）

Sort a linked list in O(n log n) time using constant space complexity. Example 1: Input: 4->2->1->3 Output: 1->2->3-

linux下後臺執行python程式並輸出到日誌檔案中。

現有"test_read_pic_and_predict.py"程式要在後臺部署，裡面有輸出內容執行命令： nohup python -u test_read_pic_and_predict.py > test.log 2>&1 &

linux下使用awk,wc,sort,uniq,grep對nginx日誌進行分析和統計

相關推薦