Redis內存空間簡單分析

阿新 • • 發佈：2018-12-07

試驗調研多條在線行動 utf-8 進入第一個 dump

背景
最近發現項目中用的 redis 內存消耗很大（但是印象中卻以為沒有這麽多的key的內存消耗才對呀？），使用 info 命令可以看到所有key占用的一些內存大小以及key的數量等等，如下圖所示(只截圖了memory和keyspace部分)：

可以發現， info 命令只能看到總的內存大小以及key的數量等。這些對於分析到底哪些或哪類key占用的內存較大是遠遠不夠的！

工具調研
工欲善其事必先利其器！

在各種google搜索之後，發現有一個工具貌似是可以的: redis-rdb-tools 。

於是分頭行動，

讓運維將線上rdb快照文件用scp拷貝到一臺測試機上（畢竟在線上機器上操作是不×××全的）

我需要用最快最幹凈的方式來安裝一下rdb工具，這裏選擇直接在python docker中裝。
分析之路
根據該工具文檔描述 , 可以將 rdb 快照文件轉換為 csv 格式文件：

拿到csv文件後有兩種做法，

直接用python pandas 庫分塊讀取csv文件，可以做一些統計、過濾等操作（幾乎有與等價於sql的api操作方式）。
將csv導入到關系型數據庫，用sql來操作，比較靈活。關於數據庫選型：在試驗過mysql和postgres兩款關系型數據庫後，感觸挺深， mysql單表導入完上面csv中大概3億多條數據後，查詢直接癱瘓！postgres導入數據後依然堅挺（平均一條like 查詢十幾秒左右，還是可以接受的！）。

just try！
rdb 文件轉換為csv
(這裏因為是操作的內部的業務數據，有些數據細節不便公開，僅貼出相關重要命令以及一些踩坑後的經驗方法等)

1. 先運行一個python docker容器(註意將rdb文件掛載進去)

docker run -it -v YOUR_PATH/xxx.rdb:/data/xxx.rdb python bash

2. 安裝rdb tools

pip install rdbtools python-lzf

3. 執行rdb 轉為csv命令 (此過程根據rdb文件大小時間不定)

rdb -c memory /data/xxx.rdb -f memory.csv
上述命令中有些路徑和名稱註意替換為你自己真實的值。

csv 簡單清洗
話說這裏也是個坑來著，在往 postgres 數據庫導入csv數據時，報了一個大概意思是 “實際的列個數和期待的列個數不匹配”錯誤。可能rdb tools在轉換的時候某些行的值有點問題，或者其他bug導致。這裏鑒於有異常的數據條數不多，不用太過於深究，直接用 pandas 簡單清洗一下即可。

相關python代碼如下：

import pandas as pd
import numpy as np

reader = pd.read_csv(‘/xxxx/memory.csv‘, iterator=True,error_bad_lines=False)

loop = True
chunkSize =10000000
chunks=[]

total_bytes=0

while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped.")

df = pd.concat(chunks, ignore_index=True)

df.to_csv(‘/xxx/memory2.csv‘, sep=‘,‘, encoding=‘utf-8‘)
大概解釋下，這裏先讀取csv文件，指定選項 error_bad_lines=False ，則pandas會自動忽略有問題的行。接著用分塊的方式讀完所有內容，最後合並然後寫到新文件。

csv導入postgres
此步驟其實理論上非必須的，上文說到其實可以直接用 pandas 操作csv幾乎可以完成跟sql類似的分析效果。但比較還是直接用sql比較方便，還是導到數據庫來的實惠。

1. 運行postgres docker容器(記得把上面步驟中轉換得到的csv文件掛載進去)

docker run --name postgres -v /xxx/memory2.csv:/memory.csv -d postgres:9.6

2. 進入postgres容器內部 psql shell

docker exec -it postgres psql -U postgres

3. 創建臨時表 (建議是所有字段是用text，否則導入可能會遇到轉型錯誤，第一個字段index是pandas帶進來的，可以導出csv時處理下)

postgres=# create table keys_dump(
index integer,
database text,
type text,
key text,
size_in_bytes text,
encoding text,
num_elements text,
len_largest_element text,
expiry text
);

4. 執行導入csv文件命令

postgres=# COPY keys_dump FROM ‘/memory.csv‘ WITH csv;
sql分析
現在問題會比較簡單了，這裏因為key中涉及到一些實際業務值，下面只是簡單列舉一下比如統計 string 類型的key占用的總內存大小：

select sum(size_in_bytes::int) from keys_dump where type=‘text‘;
諸如此類的sql，根據你的實際場景，比如按key中某關鍵詞進行like查詢:

select sum(size_in_bytes::int) from keys_dump where type=‘text‘ and key like ‘xxxx%‘;
或者來個統計單key大小前10條：

select * from keys_dump order by size_in_bytes::int desc limit 10;
以上sql語句，我自己都試過，在單表3億多的行數中執行，總時間大概10幾到二十幾秒左右，整體速度還是讓人能接受的，畢竟只是做下離線分析。

Redis內存空間簡單分析

試驗調研多條在線行動 utf-8 進入第一個 dump 背景最近發現項目中用的 redis 內存消耗很大（但是印象中卻以為沒有這麽多的key的內存消耗才對呀？），使用 info 命令可以看到所有key占用的一些內存大小以及key的數量等等，如下圖所示(只截圖了me

Redis內存空間簡單分析

1. 先運行一個python docker容器(註意將rdb文件掛載進去)

2. 安裝rdb tools

3. 執行rdb 轉為csv命令 (此過程根據rdb文件大小時間不定)

1. 運行postgres docker容器(記得把上面步驟中轉換得到的csv文件掛載進去)

2. 進入postgres容器內部 psql shell

3. 創建臨時表 (建議是所有字段是用text，否則導入可能會遇到轉型錯誤，第一個字段index是pandas帶進來的，可以導出csv時處理下)

4. 執行導入csv文件命令

Redis內存空間簡單分析

Redis 小白指南（三）- 事務、過期、消息通知、管道和優化內存空間

Redis內存分析工具—redis-rdb-tools

Redis記憶體空間簡單分析

降低Redis內存占用

js內存空間詳細圖解-自己總結

Redis 內存管理與事件處理

Linux與JVM的內存關系分析

jprofiler+Linux+weblogic功能簡介,配置及內存泄漏分析示例

NoSQL數據庫：Redis內存使用優化與存儲

Handler Thread 內部類引起內存泄露分析

可以用軟連接的方式解決linux內存空間不足的問題

美團在Redis上踩過的一些坑-3.redis內存占用飆升(轉載)

.Net 內存對象分析

記一次Java的內存泄露分析

linux 下查看redis內存等占用量

內存地址和內存空間

PCIe to AXI Translation——PCIe 內存空間到AXI內存空間的轉換

Android開發之漫漫長途番外篇——內存泄漏分析與解決

在64位系統下，指向int型的指針占的內存空間多大？

Redis內存空間簡單分析

1. 先運行一個python docker容器(註意將rdb文件掛載進去)

2. 安裝rdb tools

3. 執行rdb 轉為csv命令 (此過程根據rdb文件大小時間不定)

1. 運行postgres docker容器(記得把上面步驟中轉換得到的csv文件掛載進去)

2. 進入postgres容器內部 psql shell

3. 創建臨時表 (建議是所有字段是用text，否則導入可能會遇到轉型錯誤，第一個字段index是pandas帶進來的，可以導出csv時處理下)

4. 執行導入csv文件命令

相關推薦