記一次golang程式CPU高的排查過程

阿新 • • 發佈：2019-12-31

前言

事情的起因是某天CTO突然和我說，生產環境的程式CPU有點高，關鍵是現在也沒什麼負載，同樣的程式碼在開發環境上CPU就低的多了。

不用細說，那一定是有什麼地方出問題了。

CTO還說，他pprof過了，佔用CPU最高的runtime.futex，還發了一篇相關的文章誰佔了該CPU核的30% - 一個較意外的Go效能問題，打趣說沒準系統負載高了，這個問題就沒了。因為原文中寫到：

必須指出，本問題是因為系統空閒沒有goroutine可以排程造成的。顯然的，系統繁忙的時候，即CPU資源真正體現價值時，上述30%的%CPU的overhead並不存在，因為大概率下會有goroutine可供排程，無需去做讓M去sleep這個很重的操作。

然後就把這個鍋就“甩”給我了，讓我研究一下。畢竟開發環境的負載也沒有那麼高，但是CPU卻蠻正常的。

分析

一開始我是沒什麼頭緒，順著CTO提供的線索，搜尋了一些runtime.futex的文章，幾乎所有文章都會提到以下可能會使CPU佔用率高的示例程式碼：

  var ticker = time.NewTicker(100 * time.Millisecond)
    defer ticker.Stop()
    var counter = 0
    for {
        select {
        case <-serverDone:
            return 

        case <-ticker.C:
            counter += 1
        }
    }
複製程式碼

這段程式碼給我指明瞭一些方向，我開始全域性搜尋一些time.NewTicker的程式碼。

巧的是，還真讓我搜到了一些，其中一個ticker的時間設定的很有問題。

options = append(options,metrics.BatchInterval(time.Duration(conf.BatchInterval)))
複製程式碼

這裡的time.Duration(conf.BatchInterval)沒有指定單位，那可就是nano second（納秒）級別的，這ticker的協程跑起來，沒造成死鎖，只能說linux伺服器的效能好。

後來，順藤摸瓜，發現了這個interval其實是promethus的取樣interval，promethus只在生產開啟了，也可以解釋了為什麼同樣的程式碼只在生產上出問題。

解決方法

初步的解決方法很簡單，就是給這個interval加上單位，再略微調大一些就好，而且目前我們並沒有太重視promethus的效能資料，所以也不是很確定50ms的取樣間隔是不是有些過大。

總結

雖說找到了問題的root cause，但還是有值得改進的地方，比如說，如果一開始就先diff生產和開發的程式的配置有哪些不同，說不定可以更快的解決問題。

參考文章

分析golang定時器cpu使用率高的現象

記一次golang程式CPU高的排查過程

前言事情的起因是某天CTO突然和我說，生產環境的程式CPU有點高，關鍵是現在也沒什麼負載，同樣的程式碼在開發環境上CPU就低的多了。

記一次Spring @Transactional失效的排查過程

問題壓力測試時發現生成了相同的序號,根據日誌分析發現select ... for update沒有鎖住某一行的資料,從而導致序號重複

記一次"記憶體洩露"排查過程

問題的發現今天發現線上一個應用記憶體佔用非常高，但它的cpu使用率卻很低

記一次堆外記憶體洩漏排查過程

一、專案介紹 lz_rec_push_kafka_consume該專案通過kafka與演算法進行互動，通過push推薦平臺（lz_rec_push_platform）預生成訊息體。

記一次線上服務CPU 100%的處理過程

告警正在開會，突然釘釘告警聲響個不停，同時市場人員反饋客戶在投訴系統登不進了，報504錯誤。檢視釘釘上的告警資訊，幾臺業務伺服器節點全部報CPU超過告警閾值，達100%。

【Deploy】記一次Linux程式部署（Python與Dotnet Core）

最近一次工作中，涉及python與.net core，應用開發完成，自然就需要在伺服器上部署。

記一次小程式支付開發--thinkphp5.1

上篇記錄了小程式授權登入的介面，這次就直接收尾記錄一下小程式支付，依舊先上文件小程式支付文件

記一次線上伺服器記憶體溢位排查

2019獨角獸企業重金招聘Python工程師標準>>> 首先，這臺伺服器是我們的列印伺服器，使用的是finereport7.0自帶的webreport程式

記一次kafka莫名其妙關閉問題排查

現象： FT走著走著，就沒了；一檢查，發現kafka沒了排查：先復現了一次，拿到server.log

記一次Oracle死鎖/阻塞排查

記一次Oracle死鎖/阻塞排查 Im_Coder關注 2019.01.15 17:59:53字數 269閱讀 2,861 1. 檢查資料庫確定是否真實存在死鎖，若有哪臺機器哪個程式。

記一次Golang結構體與指標的坑點

　　Golang語法簡潔，但是也會因此帶來一些比較難以察覺的坑點　　比如以下程式碼(可直接編譯執行):

記一次釋出/更新npm包的過程及包版本管理

您可以釋出包含package.json檔案的任何目錄。這裡如何首次釋出程式包以及如何在以後更新程式包。

記一次內網建站的過程

背景：一直想搭建個人的部落格，但是買雲伺服器一年動則幾千少則幾百，想到家裡有一臺空閒的筆記本，於是乎想到了內網穿透～

記一次粗淺的釣魚樣本分析過程

0x00 前言一切的一切要從（盤古開天闢地）幾個月前的某大型網安活動期間說起。話說當時一位素未謀面的基友給在下發了一個疑似釣魚的樣本，說是讓我試試看下能不能溯源出攻擊方。於是雖然作為一名萌新，此前也從未接

記一次word轉pdf的開發過程及思考

需求介紹因付費客戶需要，要實現一個批量生成商務檔案pdf的功能，客戶通過excel文件匯入業務資料，要求根據業務資料的編號將不同資料分組，每一組的資料填充生成一個檔案pdf，pdf的模板樣式由客戶提供word版本，最

記一次Linux安裝EMQX服務的過程

背景：近期由於公司專案原因，要接通第三方供應商門禁閘機系統，由公司這邊程式控制閘機的開啟或關閉。於是經過溝通，公司這邊伺服器需要搭建MQTT物聯網服務，實現兩邊資料互通。至於MQTT協議是什麼，感興趣的同學可

一次詭異的記憶體洩露排查過程，背後原因令人深思

每天進步一點點，關注我們哦，每天分享測試技術文章本文章出自【碼同學軟體測試】

記一次伺服器被挖礦處理過程！

記一次伺服器被挖礦處理過程首先利用watch -n 1 nvidia-smi 命令檢視GPU程序時發現幾張顯示卡佔用率都是100%

記一次漫長的藍屏處理過程

2022年5月9日星期一事情前奏一臺神舟K670E-G6E3的膝上型電腦，18年入手一直沒出現過什麼問題。想著用的時間久了清一下灰，換個矽脂。

記一次JAVA程序導致Kubernetes節點CPU飆高的排查與解決

一、發現問題在一次系統上線後，我們發現某幾個節點在長時間執行後會出現CPU持續飆升的問題，導致的結果就是Kubernetes叢集的這個節點會把所在的Pod進行驅逐（排程）；如果排程到同樣問題的節點上，也會出現Pod一直

記一次golang程式CPU高的排查過程

前言

分析

解決方法

總結

參考文章

相關推薦