1. 程式人生 > >雲計算之路-阿裏雲上:3個manager節點異常造成 docker swarm 集群宕機

雲計算之路-阿裏雲上:3個manager節點異常造成 docker swarm 集群宕機

線索 logs 遇到 log 我們 控制臺 之路 服務 cnblogs

今天 11:29 - 11:39 左右,docker swarm 集群 3 個 manager 節點同時出現異常,造成整個集群宕機,由此給您帶來很大的麻煩,請您諒解。

受此次故障影響的站點有:博問,閃存,班級,園子,短信息,招聘,小組,網摘,新聞,openapi

最近我們剛剛確認我們所有遇到的 docker swarm 不穩定問題都與部分節點的異常狀況有關,即使是一直讓我們非常頭疼的 docker-flow-proxy 路由問題,也是因為路由容器所在的節點出現異常狀況,只要通過阿裏雲控制臺重啟這臺節點服務器,就能恢復正常。

我們的 docker swarm 集群節點部署是這樣的:5臺阿裏雲2核4G服務器作為 manager 節點,1臺阿裏雲4核8G服務器作為 worker 節點。基於這樣的部署,我們想即使部分節點出現異常狀況也不會帶來影響,發現後重啟節點服務器就行了。但沒想到今天3個節點同時出現異常狀況。。。最終通過阿裏雲控制臺重啟這些異常節點後恢復正常。

對於節點的這種異常狀況,我們目前毫無頭緒,不知是我們的應用問題、還是docker的問題、還是阿裏雲服務器的問題,目前唯一的線索是:節點服務器持續運行時間越長,出現異常狀況的概率越高,出現異常狀況後通過阿裏雲控制臺重啟服務器立馬恢復正常。

對於目前無法確定是船的問題、還是集裝箱的問題、還是貨物的問題的困難處境,我們的臨時解決方法是改進對節點服務器的監控,及時發現出現異常狀況的節點進行重啟操作。

更新:根據我們的進一步分析,更保險的臨時解決方法是當發現一個節點出現異常狀況時要重啟所有 manager 節點服務器。

雲計算之路-阿裏雲上:3個manager節點異常造成 docker swarm 集群宕機