最近,小編在知乎上看到這樣一個問題:
無論是例項還是虛擬機器都算,一個運維可以管理4萬台伺服器嗎?
題主:腦子有些懵,我想問問一個人真的可以管理4萬台伺服器嗎?不論是例項還是物理機都算。國內哪些廠商有這麽大規模的伺服器機群和集群?大廠商真的是一個人可以做開發測試上線維護整條流水線嗎?
秉持著和平交流的學習態度,小編精選了幾位知乎網友的精彩回答,分享給大家學習 交流(勿上升、勿引戰):
1號知乎網友:匿名使用者
10年以上老運維,目前管理著近1000台物理機,三機房托管的,每年新增約100台,報廢約20台左右。
以穩定和成本控制為核心,負責IDC上架規劃、網路規劃、裝置采購、上架部署、安裝交付,主要工作如下:
每年底至少花一個月時間做預算,包括IDC租賃、頻寬、專線、裝置需求、過保裝置備件……
裝置硬體故障維護,每月大約30起左右裝置硬體故障,硬碟及記憶體是最多的,其余是主機板、CPU、風扇類。一些重要業務如資料庫類,可能會影響業務。處理步驟目前還沒自動化,打算做,人不夠(在保自動收集日誌送出報修,過保直接發機房維護工單)。
采購上架每季度一次,從發起到交付,耗時耗力,交換機光模組夠不夠?機櫃空間是否可以繼續上架不超電?跳線怎麽盡可能短一點?CPU一直C0機器怎麽分布?錄取CMDB手工資訊有點多……沒有自動化系統,機器類別太多了,後續規範下可能會好很多……
資源管控,申請資源後下發許可權,特殊類監控需求,資源變更,使用跟蹤……沒有自動化,在弄全流程資源管理。
網路類現在有專門網路管理員了,可以不用管了,這部份工作接入的話需要一部份精力。
我還管各類中介軟體,就我一個人管,跑去找領導把中介軟體甩出去了一部份。
就這麽說吧,這麽多規模的機器,僅僅一個硬體故障,晚上電話告警,即使如硬碟故障有RAID不用處理都要累死人。
每個月工時300左右。 如果4W台虛擬機器應該會好一點,不過沒搞過不知道,以前搞過最大規模虛擬機器就3000台,業務比較單一,Puppet搞定了。
2號知乎網友:小鳥呱呱
早些時候不讓招外包,HC又有限,就我和另外一個小兄弟一起幹。
從收到貨以後,到硬體拆卸、機器上架、貼標簽、搞電源、擴容機房、搞空調、裝系統、裝服務、更新叠代、系統版本叠代、監控、報警、日誌都是我倆自己搗鼓的。
可以說從底層的IDC,到系統,到套用都得做,自己還得做運維中台的產品,勉強算得上是全棧運維了。
那個時候,實體伺服器總數是100多、200不到,算系統的話(因為有虛擬機器、docker可以割),大概是500~600台左右,很多資源池裏放著沒用的空閑機器不算。
如果是新機器,那麽100~200台實體機的工作量差不多就飽和了; 如果是老機器,兩人絕對不夠。
為什麽是2個人,不是1個人呢?
做運維的同學都知道一個 「高可用 」 的概念 —— 寫程式碼可以一個人,做產品可以一個人,搞測試也可以一個人, 但運維一定是成雙成對的 :
這不僅僅是搬伺服器一個人扛不動,一摔下去就是幾萬塊的損失;
更重要的是, 運維本身就是應急兜底的,我上個廁所的功夫,外部流量下跌了,沒人應急,那還有誰來處理?
就算打電話給睡著的owner,也得要有人通知才行呀~
後來去大廠做SRE,300個人的大部門。
不管是哪個團隊的SRE,都會被排到值班,搗鼓運維,雅稱:穩定性保障。
兩個大字開頭的部門,外加國際,一個部門docker的總數量平攤到人頭上也 不可能有4W/人,有1W/人就算是不錯了。
就這樣,大家還叫苦連天呢,大半夜的手機都還常常吵醒! 不接,釘釘還會打電話提醒的,可煩了! 也就導致了SRE脾氣普遍不好!
話說話來,要知道,SRE可並不負責機房部份哦, 除了基礎設施的同學以外,大都也只關註套用,已經是少了很多的工作了, 可也hold不住,叫苦不叠……
3號知乎網友:木村·星辰
我一個人管6000台物理機。硬體上什麽部位報警就換什麽,換了不管用就整機送修。
軟體上管到開出指定數量的kvm,或者裝上指定的docker映像。
網路上交換機全是trunk,機器上kvm/docker配置到指定的VLAN裏; 路由器不管,營運商來處理BGP。
機房只掃地不擦灰。
數據遷移有空就自己做,沒空就叫業務部門做或者往後拖,自己做也就打包釋放一下。
上班時間自由,報警72小時內處理好就行,隨便什麽時候去。
4號知乎網友: 三囧
不可能,這個數量的伺服器,單純硬體一個人都管不下來,更別提其他的方面。
4萬台伺服器,加上配套的交換機、路由器、儲存裝置、ups電源、空調、安全裝置、機房防火裝置。 這個裝置的數量是很恐怖的。
就算單台裝置出現問題的機率很小,數量上去以後,出問題幾乎成了必然。僅每天處理硬體問題一個人就搞不定。
每個硬體還有使用壽命,等使用壽命到的時候需要更換。到更換的時候,一個人根本搞不定這個數量。裝置都是一批一批來的,更換也是一批一批的。 讓業務停著等你慢慢換裝置怎麽可能?
這個數量肯定不會是簡單的系統,要過等保吧。要按照等保的要求管理機房,不是簡單的管個裝置能用就行,管理要有制度,要有流程,還要制定安全策略。這些東西就算你是大牛,一個人全能搞定,但是總要花時間的吧,搞一次測評,一兩個月就沒了。你還有時間管其他的?
我覺得那個評論的人是一個管4萬台伺服器的團隊中的一個人。
至於他是不是有許可權管4萬台伺服器,我是不信的,正常的運維不可能把那麽多伺服器全權交給一個人。肯定要分權,不同的人管不同的類別的裝置,動伺服器也要有人審批。
如果說,我是一個管電源的,電源上面插著4萬台伺服器,我也算管了4萬台伺服器的話,那當我沒說。
5號知乎網友: karlestira
4w台物理機?
光是給領導匯報工作都能X死你了。
另外4w台物理機是個什麽概念? 常見的純CPU雙路2U機器都得500w功耗,4w台就是20MW,算上各種UPS、空調、儲存、網路,可能得去到50MW。商業電一度一塊的話這個機房滿載一天就是100w往上的電費。
都這麽大家夥事了,多雇兩個人它不香嗎?
6號知乎網友: zhyllhhaaoo
40台都夠你喝一壺了。
機房的上架,各種跳線……折磨死你。
4w台,一個人??你莫不是在說相聲?
7號知乎網友: 食鐵獸
別管幾台伺服器,4台還是4萬台, 一個人,連5*8的全勤值守都難以保障。
更別說這個人傷病、離職造成的空缺了……
必然要一個有一定魯棒性的團隊!
"一個運維可以管理4萬台伺服器嗎? " 歡迎在留言區交流,分享你的經驗 ~
參考丨 DevOps技術棧 二次整理丨dbaplus社群
來源丨網址:https://www.zhihu.com/question/386653243/answer/2117913692
*僅為提供參考和學習交流,不代表dbaplus社群立場! dbaplus社群歡迎廣大技術人員投稿,投稿信箱:[email protected]