系統管理的HA抉擇

蔡長欣Chris Tsai

  • 恆逸教育訓練中心-資深講師
  • 技術分類:網路管理與通訊應用

 

 

近幾年與企業客戶,在許多顧問的工作場合裡談需求時,發現許多企業客戶開始對提供24x7x365的服務策略,開始從早年的只是空談,轉而到近期著重的該怎麼用。而其實許多系統管理面的框架,一旦沒設計好,這時候許多問題都會跟著發散,也讓許多企業的管理員為解決問題,不得不先以頭痛醫頭、腳痛醫腳的解決方案,雖不能對症下藥,但至少先緩解問題。

但所謂外行看熱鬧,內行看門道:我舉個例子:不管是Red Hat Linux,或是Microsoft,軟體是人寫的,多多少少都有漏洞或弱點發生,都得面對資安弱掃時的問題。像下列圖檔,就是以Apache的WebServer套件為例,在知名弱掃工具Nessus進行弱點掃描後出的報告內容,我先針對上述的WebServer服務,將弱掃結果有關的一頁列出:

各位讀者可在圖檔中清楚的看到:需多WebServer提供的功能,被Nessus軟體認為有資安風險疑慮的,就會被標註CVE(圖檔中有用紅色方框標記的),就是目前該WebServer有問題,該修正的部分。 問題來了,假如該WebServer服務,如先前所言,得提供24x7x365對外的不間斷服務,也因一定要更新,方能避免萬一漏洞被駭客攻擊成功,衍生更麻煩問題。但如果系統更新後,提示使用者需要重新開機方能生效,這時企業若僅使用一台機器來提供服務,就會因重新開機套用更新,就沒辦法滿足24x7x365的服務策略。而且,萬一機器重新開機前沒問題,一旦重新開機後,機器再也無法啟動正常,上述實例都是可能發生的,也都需要兩台以上機器來提供服務,避免萬一發生單點失效SPOF(Single Point Of Failure)的問題。

所以,企業客戶準備叢集主機(兩台以上),搭配叢集軟體(例如:Red Hat的Pacemaker、Red Hat Cluster Suite,VMware的Cluster,Microsoft的MSFC),就可以滿足24x7x365的需求。只要將需要更新的機器的服務,交換工作讓另一台主機承接,就可滿足服務繼續跑,但管理的維運可照常進行,這是所有企業客戶的管理所希冀達到的標準,藉由買保險來滿足高SLA的需求。像筆者近期協助企業客戶,進行叢集的POC建置,客戶就是選用思科的刀鋒伺服器,成功使用Red Hat的Pacemaker納管,並搭配Oracle的資料庫運行,以下節錄部分叢集設定有fence_cisco_ucs內容:

#pcs status
...

Stonith Devices:
 Resource: fsdb1 (class=stonith type=fence_cisco_ucs)
  Attributes: ipaddr=192.168.0.168 suborg=/org-TWNO1_SDB/ login=myadmin passwd=mypassword
  Operations: monitor interval=60s (fsdb1-monitor-interval-60s)
 Resource: fsdb2 (class=stonith type=fence_cisco_ucs)
  Attributes: ipaddr=192.168.0.168 suborg=/org-TWNO1_SDB/ login=myadmin passwd=mypassword
  Operations: monitor interval=60s (fsdb2-monitor-interval-60s)

...

在上述說明中,不知讀者是否有注意到,叢集要建立,是需要準備兩台以上的主機,但要求Cost down的企業,除非是服務的負載無法支應,否則大多數的企業,應不會購買三台以上的主機來建立叢集,原因無他,就是成本考量(軟硬體的建置成本,機器數越多,成本就越高)。所以,企業侷限於預算的建立叢集標準,從第一、第二台主機逐一建立起,只要能夠滿足需求,通常都不會考慮三台以上。雖然有裂腦問題,困擾著叢集軟體在兩個節點的部署,但正確的組態就能避免問題的發生,這才是企業需要的。

所以,為讓您管理的主機能長治久安,適時的將資安弱掃的報告產出,並結合更新與功能的修正,讓所管理職掌的機器盡可能滿足問題零檢出的標準,這時候管理夥伴們就必須學好妥適的資安管控實務方法與流程,否則是無法應付所需的;在此同時,如可搭配叢集軟體來替服務買好切換的雙保險,這樣就更棒了,與釐清標準該進行的資安升級或問題修正程序,讓系統長長久久。