2020-12-16 作者:Stephen J. Bigelow 來源:企業(yè)網(wǎng)D1Net 閱讀:
次
托管提供商主要提供數(shù)據(jù)中心的空間、電源、冷卻、物理安全性,但托管服務(wù)也面臨數(shù)據(jù)中心停機(jī)期間響應(yīng)速度較慢的潛在缺點(diǎn)。采用托管服務(wù)的組織必須仔細(xì)規(guī)劃重要數(shù)據(jù)的存儲(chǔ)位置,并遵循服務(wù)級(jí)別協(xié)議,以最大程度地減少托管數(shù)據(jù)中心服務(wù)中斷的影響。
當(dāng)然,組織可以自己建設(shè)和運(yùn)營內(nèi)部部署數(shù)據(jù)中心,擁有、建設(shè)和維護(hù)基礎(chǔ)設(shè)施和設(shè)備,雇傭員工,實(shí)施政策和運(yùn)行應(yīng)用程序,并設(shè)定應(yīng)對(duì)任何中斷所需的優(yōu)先級(jí)。當(dāng)遇到問題時(shí),組織領(lǐng)導(dǎo)者知道讓誰處理,并且員工可以專注于組織的利益。
作為托管服務(wù)商客戶的組織來說,這些控制權(quán)交給托管服務(wù)提供商,他們負(fù)責(zé)故障排除并與客戶保持聯(lián)系。但是托管服務(wù)提供商通常是為了自己的商業(yè)利益而運(yùn)營的企業(yè),有時(shí)并不能滿足托管客戶的需求。
是什么導(dǎo)致托管數(shù)據(jù)中心停機(jī)?
托管服務(wù)提供商以遠(yuǎn)程管理的數(shù)據(jù)中心為核心,通??梢詫?shù)據(jù)中心的停機(jī)追溯到許多可能影響內(nèi)部部署數(shù)據(jù)中心面臨的相同問題。停機(jī)的原因一般分為四類:電源、人員、災(zāi)難、連接。
(1) 電源。托管服務(wù)提供商通常在其數(shù)據(jù)中心內(nèi)實(shí)現(xiàn)更大的彈性,例如備用電源系統(tǒng)。其備用電源包括為服務(wù)器和機(jī)架設(shè)備供電的不間斷電源(UPS),以及在市電中斷時(shí)可以為數(shù)據(jù)中心設(shè)施供電的工業(yè)級(jí)備用發(fā)電機(jī)。但是,UPS故障、發(fā)電機(jī)啟動(dòng)或維護(hù)不足以及備用電源系統(tǒng)的其他問題,可能會(huì)在市電停電時(shí)導(dǎo)致托管客戶的業(yè)務(wù)中斷。
(2) 人員。人為錯(cuò)誤是造成數(shù)據(jù)中心停機(jī)的主要原因。例如配置錯(cuò)誤的路由器、服務(wù)器、身份驗(yàn)證系統(tǒng)以及硬件和軟件基礎(chǔ)設(shè)施其他錯(cuò)誤可能導(dǎo)致客戶無法訪問系統(tǒng)。內(nèi)部和外部攻擊或其他惡意活動(dòng)(如拒絕服務(wù)攻擊)也可以干擾或破壞客戶所托管的工作負(fù)載。
(3) 災(zāi)難。客戶希望托管數(shù)據(jù)中心設(shè)施具有更強(qiáng)的彈性和更高的可靠性,因此通常希望遠(yuǎn)離自然災(zāi)難(颶風(fēng)、洪水、地震等)和人為災(zāi)難(火災(zāi)、車禍和戰(zhàn)爭(zhēng))。雖然謹(jǐn)慎的托管措施應(yīng)該可以減少這種風(fēng)險(xiǎn),但不可能完全避免和消除,而不可預(yù)見的災(zāi)難會(huì)使托管數(shù)據(jù)中心設(shè)施癱瘓或毀壞。
(4) 連接。托管服務(wù)本質(zhì)上是遠(yuǎn)程實(shí)施的,而WAN或互聯(lián)網(wǎng)連接對(duì)于托管服務(wù)提供商至關(guān)重要。大多數(shù)托管服務(wù)提供商都允許客戶使用一個(gè)或多個(gè)可用電信提供商的服務(wù)。電信基礎(chǔ)設(shè)施也不完善,也不是100%可靠的,這可能會(huì)導(dǎo)致使用某些電信服務(wù)的客戶連接中斷。在這種情況下,必須由電信提供商(而不是托管服務(wù)提供商)來恢復(fù)服務(wù),但是對(duì)這些托管客戶的影響可能像發(fā)生火災(zāi)或洪水一樣嚴(yán)重。
對(duì)內(nèi)部和外部場(chǎng)所進(jìn)行故障排除
作為托管數(shù)據(jù)中心客戶的組織在解決托管數(shù)據(jù)中心發(fā)生的故障尤其具有挑戰(zhàn)性,因?yàn)榻鉀Q問題的過程首先取決于識(shí)別/確定問題,然后確定托管數(shù)據(jù)中心提供商(或客戶)是否對(duì)故障和糾正措施負(fù)責(zé)。
傳統(tǒng)托管數(shù)據(jù)中心
例如,假設(shè)客戶的工作負(fù)載在傳統(tǒng)托管數(shù)據(jù)心設(shè)施中運(yùn)行,并且托管服務(wù)提供商只提供空間、電源、制冷和其他服務(wù)。如果數(shù)據(jù)中心設(shè)施出現(xiàn)故障(例如電源故障),則客戶將依賴托管提供商提供的電力服務(wù),并且托管服務(wù)提供商將根據(jù)現(xiàn)行服務(wù)等級(jí)協(xié)議(SLA)的條款負(fù)責(zé)查找和糾正電源問題。而根據(jù)問題的嚴(yán)重程度,修復(fù)過程可能需要數(shù)小時(shí)甚至數(shù)天的時(shí)間。
但是,客戶仍將負(fù)責(zé)部署到托管服務(wù)提供商的所有服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)和其他業(yè)務(wù)設(shè)備。服務(wù)器、存儲(chǔ)子系統(tǒng)、網(wǎng)絡(luò)交換機(jī)故障,甚至是應(yīng)用程序故障(軟件錯(cuò)誤)可能是造成停機(jī)的原因??蛻魧⒉捎孟到y(tǒng)管理工具監(jiān)視和報(bào)告硬件和軟件的狀態(tài),他們有責(zé)任找到并解決問題,可能是通過重新啟動(dòng)服務(wù)器、更換服務(wù)器或采用其他潛在的修復(fù)方法。
如果客戶確實(shí)要負(fù)責(zé)修復(fù),他們將面臨完成工作的挑戰(zhàn)。對(duì)出現(xiàn)故障的應(yīng)用程序進(jìn)行修復(fù)和排除可能需要實(shí)際操作,這可能需要數(shù)小時(shí)來部署人員和執(zhí)行修復(fù)所涉及的實(shí)際工作。在某些情況下,托管服務(wù)提供商的員工將會(huì)提供幫助,但需要客戶額外付費(fèi)。
托管或托管主機(jī)
在托管數(shù)據(jù)中心或托管方案中,托管服務(wù)提供商將提供數(shù)據(jù)中心空間、服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)以及其他基礎(chǔ)設(shè)施,而客戶可以從托管服務(wù)提供商那里租用。但是,托管服務(wù)提供商對(duì)整個(gè)基礎(chǔ)設(shè)施負(fù)有全部責(zé)任,客戶不用接觸或關(guān)注托管服務(wù)提供商的基礎(chǔ)設(shè)施。如果托管數(shù)據(jù)中心設(shè)施或計(jì)算資源發(fā)生故障,則托管服務(wù)提供商必須處理并發(fā)布停機(jī)通知,然后按照服務(wù)等級(jí)協(xié)議(SLA)中規(guī)定的條款對(duì)故障進(jìn)行故障排除和補(bǔ)救。在這種情況下,客戶通常會(huì)通過已建立的支持渠道(例如電子郵件、電話或門戶網(wǎng)站)將故障告知托管服務(wù)提供商(例如某個(gè)應(yīng)用程序無法正常工作)。
如果問題實(shí)際上出在客戶的應(yīng)用程序而不是托管服務(wù)提供商的基礎(chǔ)設(shè)施(即托管數(shù)據(jù)中心設(shè)施正常運(yùn)行,但是客戶的應(yīng)用程序遭受崩潰或其他異常),那么托管服務(wù)提供商就沒有更多的義務(wù)來確定客戶的應(yīng)用程序是否正常工作??蛻舯仨毦哂羞m當(dāng)?shù)谋O(jiān)視以跟蹤應(yīng)用程序運(yùn)行狀況或了解應(yīng)用程序性能。當(dāng)應(yīng)用程序出現(xiàn)問題時(shí),客戶的IT團(tuán)隊(duì)可以選擇遠(yuǎn)程操作重新啟動(dòng)應(yīng)用程序,或者要求托管服務(wù)提供商幫助采取糾正措施。
托管數(shù)據(jù)中心支持的類型
當(dāng)出現(xiàn)問題時(shí),組織必須找到快速且經(jīng)濟(jì)高效的方法來解決問題,同時(shí)保持行業(yè)標(biāo)準(zhǔn)或法規(guī)遵從性所要求的數(shù)據(jù)完整性和工作負(fù)載安全性??蛻艨梢允褂盟姆N類型的支持:
(1) 工作人員。當(dāng)客戶將自己的設(shè)備部署在托管設(shè)施中時(shí),可能會(huì)自己雇傭IT員工管理和維護(hù),而不是托管服務(wù)提供商。這有助于確保IT任務(wù)的執(zhí)行符合客戶的最佳利益,但是其員工到路途遙遠(yuǎn)的托管數(shù)據(jù)中心工作可能既耗時(shí)又會(huì)增加成本。
(2) 遠(yuǎn)程控制。客戶可以聘請(qǐng)托管服務(wù)提供商的員工協(xié)助開展各種IT任務(wù)。這些任務(wù)可能包括物理設(shè)備故障排除、更換、配置。通常根據(jù)突發(fā)事件或請(qǐng)求遠(yuǎn)程操作,并且其費(fèi)用將添加到客戶的每月賬單中。
(3) 遠(yuǎn)程管理。現(xiàn)代IT系統(tǒng)管理工具擅長通過網(wǎng)絡(luò)訪問硬件設(shè)備以執(zhí)行常見的管理任務(wù)。這些工具通常可以重新啟動(dòng)服務(wù)器、重新啟動(dòng)應(yīng)用程序、遷移虛擬機(jī)以及備份和恢復(fù)數(shù)據(jù)。遠(yuǎn)程管理在管理日常任務(wù)時(shí)非常有效,無需客戶派遣員工在托管數(shù)據(jù)中心工作。
(4) 托管服務(wù)。托管服務(wù)提供商通常提供客戶可以參與的一系列服務(wù),例如托管電子郵件。某些服務(wù)費(fèi)用可能會(huì)添加到每月的托管費(fèi)用中,而某些服務(wù)(例如備份)可能會(huì)帶來額外的費(fèi)用。但是,托管服務(wù)提供商通??梢詤⑴c添加新服務(wù),更改現(xiàn)有服務(wù)或減少或取消不需要的服務(wù)。
減輕數(shù)據(jù)中心托管設(shè)置中的不確定性
托管服務(wù)提供商可能會(huì)給客戶帶來更多不確定性和復(fù)雜性。在偏遠(yuǎn)地區(qū)運(yùn)營的托管數(shù)據(jù)中心設(shè)施可能會(huì)受到地緣政治不確定性和安全性問題的影響。托管服務(wù)提供商管理成本的愿望可能會(huì)削減支持人員數(shù)量,從而可能降低其響應(yīng)能力。托管服務(wù)提供商的合并和請(qǐng)求可能會(huì)影響其日常運(yùn)營。
客戶可以通過謹(jǐn)慎的應(yīng)急計(jì)劃和大量監(jiān)控措施來緩解這些托管問題。常見步驟包括:
工作負(fù)載適用性。必須評(píng)估每個(gè)應(yīng)用程序在托管數(shù)據(jù)中心中的適用性。由于法規(guī)遵從性、安全性、性能或其他問題,并非所有應(yīng)用程序都適合托管。有些工作負(fù)載應(yīng)該保留在內(nèi)部部署數(shù)據(jù)中心。
遣返。如果托管服務(wù)失敗或證明托管不適合應(yīng)用程序時(shí),則遷移到托管數(shù)據(jù)中心的每個(gè)工作負(fù)載都應(yīng)采取遣返措施,可以在組織的內(nèi)部部署數(shù)據(jù)中心恢復(fù)應(yīng)用程序。
備份和災(zāi)難恢復(fù)。托管工作負(fù)載并不保證可用性。重要的工作負(fù)載可能需要額外的托管服務(wù)投資,以建立備份和災(zāi)難恢復(fù)框架,以確保應(yīng)用程序在托管服務(wù)中運(yùn)行時(shí)的可用性。托管服務(wù)提供商在默認(rèn)情況下不提供此類服務(wù)。
詳細(xì)監(jiān)控。使用監(jiān)視工具(例如應(yīng)用程序性能監(jiān)視)和用于重要工作負(fù)載的工具來跟蹤應(yīng)用程序的運(yùn)行狀況和性能,以及托管服務(wù)提供商及其資源的可用性。了解托管服務(wù)提供商的服務(wù)等級(jí)協(xié)議(SLA),并使用監(jiān)控結(jié)果來驗(yàn)證托管服務(wù)提供商是否遵守服務(wù)等級(jí)協(xié)議(SLA)。
尋求幫助。托管服務(wù)提供商將提供各種幫助臺(tái)以尋求支持??蛻魬?yīng)該清楚了解可用的幫助,如何請(qǐng)求幫助,以及在必要時(shí)如何采取行動(dòng)并及時(shí)采取糾正措施。
歸根結(jié)底,托管服務(wù)提供商是客戶的業(yè)務(wù)合作伙伴(而不是員工),并且托管服務(wù)提供商提供的資源和服務(wù)不能被認(rèn)為是理所當(dāng)然的??蛻粲胸?zé)任管理自己在托管數(shù)據(jù)中心環(huán)境中運(yùn)行的工作負(fù)載,并且需要能夠與托管服務(wù)提供商協(xié)作以維護(hù)每個(gè)工作負(fù)載的可用性和性能。