容災(zāi)技術(shù)是災(zāi)備系統(tǒng)的核心,技術(shù)因素考慮的是否完善,對(duì)于災(zāi)備系統(tǒng)建設(shè)的成敗可以說(shuō)起到非常關(guān)鍵的作用。如果災(zāi)備方案提供商在企業(yè)災(zāi)備建議之初,能從企業(yè)切實(shí)的容災(zāi)系統(tǒng)技術(shù)和工程可行性出發(fā),為企業(yè)找出最佳的災(zāi)備系統(tǒng)建設(shè)路線,相信可以幫助企業(yè)的災(zāi)備系統(tǒng)建設(shè)少走不少?gòu)澛贰D敲?,企業(yè)在構(gòu)建容災(zāi)系統(tǒng)時(shí)需要考慮的技術(shù)因素有哪些呢?
(1)防范的災(zāi)難范圍
災(zāi)難的防御范圍,常規(guī)上大家重點(diǎn)考慮一些硬災(zāi)難,包括服務(wù)器、存儲(chǔ)等硬件設(shè)備損壞造成的宕機(jī);地震、火災(zāi)、機(jī)房進(jìn)水等造成的機(jī)房失效,也有空調(diào)損壞、多站供電斷電等意外;甚至當(dāng)瘟疫蔓延時(shí)機(jī)房無(wú)法進(jìn)入等極端情況。這類災(zāi)難一般被稱為“‘硬’性災(zāi)難”或“站點(diǎn)級(jí)災(zāi)難”,意指整個(gè)站點(diǎn)失效,整個(gè)站點(diǎn)所提供的服務(wù)均被中止。
然而,還有很多災(zāi)難類型,災(zāi)難發(fā)生后,雖然建筑、設(shè)備、人員都是無(wú)損的,但整個(gè)機(jī)房站點(diǎn)同樣失效,整個(gè)站點(diǎn)所提供的服務(wù)同樣被中止。這類災(zāi)難我們稱為“‘軟’性災(zāi)難”或“類站點(diǎn)級(jí)災(zāi)難”。它們帶來(lái)的后果同樣是災(zāi)難性的、甚至更加嚴(yán)重。這種災(zāi)難主要是由于一些惡意行為:外部黑客攻擊、內(nèi)部高技術(shù)犯罪;和一些失誤行為:系統(tǒng)維護(hù)失誤、誤刪除重要數(shù)據(jù)、打入沖突系統(tǒng)補(bǔ)丁等引起的。
“‘硬’性災(zāi)難”或“站點(diǎn)級(jí)災(zāi)難”的發(fā)生是管理人員能夠即刻發(fā)現(xiàn)的,造成的損失大多可以立刻評(píng)估、處理。而“‘軟’性災(zāi)難”或“類站點(diǎn)級(jí)災(zāi)難”大部分無(wú)法被管理人員立時(shí)發(fā)現(xiàn),造成的損失一般要遠(yuǎn)遠(yuǎn)大于前者。而且,恢復(fù)起來(lái)很麻煩,需要企業(yè)投入更多的資源、承擔(dān)更多大的風(fēng)險(xiǎn)去解決。
(2)對(duì)企業(yè)當(dāng)前業(yè)務(wù)的影響程度
目前很多服務(wù)性行業(yè),如銀行、醫(yī)院等都要求其業(yè)務(wù)系統(tǒng)保證7X24小時(shí)在線運(yùn)行,但在線系統(tǒng)的狀況可能略有不同,災(zāi)備系統(tǒng)的建設(shè)首先不能修改現(xiàn)有生產(chǎn)系統(tǒng)的結(jié)構(gòu)(如,災(zāi)備設(shè)備以旁路的方式接入用戶生產(chǎn)系統(tǒng)),否則會(huì)可能產(chǎn)生對(duì)現(xiàn)有系統(tǒng)狀態(tài)的破壞和增加不穩(wěn)定因素,導(dǎo)致今后生產(chǎn)系統(tǒng)維護(hù)增加極大的難度。其次,容災(zāi)系統(tǒng)的實(shí)施應(yīng)采取最為簡(jiǎn)易和快捷的方式,工程上應(yīng)具有可操作性、周期的可控性,實(shí)施周期要短,這樣才能最大限度地減小對(duì)原有在線系統(tǒng)的影響,提高容災(zāi)系統(tǒng)建設(shè)的成功率。
(3)企業(yè)能容忍的恢復(fù)時(shí)間(RTO)
當(dāng)計(jì)算機(jī)系統(tǒng)發(fā)生意外無(wú)法工作時(shí),導(dǎo)致業(yè)務(wù)停頓所造成的損失程度,即企業(yè)對(duì)于系統(tǒng)發(fā)生故障時(shí)的最大容忍時(shí)間,業(yè)務(wù)稱之為RTO。這也是設(shè)計(jì)容災(zāi)備份方案的重要技術(shù)指標(biāo)。對(duì)于容災(zāi)系統(tǒng)來(lái)說(shuō),它除了集群系統(tǒng)之外的其它容災(zāi)系統(tǒng),在災(zāi)難發(fā)生后都需有一個(gè)恢復(fù)的過(guò)程,尤其遠(yuǎn)程容災(zāi)的宕機(jī)時(shí)間最長(zhǎng),那怎樣來(lái)解決企業(yè)用戶對(duì)容災(zāi)系統(tǒng)所需的恢復(fù)時(shí)間呢?目前市場(chǎng)中主流的CDP持續(xù)數(shù)據(jù)保護(hù)技術(shù)在保證RTO方面,可以達(dá)到企業(yè)所需的分種級(jí)恢復(fù)的恢復(fù)時(shí)間要求,對(duì)于遠(yuǎn)程容災(zāi)更是可在30分鐘內(nèi)恢復(fù)業(yè)務(wù)運(yùn)行,而這種恢復(fù)時(shí)間也并沒(méi)有為企業(yè)增加額外的災(zāi)備建設(shè)成本。
(4)企業(yè)能容忍的最大數(shù)據(jù)丟失量(RPO)
是否要求數(shù)據(jù)庫(kù)可以恢復(fù)所有提交的交易并且要求實(shí)時(shí)同步數(shù)據(jù),也就是數(shù)據(jù)的連續(xù)性和一致性,決定了容災(zāi)備份方案規(guī)模和復(fù)雜程度的重要依據(jù)。傳統(tǒng)的容災(zāi)技術(shù)大多采用的是基于磁盤陣列或應(yīng)用主機(jī)來(lái)實(shí)現(xiàn)的,因此數(shù)據(jù)的同步都局限于數(shù)據(jù)盤的數(shù)據(jù)同步,同步鏡像技術(shù)可以達(dá)到數(shù)據(jù)盤的數(shù)據(jù)同步,但異步鏡像無(wú)法達(dá)到數(shù)據(jù)盤的數(shù)據(jù)一致性,因此借住于快照技術(shù)達(dá)到同一時(shí)間點(diǎn)的數(shù)據(jù)盤的同步。但在技術(shù)中都無(wú)法確保實(shí)現(xiàn)運(yùn)行業(yè)務(wù)系統(tǒng)數(shù)據(jù)的一致性。同是地,在恢復(fù)顆粒的精細(xì)程度上也有一定局限,恢復(fù)到發(fā)生災(zāi)難前一刻的數(shù)據(jù)時(shí)間點(diǎn)或恢復(fù)到之前保留的某一時(shí)間點(diǎn)版本的數(shù)據(jù),與快照技術(shù)及快照策略有非常大的關(guān)系,兩個(gè)快照之間的時(shí)間差是不可避免的,如果企業(yè)選擇的快照技術(shù)可以把快照間隔縮到最短(如,主流的CDP技術(shù)可以達(dá)到微秒級(jí)),企業(yè)則可以對(duì)業(yè)務(wù)數(shù)據(jù)實(shí)現(xiàn)最大化保護(hù)。
(5)技術(shù)的維護(hù)難度
由于長(zhǎng)期以來(lái),容災(zāi)技術(shù)的復(fù)雜性和高成本性,使得大量的容災(zāi)系統(tǒng)建設(shè)都呈現(xiàn)出維護(hù)難度大、傳輸故障的防范能力低、災(zāi)備演習(xí)難度大的特征。因此,選擇的容災(zāi)技術(shù)應(yīng)考慮到技術(shù)實(shí)現(xiàn)和管理的友好性和簡(jiǎn)易性,災(zāi)備中心管理人員的本地可自行維護(hù)能力是一個(gè)重要的因素,這是故障快速響應(yīng)和處理的一個(gè)基礎(chǔ),這樣才能使得多極的維護(hù)體系更為有效率、處理故障的能力更為強(qiáng)大。
(6)是否適用于現(xiàn)有的業(yè)務(wù)系統(tǒng),是否面向未來(lái)可能加入的其他業(yè)務(wù)系統(tǒng)
這是非常容易被忽視的一個(gè)因素?;旌舷到y(tǒng)容災(zāi)、開放設(shè)備的選擇常常使得用戶的理想與技術(shù)現(xiàn)實(shí)產(chǎn)生鴻溝。如果能夠在本次建立容災(zāi)系統(tǒng)時(shí),采用面向未來(lái)的技術(shù),這樣就可以形成一次構(gòu)建,長(zhǎng)期受益的良好架構(gòu),而且今后的系統(tǒng)改造成本將會(huì)十分輕微,達(dá)到為全系統(tǒng)服務(wù)的長(zhǎng)期目標(biāo)。