狠狠操网,91中文字幕在线观看,精品久久香蕉国产线看观看亚洲,亚洲haose在线观看

數(shù)據(jù)中心存儲(chǔ)方案(精選5篇)

數(shù)據(jù)中心存儲(chǔ)方案范文第1篇

華為“數(shù)據(jù)按需服務(wù)”可以進(jìn)一步解讀為,應(yīng)客戶所需,提供一種存儲(chǔ)能力。它不是特指某一類產(chǎn)品,而是要為用戶提供一種支持其業(yè)務(wù)云化的彈性伸縮、智能管控、靈活開放的存儲(chǔ)環(huán)境。華為存儲(chǔ)即服務(wù)解決方案的推出將這一設(shè)想變成了現(xiàn)實(shí)。

“如果你鬯,就送他去紐約,因?yàn)槟抢锸翘焯;如果你恨他,就送他去紐約,因?yàn)槟抢锸堑鬲z!边@是曾經(jīng)風(fēng)靡中國的電視劇《北京人在紐約》片頭出現(xiàn)的一句話。如今,用這種愛恨交加的復(fù)雜心情來形容企業(yè)對數(shù)據(jù)存儲(chǔ)的感情似乎也很貼切,或者更直白地說:“愛數(shù)據(jù),恨存儲(chǔ)!”

為什么會(huì)有這種兩極分化的感覺?企業(yè)信息化最終獲得的實(shí)實(shí)在在的成果就是數(shù)據(jù)。數(shù)據(jù)是企業(yè)重要的資產(chǎn),是帶來商業(yè)價(jià)值的源泉。所以,企業(yè)有充分的理由愛數(shù)據(jù)。數(shù)據(jù)量的爆炸式增長,以及應(yīng)用越來越復(fù)雜,使得數(shù)據(jù)的載體――存儲(chǔ)設(shè)備的操作和管理越來越復(fù)雜,容易產(chǎn)生數(shù)據(jù)孤島,使采購和管理成本日益走高,同時(shí)也影響了業(yè)務(wù)部署的速度。所以,企業(yè)也有很多理由“恨”存儲(chǔ)。

愛也好,恨也罷,存儲(chǔ)這道門檻是所有企業(yè)必須跨越的。尤其是在今天,隨著云時(shí)代的到來,云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和智能終端等技術(shù)蓬勃發(fā)展,如何以合理的成本實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)和管理,并且適應(yīng)企業(yè)業(yè)務(wù)的云化發(fā)展,已經(jīng)成為CIO面臨的首要問題。

云上云下一致的服務(wù)體驗(yàn)

云計(jì)算時(shí)代,就是軟件定義一切的時(shí)代,也是一切皆服務(wù)的時(shí)代。

現(xiàn)在,最流行的詞匯就是“數(shù)字化轉(zhuǎn)型”。從IT的角度說,數(shù)字化轉(zhuǎn)型的核心就是利用IT實(shí)現(xiàn)業(yè)務(wù)的重構(gòu),其中業(yè)務(wù)云化是重中之重。

為了更好地支持云工作負(fù)載,就要采用標(biāo)準(zhǔn)化的x86硬件、分布式集群軟件,實(shí)現(xiàn)橫向擴(kuò)展等。沒錯(cuò)!不過,這些都是具體的工具和解決方案。在采用業(yè)務(wù)云化的產(chǎn)品和解決方案之前,還有更關(guān)鍵的一步,就是先要了解云的本質(zhì)。

云計(jì)算,不再是購買軟硬件、一次性支付采購成本,而是交付一種開箱即用的服務(wù),用戶可按需使用,并按實(shí)際使用量付費(fèi)。這對用戶來說真的是一種由內(nèi)而外、從下至上的顛覆,從產(chǎn)品的架構(gòu)設(shè)計(jì)到使用,從產(chǎn)品的管理維護(hù)到資金的使用皆是如此。

作為IT基礎(chǔ)架構(gòu)的重要組成部分之一,存儲(chǔ)自然也不例外。在云時(shí)代,存儲(chǔ)就是一種數(shù)據(jù)服務(wù)。

德國當(dāng)?shù)貢r(shí)間3月20日,華為在德國舉行的一年一度的CeBIT(漢諾威消費(fèi)電子、信息及通信博覽會(huì)) 2023上,正式了存儲(chǔ)即服務(wù)(Storage as a Service,STaaS)解決方案,在業(yè)界率先打造無縫跨云的體驗(yàn),旨在為企業(yè)用戶提供云上云下體驗(yàn)一致的存儲(chǔ)資源服務(wù),以及智能的數(shù)據(jù)和運(yùn)維管理,從而幫助企業(yè)數(shù)據(jù)中心向云平滑演進(jìn)。

其實(shí),在3月10日舉行的華為中國生態(tài)伙伴大會(huì)2023上,華為存儲(chǔ)產(chǎn)品線總裁孟廣斌在題為“數(shù)據(jù)按需服務(wù),讓云轉(zhuǎn)型更敏捷”的主題演講中已經(jīng)提前曝光了華為存儲(chǔ)即服務(wù)解決方案的一些細(xì)節(jié)。

如何才能真正做到存儲(chǔ)即服務(wù)呢?孟廣斌談到了兩個(gè)關(guān)鍵點(diǎn):存儲(chǔ)資源池虛擬化和資源調(diào)度自動(dòng)化。通常,在存儲(chǔ)架構(gòu)的最底層是各類存儲(chǔ)硬件,包括傳統(tǒng)的磁盤陣列、混合型陣列、全閃存陣列,還有軟件定義存儲(chǔ),以及第三方的存儲(chǔ)設(shè)備等。正是這種異構(gòu)的存儲(chǔ)環(huán)境有時(shí)會(huì)讓用戶感到手足無措,也是導(dǎo)致數(shù)據(jù)孤島的“元兇”,F(xiàn)在,又加上私有云、公有云等新的資源池,問題就更棘手了。

華為存儲(chǔ)即服務(wù)解決方案厲害的一手在于,無論什么樣的存儲(chǔ)設(shè)備、介質(zhì),都可以被虛擬化成一個(gè)統(tǒng)一的資源池,閃存存儲(chǔ)與傳統(tǒng)存儲(chǔ)、高中低端存儲(chǔ)互相備份和容災(zāi),數(shù)據(jù)可以在本地存儲(chǔ)與云之間按需流動(dòng),通常只有20%~30%的存儲(chǔ)利有率,可以提升至70%左右。

華為存儲(chǔ)即服務(wù)解決方案基于業(yè)務(wù)咨詢和最佳實(shí)踐,將應(yīng)用按工作負(fù)載分類,給出合理的SLA等級建議,使業(yè)務(wù)應(yīng)用與存儲(chǔ)之間能夠基于SLA進(jìn)行最佳匹配,避免過度購買,可以節(jié)省20%的整體擁有成本。

在這個(gè)統(tǒng)一的存儲(chǔ)資源池之上,企業(yè)可以更好地實(shí)現(xiàn)智能的數(shù)據(jù)管理和服務(wù),具體表現(xiàn)在:將數(shù)據(jù)資源按照性能、可靠性、數(shù)據(jù)保護(hù)等特性進(jìn)行智能分類,自動(dòng)配置給應(yīng)用程序,簡化了傳統(tǒng)存儲(chǔ)解決方案手動(dòng)設(shè)置的復(fù)雜度和操作步驟,在此基礎(chǔ)上,實(shí)現(xiàn)智能的故障分析、分鐘級故障定位和修復(fù),效率提升50%;基于趨勢的預(yù)測,可實(shí)現(xiàn)智能的資源回收,提供數(shù)據(jù)流動(dòng)決策建議,并自動(dòng)執(zhí)行,進(jìn)一步簡化運(yùn)維管理。由于具有自助式服務(wù)發(fā)放功能,新業(yè)務(wù)上線的時(shí)間縮短至分鐘級。

在上述這些基礎(chǔ)的存儲(chǔ)工作做好后,向云進(jìn)行平滑演進(jìn)也就水到渠成了。華為存儲(chǔ)即服務(wù)解決方案具有廣泛的生態(tài)兼容性,支持多廠商、多類型的存儲(chǔ)管理,并提供開放接口,與各種云平臺(VMware、Odin、BMC等)集成。華為還倡導(dǎo)創(chuàng)建了OpenSDS聯(lián)盟,目前Dell EMC、富士通、日立、西部數(shù)據(jù)、英特爾等廠商已經(jīng)加入。

孟廣斌打比方說,華為存儲(chǔ)即服務(wù)解決方案就是一個(gè)智能的存儲(chǔ)“超級大管家”,重點(diǎn)解決了存儲(chǔ)云化整合、智能數(shù)據(jù)管理和服務(wù),以及向云平滑演進(jìn)等關(guān)鍵問題。

華為STaaS八面玲瓏

當(dāng)前,許多企業(yè)都面臨“雙模IT”的挑戰(zhàn),即一方面要支持傳統(tǒng)IT應(yīng)用,另一方面還要支持云原生應(yīng)用。華為存儲(chǔ)即服務(wù)解決方案可謂八面玲瓏。

在傳統(tǒng)數(shù)據(jù)中心里,用戶可以使用華為的存儲(chǔ)即服務(wù)解決方案實(shí)現(xiàn)存儲(chǔ)設(shè)備的集中管理,基于統(tǒng)一視圖進(jìn)行運(yùn)維監(jiān)控,基于服務(wù)目錄實(shí)現(xiàn)存儲(chǔ)資源的自動(dòng)分配和數(shù)據(jù)保護(hù),從而提升運(yùn)維的效率,減少存儲(chǔ)管理的人力投入。

而在云數(shù)據(jù)中心里,華為的存儲(chǔ)即服務(wù)解決方案更是如魚得水,可以作為云平臺的專業(yè)存儲(chǔ)管理和服務(wù)組件,基于開放的RESTful接口,被業(yè)界主流的云平臺快速集成,為用戶提供塊、文件、對象等各類存儲(chǔ)服務(wù),以及快照、復(fù)制、遷移等數(shù)據(jù)服務(wù),讓用戶享受“開箱即用”的便捷。

孟廣斌表示,華為看到存儲(chǔ)未來的發(fā)展趨勢有三個(gè)核心點(diǎn):存儲(chǔ)服務(wù)化、介質(zhì)閃存化,以及軟件定義存儲(chǔ)。這些都是業(yè)務(wù)云化的有力支撐。

通常來說,面向未來的云化業(yè)務(wù),客戶有三種云存儲(chǔ)方案可以選擇。第一類,獨(dú)立的分布式云存儲(chǔ),包括分布式塊、分布式文件、分布式對象存儲(chǔ),不過這類存儲(chǔ)也有走向多協(xié)議融合的趨勢。第二類,提供端到端堆棧的私有云。第三類,公有云存儲(chǔ)服務(wù)。

華為認(rèn)為,公有云與私有云在未來的很長一段時(shí)間內(nèi)會(huì)并存?蛻艨梢造`活地選擇華為成熟的私有云存儲(chǔ),以及公有云存儲(chǔ)服務(wù),并可形成混合云方案,實(shí)現(xiàn)統(tǒng)一管理和靈活遷移。

數(shù)據(jù)按需服務(wù)邁出一大步

在2023年的華為全聯(lián)接大會(huì)上,華為提出了“數(shù)據(jù)按需服務(wù)(Data on Demand)”的理念。這一理念不是以技術(shù)為導(dǎo)向,而是以應(yīng)用為導(dǎo)向,F(xiàn)在,云計(jì)算的一種新趨勢就是不以資源為中心,而是以應(yīng)用中心,以讓客戶輕松地駕馭和使用云為出發(fā)點(diǎn)。

數(shù)據(jù)中心存儲(chǔ)方案范文第2篇

【關(guān)鍵詞】DAS;NAS;IP-SAN;iSCSI

基于IP技術(shù)的存儲(chǔ)區(qū)域網(wǎng)絡(luò)架構(gòu),決定數(shù)據(jù)中心存儲(chǔ)系統(tǒng)采用IP-SAN架構(gòu):IP-SAN無需過多成本、TCP/IP網(wǎng)絡(luò)技術(shù)成熟、統(tǒng)一標(biāo)準(zhǔn)化、較好的高擴(kuò)展性和管理人性化等特點(diǎn),比較適合數(shù)據(jù)中心所需的高速率、高帶寬的存儲(chǔ)系統(tǒng)組建。下面將通過前期對學(xué)院目前數(shù)據(jù)中心存在的問題以及當(dāng)前使用要求指標(biāo),制定數(shù)據(jù)中心存儲(chǔ)系統(tǒng)解決方案。

1 制定方案

1.1 需求分析

本課題研究以某學(xué)院國家骨干示范建設(shè)《小型數(shù)據(jù)中心存儲(chǔ)系統(tǒng)》項(xiàng)目為背景,數(shù)據(jù)中心的設(shè)計(jì)目標(biāo)是現(xiàn)有各通信與計(jì)算機(jī)實(shí)訓(xùn)室終端設(shè)備和系統(tǒng)對數(shù)據(jù)中心快速訪問并滿足大規(guī)模數(shù)據(jù)存儲(chǔ)的現(xiàn)實(shí)要求。在建設(shè)高容量高性能基礎(chǔ)上,數(shù)據(jù)中心對于異構(gòu)網(wǎng)絡(luò)的兼容性即高可用性,并且能夠以低成本投入高效能應(yīng)用的要求。

1.2 方案確定

首先確定網(wǎng)絡(luò)平臺:現(xiàn)有的計(jì)算機(jī)終端基本配備有網(wǎng)絡(luò)適配器,有的還是千兆網(wǎng)絡(luò)適配器。IP網(wǎng)絡(luò)技術(shù)成熟,采用iSCSI協(xié)議的IP網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)技術(shù)起點(diǎn)高。從存儲(chǔ)系統(tǒng)的使用要求來看,基于IP技術(shù)的存儲(chǔ)系統(tǒng)是我們實(shí)現(xiàn)低成本高性能的不二選擇。以后千、萬兆以太網(wǎng)發(fā)展起來后,IP網(wǎng)絡(luò)傳輸速率將大大提高。

其次確定網(wǎng)絡(luò)架構(gòu):NAS和SAN兩種架構(gòu)形式都能使用IP網(wǎng)絡(luò)。前者是基于文件的網(wǎng)絡(luò)存儲(chǔ)和文件備份的存儲(chǔ)架構(gòu),多見于海量存儲(chǔ)、高讀寫吞吐率等。實(shí)現(xiàn)文件集中管理、統(tǒng)一存儲(chǔ),它對IP網(wǎng)絡(luò)環(huán)境沒有要求。NAS設(shè)備可應(yīng)用于異構(gòu)網(wǎng)絡(luò)環(huán)境(如FTTX等)而且位置不受限制[1]。網(wǎng)絡(luò)附加存儲(chǔ)的不足在于沒有集中備份數(shù)據(jù)的功能,不能有效支撐數(shù)據(jù)庫應(yīng)用,最核心的一點(diǎn)是網(wǎng)絡(luò)附加存儲(chǔ)不能支持塊級數(shù)據(jù)傳送,它是面向文件級的。IP-SAN把SCSI映射至TCP/IP之上,能夠完成SCSI塊數(shù)據(jù)傳送于IP網(wǎng)絡(luò)之中,它采用的是TCP/IP、SCSI協(xié)議,利用IP網(wǎng)等,解決了FC-SAN存在的范圍擴(kuò)展問題[2]。IP-SAN有效地解決了當(dāng)前的存儲(chǔ)設(shè)備,盡可能地?cái)U(kuò)展了存儲(chǔ)資源,保障了更多的業(yè)務(wù)應(yīng)用;較好地解決了困擾DAS與SAN受限地理范圍的問題;能夠較為有效地利用以太網(wǎng)以及通過網(wǎng)絡(luò)管理軟件解決運(yùn)維問題[3];谏鲜,本案宜采用IP-SAN存儲(chǔ)架構(gòu)。

IP-SAN協(xié)議的確定:存儲(chǔ)區(qū)域網(wǎng)絡(luò)技術(shù)大體有FCIP、iFCP以及iSCSI三種,F(xiàn)CIP與iFCP主要是存儲(chǔ)區(qū)域網(wǎng)絡(luò)技術(shù)從FC通道到IP網(wǎng)絡(luò)的中間臨時(shí)使用,但是本課題大致應(yīng)用于數(shù)據(jù)存儲(chǔ)和傳輸?shù)拇鎯?chǔ)系統(tǒng)和設(shè)備,涉及光纖設(shè)備和光纖網(wǎng)絡(luò)較少,三種協(xié)議中,只有iSCSI協(xié)議與光纖無關(guān),故iSCSI協(xié)議在此采用。服務(wù)器中的軟件,把SCSI數(shù)據(jù)打包進(jìn)IP包里面,而后把這個(gè)包傳送至目標(biāo)設(shè)備,在IP網(wǎng)絡(luò)上,再由后者將IP包解包還原為SCSI數(shù)據(jù)。

2 數(shù)據(jù)中心存儲(chǔ)系統(tǒng)的方案設(shè)計(jì)

依據(jù)IP-SAN結(jié)構(gòu)與iSCSI協(xié)議相關(guān)標(biāo)準(zhǔn),存儲(chǔ)系統(tǒng)結(jié)構(gòu):軟件部分由iSCSl目標(biāo)器軟件、Web管理軟件和iSCSI啟動(dòng)器程序(客戶端)三部分組成。用戶只需安裝并啟動(dòng)iSCSl啟動(dòng)器軟件,通過TCP網(wǎng)絡(luò),就能訪問位于Stroage Server上目標(biāo)資源,也能夠使用Web應(yīng)用程序,管理與配置這些資源。硬件層面,使用IBM服務(wù)器相連于吉比特局域網(wǎng)。作為全部IP-SAN中最重要的設(shè)備,Stroage Server使用iSCSI協(xié)議,支持DATA存儲(chǔ)業(yè)務(wù)于存儲(chǔ)用戶。結(jié)合數(shù)據(jù)中心應(yīng)用的服務(wù)對象-用戶的實(shí)際需求,該設(shè)備的磁盤容量不能設(shè)計(jì)太小,還要兼具合適的擴(kuò)展、容災(zāi)能力,適用于千兆局域網(wǎng)絡(luò),能夠提供熱插拔功能。網(wǎng)絡(luò)層面,采用吉比特網(wǎng)絡(luò)。

2.1 選擇IP-SAN存儲(chǔ)服務(wù)器

針對存儲(chǔ)系統(tǒng)穩(wěn)定可用方面的需求,我們選用了IBM公司的X3650 M3系列服務(wù)器,安裝08網(wǎng)絡(luò)操作系統(tǒng),采用SATA硬盤接口,8塊500G硬盤,這里面使用1個(gè)安裝操作系統(tǒng),1個(gè)用來做冗余,RAID 5配置在剩余的6塊硬盤上。采用Web存儲(chǔ)服務(wù)管理軟件,為用戶提供向?qū)綀D形化接口,用來申請、注銷iSCSI存儲(chǔ)服務(wù)。

2.2 客戶端

鑒于數(shù)據(jù)中心目前大部分主機(jī)的操作系統(tǒng)安裝使用情況,采用微軟2000,該的Internet Explorer指明要5.0或更高版本。安裝微軟操作的客戶端,iSCSI使用微軟免費(fèi)啟動(dòng)器程序。

3 存儲(chǔ)服務(wù)器的磁盤陣列配置

根據(jù)需求分析,本數(shù)據(jù)中心存儲(chǔ)系統(tǒng)解決方案采用RAID 5配置。比RAID0高的數(shù)據(jù)安全性能,比RAID 1高的數(shù)據(jù)讀寫性能,使其成為了存儲(chǔ)性能、數(shù)據(jù)安全和存儲(chǔ)成本兼顧的存儲(chǔ)解決方案。與RAID 1不同的是RAID 5多了一個(gè)奇偶效驗(yàn)信息[5]。

存儲(chǔ)服務(wù)器管理軟件當(dāng)前基本都采用了圖形化窗口式的設(shè)計(jì),管理員不用登錄設(shè)備配置管理,這樣設(shè)備既方便使用又安全。它的工作過程為:機(jī)器上啟用一個(gè)名為Servlet的服務(wù),管理員使用JSP網(wǎng)頁請求任務(wù),然后Servlet通過TELNET運(yùn)行目標(biāo)器程序,再執(zhí)行管理員的操作。已運(yùn)行的目標(biāo)器程序信息還能由此管理軟件保存在硬盤上,并擁有自我恢復(fù)功能[6]。

iSCSI協(xié)議在兼容性、可擴(kuò)展性、安全性方面的特點(diǎn),決定了IP-SAN這種存儲(chǔ)架構(gòu)的發(fā)展必將大規(guī)模的應(yīng)用于現(xiàn)代IP網(wǎng)絡(luò)中。隨著千兆級、萬兆級局域網(wǎng)的發(fā)展,IP-SAN勢必取得不亞于FC-SAN的傳輸速率和高帶寬。而采用iSCSI的IP存儲(chǔ)區(qū)域網(wǎng)絡(luò)解決方案投入較少,IP網(wǎng)絡(luò)技術(shù)相對成熟、擴(kuò)張方便和管理容易,適合數(shù)據(jù)中心高性能高帶寬存儲(chǔ)業(yè)務(wù)的要求。在學(xué)院小型數(shù)據(jù)中心存儲(chǔ)系統(tǒng)的解決方案中,存儲(chǔ)服務(wù)器采用WINDOWS平臺,以不多的軟、硬件投入完成了IP-SAN存儲(chǔ)系統(tǒng)的設(shè)計(jì),后期還可以對系統(tǒng)功能進(jìn)行擴(kuò)展和優(yōu)化。

【參考文獻(xiàn)】

[1]李兆虎.網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)仿真研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2023(49).

[2]陳濤,肖儂,劉芳.大規(guī)模網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)的數(shù)據(jù)布局策略研究[J].計(jì)算機(jī)研究與發(fā)展,2009:46-47.

[3]朱洪斌,程杰.數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)架構(gòu)研究[J].電力信息化,2023:22-26.

[4]Chi-Huang Chiu ;Hsien-Tang Lin ;Shyan-Ming Yuan a content delivery system for storage service in cloud environment [EI SCI]International journal of ad hoc and ubiquitous computing.2023,6-8.

數(shù)據(jù)中心存儲(chǔ)方案范文第3篇

回顧最近幾年的信息存儲(chǔ)技術(shù)的發(fā)展,真正關(guān)鍵的突破是存儲(chǔ)系統(tǒng)的拓?fù)溥B接技術(shù)的發(fā)展和成熟。今天,信息訪問拓?fù)溥B接技術(shù)有很多,比如iSCSI,F(xiàn)CIP,IFCP,SAN,NAS等等,但真正廣為認(rèn)可和廣泛應(yīng)用的成熟技術(shù)是SAN技術(shù)和NAS技術(shù),SAN技術(shù)及NAS技術(shù)都是解決信息存儲(chǔ)集中化的成熟技術(shù)。SAN技術(shù)和NAS技術(shù)各有所長,分別適合不同應(yīng)用業(yè)務(wù)系統(tǒng),集成的SAN+NAS解決方案是可以滿足各個(gè)行業(yè)客戶業(yè)務(wù)需求的最佳選擇。

我們經(jīng)常接到來自客戶這樣的提問:作為存儲(chǔ)專家請告訴我們究竟應(yīng)該采用SAN方案,還是采用NAS方案?

面對這樣的提問,我們應(yīng)該怎樣應(yīng)呢?我們不能忙著給出簡單的確切回答,而是應(yīng)該和客戶一道從業(yè)務(wù)需求出發(fā)分析存儲(chǔ)需求,最后確定整體存儲(chǔ)解決方案。SAN和NAS的優(yōu)勢對比如圖1所示。

圖1SAN和NAS的優(yōu)勢對比

SAN技術(shù)發(fā)展分析

SAN和NAS適合的應(yīng)用不同。SAN是傳統(tǒng)的DAS技術(shù)的發(fā)展延續(xù),是適合大量的數(shù)據(jù)塊訪問方式的網(wǎng)絡(luò)存儲(chǔ)技術(shù):即信息主要是以塊方式存儲(chǔ)及管理的應(yīng)用。SAN和DAS的主要區(qū)別在于SAN技術(shù)在主機(jī)和存儲(chǔ)設(shè)備之間增加了專用的存儲(chǔ)域交換機(jī),構(gòu)成光纖FC存儲(chǔ)域網(wǎng)絡(luò),實(shí)現(xiàn)網(wǎng)絡(luò)存儲(chǔ)訪問。

SAN技術(shù)經(jīng)過幾年的發(fā)展已經(jīng)非常成熟, SAN技術(shù)吸收傳統(tǒng)通道技術(shù)和傳統(tǒng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢,因此具有如下優(yōu)勢:高速、低延遲、高數(shù)據(jù)一致性、大數(shù)據(jù)傳輸?shù)忍匦?路由管理、廣泛連接性、遠(yuǎn)距離支持、靈活管理等。

SAN技術(shù)的核心是SAN交換機(jī),SAN交換機(jī)是存儲(chǔ)系統(tǒng)和主機(jī)系統(tǒng)之間的橋梁。盡管SAN交換機(jī)上也配置CPU和CACHE,SAN交換機(jī)上也可以具有自我管理、自我配置等智能軟件,但SAN交換機(jī)主要作用還是作為數(shù)據(jù)交換通道。

目前主流的SAN交換機(jī)廠商象BAROCADE、MCDATA、CISCO占有存儲(chǔ)交換機(jī)市場98%以上的份額,這些廠商都很明確SAN交換機(jī)的數(shù)據(jù)交換作用,對于某些象基于交換機(jī)的數(shù)據(jù)鏡像、虛擬存儲(chǔ)等都還只是在概念探討和測試中,這種做法是客觀負(fù)責(zé)任。

NAS技術(shù)發(fā)展分析

NAS是傳統(tǒng)網(wǎng)絡(luò)文件服務(wù)器技術(shù)的發(fā)展延續(xù),是專用的網(wǎng)絡(luò)文件服務(wù)器,是代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)文件服務(wù)器市場的新技術(shù)、新產(chǎn)品 。

網(wǎng)絡(luò)文件服務(wù)器技術(shù)是建立在網(wǎng)絡(luò)技術(shù)發(fā)展成熟基礎(chǔ)之上的。因此它的訪問協(xié)議是通用的TCP/IP,今天的NAS產(chǎn)品也是基于TCP/IP協(xié)議的文件訪問機(jī)制。

傳統(tǒng)的網(wǎng)絡(luò)文件服務(wù)器總體可以分為兩大類:第一類是UNIX網(wǎng)絡(luò)文件服務(wù)器,即支持NFS服務(wù)器;第二類是NT網(wǎng)絡(luò)文件服務(wù)器,即支持CIFS服務(wù)器

網(wǎng)絡(luò)文件服務(wù)器的出發(fā)點(diǎn)是數(shù)據(jù)共享及保護(hù),但上述的兩類網(wǎng)絡(luò)文件服務(wù)器之間較難共享;一個(gè)網(wǎng)絡(luò)文件服務(wù)器系統(tǒng)支持的網(wǎng)絡(luò)訪問能力有限,因此當(dāng)一個(gè)網(wǎng)絡(luò)文件服務(wù)器不能滿足性能需求時(shí)必須再添加新的網(wǎng)絡(luò)文件服務(wù)器,但過多的網(wǎng)絡(luò)文件服務(wù)器造成管理維護(hù)的困難及資源浪費(fèi);同時(shí)傳統(tǒng)網(wǎng)絡(luò)文件服務(wù)器對數(shù)據(jù)保護(hù)能力也非常有限(一般是單一主機(jī)連接存儲(chǔ)介質(zhì)構(gòu)成網(wǎng)絡(luò)文件服務(wù)器,存在單點(diǎn)故障,但又很少采用HA模式,可靠性因而很差),丟失數(shù)據(jù)幾乎是很難避免的。

目前市場上的NAS產(chǎn)品基本上可以分成兩種模式:專業(yè)存儲(chǔ)廠商N(yùn)AS產(chǎn)品及主機(jī)廠商N(yùn)AS產(chǎn)品。

客觀地說,專業(yè)存儲(chǔ)廠商的NAS產(chǎn)品是真正的NAS產(chǎn)品,因?yàn)樗麄兌荚贜AS引擎的微碼中內(nèi)置了NFS和CIFS的支持,是真正的專業(yè)網(wǎng)絡(luò)文件服務(wù)器NAS。

目前主要專業(yè)NAS廠商有EMC和NETAPP。EMC的NAS產(chǎn)品基于其高可靠性,高性能主要面對的是商業(yè)用戶;NETAPP的NAS產(chǎn)品由于自身特點(diǎn)主要面向中低端用戶。

主機(jī)廠商N(yùn)AS產(chǎn)品不是真正的NAS產(chǎn)品,基本都是采用兩臺NT(或UNIX)服務(wù)器做NAS的引擎,實(shí)際是包裝過的傳統(tǒng)網(wǎng)絡(luò)文件服務(wù)器,因此對CIFS(NFS)支持較好,但對NFS(CIFS)采用模擬方式。因此在性能上沒有很好的擴(kuò)充性,無法大規(guī)模文件共享的需求。

存儲(chǔ)整合的必要性

目前,SAN技術(shù)和NAS技術(shù)都是信息整合的手段,二者各有特點(diǎn),適合不同的市場需求。能否將二者有機(jī)結(jié)合在一起,滿足不同應(yīng)用的需求,充分發(fā)揮網(wǎng)絡(luò)存儲(chǔ)的優(yōu)勢成為廣大客戶迫切需要。

目前用戶一般擁有多臺服務(wù)器。由于所有的服務(wù)器采購時(shí)間較早,其存儲(chǔ)系統(tǒng)都是直連的模式,而且大部分存儲(chǔ)系統(tǒng)都是低檔的JBOD產(chǎn)品,這種現(xiàn)狀是和以主機(jī)為核心設(shè)計(jì)IT架構(gòu)的年代相適應(yīng)的。但隨著時(shí)間的推移,這種構(gòu)架的問題已經(jīng)顯現(xiàn)出來了,其問題主要表現(xiàn)為以下五個(gè)方面:

第一,由于目前的存儲(chǔ)系統(tǒng)是不能實(shí)現(xiàn)信息網(wǎng)絡(luò)存儲(chǔ)的低檔產(chǎn)品,這樣造成各個(gè)業(yè)務(wù)系統(tǒng)信息無法方便共享。

第二,由于分散的獨(dú)立存儲(chǔ),各個(gè)業(yè)務(wù)系統(tǒng)的存儲(chǔ)各自獨(dú)立,對其管理必須透過其主機(jī)系統(tǒng)。

第三,這樣分散的獨(dú)立存儲(chǔ)系統(tǒng)不能實(shí)現(xiàn)有效信息共享,這樣一來在最初配置各自直連系統(tǒng)時(shí)必須在系統(tǒng)擴(kuò)展性和系統(tǒng)投資之間權(quán)衡利弊,不能兼顧。

第四,造成目前分散的獨(dú)立存儲(chǔ)系統(tǒng)現(xiàn)狀的原因是過去的技術(shù)限制,但是在考慮未來系統(tǒng)建設(shè)時(shí)應(yīng)該是面向未來的,也就是應(yīng)該采用網(wǎng)絡(luò)存儲(chǔ)技術(shù),通過網(wǎng)絡(luò)存儲(chǔ)實(shí)現(xiàn)信息的有效共享,方便管理,便于擴(kuò)展,建設(shè)高性能,高可靠,高擴(kuò)展,高兼容的信息存儲(chǔ)基礎(chǔ)架構(gòu)。

第五,我們在規(guī)劃信息系統(tǒng)基礎(chǔ)架構(gòu)時(shí),廣大用戶都認(rèn)識到應(yīng)該采用網(wǎng)絡(luò)存儲(chǔ)技術(shù),即采用SAN或NAS技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)存儲(chǔ)。

SAN+NAS集成優(yōu)勢

SAN是存儲(chǔ)域的網(wǎng)絡(luò),是網(wǎng)絡(luò)存儲(chǔ)技術(shù)的核心,業(yè)務(wù)系統(tǒng)中的核心部分需要高性能、高可靠的數(shù)據(jù)訪問方式,這是SAN技術(shù)特長。采用SAN技術(shù),在關(guān)鍵業(yè)務(wù)系統(tǒng)的主機(jī)和存儲(chǔ)設(shè)備之間通過SAN交換機(jī)連接起來,構(gòu)成網(wǎng)絡(luò)存儲(chǔ),這就保證了核心業(yè)務(wù)系統(tǒng)的高性能、高可靠性數(shù)據(jù)訪問需求及未來擴(kuò)展的靈活性。

但是客戶業(yè)務(wù)系統(tǒng)除了核心的關(guān)鍵業(yè)務(wù)之外還有更多的非關(guān)鍵業(yè)務(wù),這些業(yè)務(wù)系統(tǒng)也需要存儲(chǔ)空間,將這些非關(guān)鍵業(yè)務(wù)系統(tǒng)的主機(jī)也接入SAN結(jié)構(gòu)是不現(xiàn)實(shí)的。

同時(shí),大部分非主要的邊緣業(yè)務(wù)系統(tǒng)都是以文件形式訪問數(shù)據(jù)的,是NAS技術(shù)的特長。但如果采用純NAS技術(shù),將導(dǎo)致客戶有一個(gè)核心SAN網(wǎng)絡(luò)存儲(chǔ)平臺及一個(gè)核心NAS網(wǎng)絡(luò)存儲(chǔ)平臺,客戶在NAS存儲(chǔ)和SAN存儲(chǔ)之間無法實(shí)現(xiàn)存儲(chǔ)資源的動(dòng)態(tài)調(diào)配、信息有效共享,實(shí)際上造成兩個(gè)明顯的信息孤島,不符合信息系統(tǒng)整合的客觀需求。

因此能否將NAS技術(shù)和SAN技術(shù)集成起來成為滿足廣大客戶需求的關(guān)鍵。SAN+NAS集成解決方案就是在統(tǒng)一的SAN架構(gòu)下,添加NAS引擎。

NAS引擎和其他主要業(yè)務(wù)系統(tǒng)主機(jī)共享統(tǒng)一SAN架構(gòu)下的存儲(chǔ)資源,從而實(shí)現(xiàn)在滿足主要業(yè)務(wù)系統(tǒng)的高性能、高可靠數(shù)據(jù)訪問需求的同時(shí),通過添加的NAS引擎兼顧大量邊緣業(yè)務(wù)系統(tǒng)對存儲(chǔ)資源的需求,實(shí)現(xiàn)真正的存儲(chǔ)信息整合。EMC的SAN+NAS就是這樣的解決方案。

許多廠商也在嘗試探索SAN和NAS整合的解決方案,但直到目前為止,只有作為獨(dú)立存儲(chǔ)廠商的EMC公司的工作取得實(shí)效,早在多年前就推出了這樣的SAN和NAS集成的解決方案并在實(shí)際中獲得廣泛應(yīng)用。

SAN+NAS成功案例

某NEWSPAPER網(wǎng)絡(luò)數(shù)據(jù)中心

該項(xiàng)目最后配置為四臺CX500,四個(gè)NS700G及SAN交換機(jī)等相關(guān)軟件硬件產(chǎn)品?蛻舻男枨蠓譃楦綦x的內(nèi)外網(wǎng)絡(luò)數(shù)據(jù)中心,內(nèi)外網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對等,其內(nèi)網(wǎng)的拓?fù)浣Y(jié)構(gòu)圖如圖2所示,外網(wǎng)的拓?fù)浣Y(jié)構(gòu)圖和內(nèi)網(wǎng)類似。

圖2內(nèi)網(wǎng)拓?fù)浣Y(jié)構(gòu)圖

由于該項(xiàng)目行業(yè)的特殊性,該項(xiàng)目初期客戶首先招的是集成標(biāo)。EMC公司和集成商一起根據(jù)客戶的業(yè)務(wù)需求,為用戶設(shè)計(jì)了SAN+NAS的完美解決方案。集成商公司由于解決方案的優(yōu)勢中了集成標(biāo)。但是,按照客戶原來的設(shè)計(jì),中標(biāo)集成商不意味著是設(shè)備提供商,對于集成商在該項(xiàng)目中選擇的設(shè)備還需進(jìn)行二次招標(biāo)。因此二次招標(biāo)將是各類產(chǎn)品的價(jià)格戰(zhàn)。

圍繞著SAN+NAS解決方案,客戶進(jìn)行了大量市場調(diào)研,在市場上尋找SAN+NAS解決方案提供商,經(jīng)過近一個(gè)月的市場調(diào)研,客戶的結(jié)論是:EMC公司的SAN+NAS解決方案是滿足客戶業(yè)務(wù)需求的最佳解決方案。

因此在二次招標(biāo)時(shí)唯獨(dú)EMC產(chǎn)品部分沒有進(jìn)行二次招標(biāo),直接進(jìn)入了商務(wù)談判并最終購買了EMC產(chǎn)品解決方案。

某油田研究院數(shù)據(jù)中心

該項(xiàng)目最后的配置是一臺EMC公司CX700磁盤陣列加一個(gè)EMC公司NS702G的NAS引擎。NAS+SAN總體拓?fù)浣Y(jié)構(gòu)圖如圖3所示。

圖3NAS+SAN總體拓?fù)浣Y(jié)構(gòu)圖

該客戶是石油行業(yè)的典型客戶,其主要業(yè)務(wù)系統(tǒng)包括資料處理業(yè)務(wù)及解釋業(yè)務(wù)。資料處理系統(tǒng)需要高帶寬數(shù)據(jù)訪問,適合通過SAN方式訪問數(shù)據(jù);解釋業(yè)務(wù)在60臺工作站上進(jìn)行,各個(gè)工作站數(shù)據(jù)需要共享,數(shù)據(jù)存儲(chǔ)需求帶寬較低。

在本項(xiàng)目之前,用戶于2002年購買了AUTOPEC產(chǎn)品。該產(chǎn)品屬于純NAS產(chǎn)品,在實(shí)際使用中暴露出其嚴(yán)重性能問題,其廣大內(nèi)部使用用戶對此提出諸多抱怨。

2004年5月,應(yīng)客戶邀請,EMC公司到客戶現(xiàn)場對客戶的目前IT環(huán)境進(jìn)行了評估,充分剖析了客戶需求及目前的問題所在。最后和用戶達(dá)成共識:解決目前客戶問題的解決方案是SAN+NAS,該解決方案可以滿足資料處理系統(tǒng)高帶寬需求,同時(shí)兼顧了幾十臺工作站文件共享的需求。

在商務(wù)采購階段,許多EMC公司的友商都想?yún)⑴c該項(xiàng)目。由于價(jià)格原因,很多SI也非常想推銷價(jià)格較便宜的友商產(chǎn)品。但是由于SAN+NAS解決方案的需求使得EMC的解決方案最終為用戶所接受。

某汽車廠數(shù)據(jù)中心

該項(xiàng)目最后的配置是一臺EMC公司CX700磁盤陣列加一個(gè)EMC公司NS702G的NAS引擎。

該客戶是汽車行業(yè)的典型客戶,其主要業(yè)務(wù)系統(tǒng)包括CAD/CAM業(yè)務(wù)及部分ERP業(yè)務(wù)。ERP業(yè)務(wù)需要數(shù)據(jù)庫高性能、高可靠塊數(shù)據(jù)訪問,較適合通過SAN方式訪問數(shù)據(jù);CAD/CAM業(yè)務(wù)系統(tǒng)在許多工作站上實(shí)現(xiàn),數(shù)據(jù)存儲(chǔ)需求帶寬較低。

在EMC介入本項(xiàng)目之前,用戶和HP,IBM等公司進(jìn)行了較多接觸,但這些廠商推薦的解決方案要么是單純的SAN方案,要么是單純的NAS方案。

一方面,單純的SAN方案可以獲得性能、可靠性、安全性的提升,但建立幾十臺主機(jī)(包括工作站)的SAN網(wǎng)絡(luò)造價(jià)太高,同時(shí)關(guān)鍵是單純的SAN方案不能滿足用戶多臺CAD/CAM工作站數(shù)據(jù)共享的需求,不能令用戶滿意。另一方面,單純的NAS方案也令用戶不能接受,單純NAS方案可以滿足工作站數(shù)據(jù)共享的需求,但不滿足ERP業(yè)務(wù)現(xiàn)實(shí)需求及未來發(fā)展。

數(shù)據(jù)中心存儲(chǔ)方案范文第4篇

(四川文理學(xué)院計(jì)算機(jī)學(xué)院,四川達(dá)州635000)

摘要:針對大數(shù)據(jù)下檔案存儲(chǔ)的現(xiàn)狀,通過分析存儲(chǔ)檔案文檔存在重復(fù)的原因,提出一種MongoDB存儲(chǔ)檔案文檔的方法,利用MongoDB的GridFs統(tǒng)一處理不同類型和大小的文件,定義3個(gè)集合分別存儲(chǔ)上傳者記錄、文件信息記錄和分塊文件內(nèi)容,提出存儲(chǔ)中通過文件MD5校驗(yàn)碼值是否相同來進(jìn)行去重研究,并實(shí)現(xiàn)去重的程序代碼,有一定的實(shí)際意義。采用的分布式存儲(chǔ)數(shù)據(jù)庫增強(qiáng)了檔案文檔存儲(chǔ)系統(tǒng)的可擴(kuò)展性。實(shí)驗(yàn)表明,該方法能有效地去除重復(fù)的檔案文檔,提高查詢效率。

關(guān)鍵詞 :MongoDB;MD5;大數(shù)據(jù);檔案文檔去重;GridFs

中圖分類號:TN911?34;TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1004?373X(2023)16?0051?05

收稿日期:2023?03?20

基金項(xiàng)目:國家檔案局項(xiàng)目:基于大數(shù)據(jù)的檔案數(shù)據(jù)去重模型與方法研究(2023?X?65);四川省教育廳一般項(xiàng)目:大數(shù)據(jù)環(huán)境下NoSQL數(shù)據(jù)庫應(yīng)用研究(14ZB0313)

0 引言

隨著信息技術(shù)的飛躍發(fā)展,各國各地都在大力發(fā)展電子政務(wù)建設(shè)。在此環(huán)境下檔案局的檔案文檔也跨入了信息化存儲(chǔ)的行列。但檔案局的檔案類型種類較多,除了純文本的之外,還有圖片、聲音、視頻、PDF等各種類型的文檔,這些文檔都是非結(jié)構(gòu)化的數(shù)據(jù),在傳統(tǒng)的信息系統(tǒng)中,存放這些數(shù)據(jù)是比較困難的。因此在大數(shù)據(jù)環(huán)境下,設(shè)計(jì)信息化檔案存儲(chǔ)系統(tǒng)會(huì)首選非結(jié)構(gòu)化的數(shù)據(jù)庫,即NoSQL 數(shù)據(jù)庫。利用NoSQL 家族中的Mon?goDB數(shù)據(jù)庫作為存放檔案文檔的非結(jié)構(gòu)化數(shù)據(jù)是較為理想的。MongoDB對存放大量的非結(jié)構(gòu)化數(shù)據(jù)有很大的優(yōu)勢,但因MongoDB本身就是非結(jié)構(gòu)化的,故在存放信息時(shí)會(huì)產(chǎn)生重復(fù)的數(shù)據(jù)。有人提出了像在關(guān)系數(shù)據(jù)庫中一樣建立關(guān)鍵索引來解決重復(fù)數(shù)據(jù)的問題,但在以文檔方式存儲(chǔ)的數(shù)據(jù)而言,當(dāng)數(shù)據(jù)很大時(shí),這種方式將會(huì)有弊端。本文研究的是在存儲(chǔ)檔案文檔之前就重復(fù)的數(shù)據(jù)進(jìn)行去重處理,然后再存入MongoDB數(shù)據(jù)庫中,這樣在數(shù)據(jù)庫中存放的將是非重復(fù)的數(shù)據(jù)。

1 傳統(tǒng)的檔案存儲(chǔ)分析

在原有的存儲(chǔ)檔案文檔信息系統(tǒng)中,主要是把文檔以文件的形式存放在文件系統(tǒng)中,然后用原數(shù)據(jù)信息建立一個(gè)檔案文件和數(shù)據(jù)庫的鏈接,并把該鏈接的路徑存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,如表1和表2所示。

通過表1和表2的分析可知,表2中filePathId與表1中的filePathId 中的字段關(guān)聯(lián),這樣在訪問表1 中的某個(gè)文件時(shí),只需要訪問表2中與filePathId字段關(guān)聯(lián)的記錄的fileRealPath的值即可訪問該文件。對于以文件系統(tǒng)方式存放的檔案文件會(huì)產(chǎn)生大量的重復(fù)文件。即使在存儲(chǔ)的時(shí)候能簡單的通過人工的方式來檢查是否有重復(fù)的文件存放,但也不能大面積的檢查是否有重復(fù)的文件,在這種方式下,存儲(chǔ)空間很快會(huì)被耗盡,要靠不斷的增加存儲(chǔ)設(shè)備來解決大量檔案數(shù)據(jù)存放的問題,而且不利于管理,數(shù)據(jù)極其不安全,擴(kuò)展性較差。人們對此已有逐步的認(rèn)識,也進(jìn)行了相應(yīng)的研究。本文的重點(diǎn)是利用MongoDB 數(shù)據(jù)庫來存儲(chǔ)這些非結(jié)構(gòu)化的數(shù)據(jù),并且在存放之前就完成對重復(fù)檔案文檔的去重操作。

2 基于MongoDB 的文檔存儲(chǔ)模型

2.1 MongoDB的存儲(chǔ)機(jī)制

MongoDB是NoSql家族中的一員,具有模式自由等特性。它與關(guān)系數(shù)據(jù)庫一樣具有3個(gè)層次:分別是數(shù)據(jù)庫層、集合層、文檔對象層。分別對應(yīng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)庫、表和記錄。在MongoDB中文檔類似于JSON的鍵/值對,集合則是一組文檔的集合,它們是無模式限制的。MongoDB數(shù)據(jù)庫非常適合實(shí)時(shí)數(shù)據(jù)的插入、查詢、更新、刪除及數(shù)據(jù)備份等操作。尤其適合充當(dāng)由幾十臺或者幾百臺服務(wù)器組成的集群數(shù)據(jù)庫,F(xiàn)在大多數(shù)的地理規(guī)劃等領(lǐng)域都在利用MongoDB數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ)。MongoDB數(shù)據(jù)庫不僅支持分布式系統(tǒng),它本身還支持分片存儲(chǔ)數(shù)據(jù)(Mongod)、客戶端請求(Clients)、集群配置(Config Server)和路由協(xié)議(Mongos)[1]。它采用的是內(nèi)存映射的方式作為存儲(chǔ)引擎,能有效地提高輸入/輸出的效率[2]。

2.2 MongoDB數(shù)據(jù)庫中重復(fù)數(shù)據(jù)來源

目前的檔案管理系統(tǒng)還處于信息孤島的層面,各個(gè)省市的數(shù)據(jù)結(jié)構(gòu)不同,存放的方式也不同,惟一能統(tǒng)一的是從市級單位及其下級單位,如區(qū)、縣、鄉(xiāng)、鎮(zhèn)單位。利用檔案管理系統(tǒng)上傳檔案文件進(jìn)行存儲(chǔ)的也是這些相關(guān)單位。如果同一份檔案文檔被市級單位分發(fā)到其他單位,其他單位會(huì)把它作為重要檔案文檔給上傳到檔案管理系統(tǒng)中存儲(chǔ)起來,這樣就會(huì)產(chǎn)生多個(gè)重復(fù)的檔案文檔。而有部門在不知道的情況下,同一個(gè)人上傳了幾份相同的檔案文檔;或者利用shp文件批量上傳檔案文檔時(shí)遇到其他異常情況,沒有一次性的上傳完,下次再上傳的時(shí)候,又是從頭開始上傳,導(dǎo)致以前的檔案文檔被重復(fù)存儲(chǔ);或者在批量上傳的shp文檔本身被人為的不小心做成了含有重復(fù)的檔案文檔記錄,這樣導(dǎo)入shp文件時(shí)也會(huì)產(chǎn)生重復(fù)記錄。通過對以上情況的分析可知,檔案文檔存儲(chǔ)時(shí)在MongoDB 數(shù)據(jù)庫中產(chǎn)生重復(fù)數(shù)據(jù)的來源主要有以下幾點(diǎn):同一個(gè)檔案文檔被不同的單位、部門重復(fù)上傳;同一個(gè)人對同一個(gè)檔案文檔上傳多次;批量檔案文檔準(zhǔn)備過程中人為的產(chǎn)生了重復(fù)文檔;批量上傳時(shí),中斷上傳,下次再上傳時(shí)將產(chǎn)生重復(fù)文檔。

2.3 檔案存儲(chǔ)模型的建立

檔案存儲(chǔ)時(shí)采用分布式的方式進(jìn)行上傳存儲(chǔ)的,各個(gè)市、區(qū)、縣、鄉(xiāng)、鎮(zhèn)的不同部門可能在不同的時(shí)間和地點(diǎn)對檔案文檔進(jìn)行上傳操作。數(shù)據(jù)庫采用MongoDB數(shù)據(jù)庫,其分布式存儲(chǔ)結(jié)構(gòu)如圖1所示。

從圖1可以看出,各市、縣、鄉(xiāng)、鎮(zhèn)的用戶可以隨時(shí)在不同地點(diǎn)上傳檔案文檔到不同的MongoDB 服務(wù)器中,操作方便。檔案文檔不同于一般的文檔,將遵循“誰操作誰負(fù)責(zé)”的原則。故將設(shè)置上傳者的權(quán)限,且將記錄上傳者的詳細(xì)信息:如上傳時(shí)間、地點(diǎn)等的一些信息。而對于檔案文檔本身而言其文件大小不能統(tǒng)一標(biāo)準(zhǔn)化,且檔案文檔的格式有差異,考慮到要處理數(shù)據(jù)大小和類型都可能不同的檔案文檔,本文將借助于Mon?goDB 的GridFs 來處理,GridFs 是一種處理大文件的規(guī)范,可以存儲(chǔ)上百萬的文件而不用擔(dān)心其擴(kuò)容性[3]。在MongoDB中存放數(shù)據(jù)時(shí)將涉及到3個(gè)集合:userInfo.users,fileInfo.files,fileContent.chunks。

userInfo.users 集合用來存放上傳檔案文檔的上傳者信息,其結(jié)構(gòu)如下:

集合fileInfo.files中的fileID與集合userInfo.users集合中的upLaodfileID 相同,用來關(guān)聯(lián)上傳的文件信息。集合fileContent.chucks中的fileID 與集合fileInfo.files中的fileID相同,用來關(guān)聯(lián)文件存放的具體內(nèi)容,根據(jù)上面3個(gè)集合中結(jié)構(gòu)的設(shè)計(jì),當(dāng)一個(gè)具有操作權(quán)限的用戶在某一地點(diǎn)上傳了某個(gè)檔案文件后,將記錄該用戶上傳的詳細(xì)信息:如操作者,上傳的具體區(qū)、縣、鄉(xiāng)的詳細(xì)地址,上傳的日期、文件名、文件的大小、長度、類型等。當(dāng)該用戶再次上傳相同的檔案文檔時(shí),根據(jù)表的關(guān)聯(lián)查找,將會(huì)做出已在同一地點(diǎn)或不同地點(diǎn)已經(jīng)上傳了相同的檔案文件的提示信息。

3 MongoDB 中的去重算法

本算法的設(shè)計(jì)思想是,根據(jù)上傳的檔案文檔判斷,無論是否已經(jīng)被上傳過,都會(huì)存儲(chǔ)上傳檔案文檔操作者的相關(guān)信息,即生成一個(gè)userInfo.users集合中的一條記錄。上傳檔案文件時(shí)為了節(jié)省服務(wù)器的開銷和資源,所上傳文檔的MD5 校驗(yàn)碼值的計(jì)算都會(huì)在客戶端進(jìn)行。在客戶端計(jì)算并上傳檔案文檔的MD5校驗(yàn)碼值后再在分布式存儲(chǔ)數(shù)據(jù)庫中查找遍歷fileInfo.files中的每一條記錄,查看每條記錄中存儲(chǔ)的檔案文檔的MD5 碼值是否與將要上傳的檔案文檔的MD5碼值相同,如果不同,則將在userInfo.user 集合中存儲(chǔ)一條上傳者信息的記錄,并且把該記錄中的“UploadCount”值設(shè)置為1。同時(shí)生成集合fileInfo.files 中的一條記錄,在該記錄中通過“fileMD5”存儲(chǔ)檔案文檔的MD5碼值。獲得要上傳的檔案文檔的大小fileSize,確定檔案分塊存儲(chǔ)的總塊數(shù)file?ChuckSize。在算法中為了規(guī)范,不管文件的大小和類型,均采用統(tǒng)一大小(fixedSize)的分塊對檔案文檔進(jìn)行存放,即總分塊數(shù)如下所示:

fileChuckSize=(fileSize%fixedSize)?(fileSize/fixedSize):(fileSize/fixedSize+1)

并把該值記錄到fileInfo.files 集合中對應(yīng)記錄中。然后對檔案文檔進(jìn)行上傳并對文檔內(nèi)容按固定的分塊大小存放到fileContent.chucks集合中,在該集合里會(huì)存儲(chǔ)fileChuckSize 條記錄。如果要上傳的檔案文檔的MD5碼值和分布式數(shù)據(jù)庫中存儲(chǔ)的fileInfo.files集合中存儲(chǔ)的某個(gè)記錄的fileMD5值相同,則取出該條記錄對應(yīng)的fileID 值并把該值存放到一個(gè)臨時(shí)存儲(chǔ)字段temp?FileID 中,已備后期使用。然后提取上傳者的信息和tempFileID 的值組合成userInfo.users 集合中的一條記錄,并與集合中的其他記錄進(jìn)行比較,如果有相同的記錄,則在該條記錄的UploadCount值加1。而組合的這條記錄將不再存儲(chǔ)在userInfo.users集合中。其中Upload?Count值加1是判斷該用戶是否經(jīng)常在同一個(gè)地點(diǎn)上傳相同的檔案文檔。

如果在該集合中沒有相同的記錄,則存儲(chǔ)該組合好的記錄。下次在訪問這個(gè)檔案文檔時(shí),通過userInfo.us?ers集合中的upLoadfileID關(guān)聯(lián)到fileInfo.files集合,再通過fileInfo.files 集合中的fileID 關(guān)聯(lián)到fileContent.chucks集合,則順利訪問到需要的檔案文檔,其過程流程圖如圖2所示。

根據(jù)算法流程圖,定義幾個(gè)類UserInfo,F(xiàn)ileInfo,F(xiàn)ileContent 分別對應(yīng)3 個(gè)集合,定義操作數(shù)據(jù)庫的類DBObj,定義去重的類RemoveRepeat。

去重的關(guān)鍵代碼實(shí)現(xiàn)如下:

在代碼中定義了findByFileMD5()方法判斷在已經(jīng)存儲(chǔ)的fileInfo.files集合的記錄中有沒有與將要上傳的檔案文檔的MD5 校驗(yàn)碼相同的記錄存在。定義方法findRepeatData()用來檢查有無重復(fù)上傳檔案文檔上傳者信息,即判斷在usersInfo.user中有沒有重復(fù)的數(shù)據(jù)記錄,這些方法在批量導(dǎo)入數(shù)據(jù)記錄時(shí)也會(huì)調(diào)用逐一判斷。

4 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)使用Hadoop作為分布式文件系統(tǒng)運(yùn)行在不同地理位置的10 臺主機(jī)組成的集群上,在Window7 系統(tǒng)中,采用MyEclipse8.5 做Java 代碼開發(fā),分布式數(shù)據(jù)庫MongoDB 作數(shù)據(jù)存儲(chǔ),采用的是8 核CPU,8 GB 內(nèi)存,320 GB 硬盤。批量導(dǎo)入使用的是shp文件。shp文件的格式定義同集合文件的格式。對單個(gè)的文檔上傳進(jìn)行驗(yàn)證無誤外,為了對更多的數(shù)據(jù)進(jìn)行驗(yàn)證,在shp文件中模擬產(chǎn)生10萬,20萬,30萬數(shù)據(jù)。結(jié)果如圖3所示。

該方法在數(shù)據(jù)去重中達(dá)到90%以上,去重效果還比較理想。算法采用的是分布式文件系統(tǒng),對文件去重效率較高,且系統(tǒng)具有相應(yīng)的擴(kuò)展性。

5 結(jié)語

本算法中采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫MongoDB 對檔案文檔進(jìn)行存儲(chǔ)和去重,利用MongoDB數(shù)據(jù)庫的GridFs來處理不同類型和大小的檔案文檔,統(tǒng)一對檔案文檔進(jìn)行處理。提出利用了去重的算法思想,并通過實(shí)驗(yàn)?zāi)M測試去重效果較為理性。該方法具有一定的可行性。為以后大數(shù)據(jù)的存儲(chǔ)的去重有一定的借鑒性。

參考文獻(xiàn)

[1] 雷德龍,郭殿升,陳崇成,等.基于MongoDB的矢量空間數(shù)據(jù)云存儲(chǔ)與處理系統(tǒng)[J].地理信息科學(xué),2023(7):508?514.

[2] 吳秀君.面向電子政務(wù)的MongoDB與MySQL混合存儲(chǔ)策略[J].計(jì)算機(jī)與現(xiàn)代化,2023(8):62?65.

[3] CHODOROW Kristina.MongoDB 權(quán)威指南[M].北京:人民郵電出版社,2023.

[4] 郭武士.基于MongoDB GridFS的圖片存儲(chǔ)方案的實(shí)現(xiàn)[J].四川工程職業(yè)技術(shù)學(xué)院學(xué)報(bào),2023(4):41?43.

[5] 衛(wèi)啟云,渠偉勇,黃鴻,等.城市地理編碼的部門信息共享與應(yīng)用實(shí)踐[J].測繪通報(bào),2023(10):101?104.

[6] 陳超,王亮,閆浩文,等.一種基于NoSQL 的地圖瓦片數(shù)據(jù)存儲(chǔ)技術(shù)[J].測繪科學(xué),2023(1):142?143.

[7] MANBER U. Finding similar files in a large file system [C]//Proceedings of the Winter 1994 USENIX Technical Conference.San Fransisco,CA,USA:[s.n.],1994:1?10.

[8] BRODER A Z. On the resemblance and containment of docu?ments [C]// Proceedings of the International Conference on Com?pression and Complexity of Sequences. Salerno,Italy:[s.n.],1997:21?29.

[9] 孫有軍,張大興.海量圖片文件存儲(chǔ)去重技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2023(4):56?57.

[10] RIVEST R. The MD5 message ? digest algorithm [J]. RFC1321,Internet Engineering Task Force,1992,22(1) :15?26.

[11] 成功,李小正,趙全軍.一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究[J].中國新技術(shù)新產(chǎn)品,2023(12):23?24.

[12] 楊祥清.存儲(chǔ)系統(tǒng)數(shù)據(jù)去重策略研究[J].信息通信,2023(8):132?133.

數(shù)據(jù)中心存儲(chǔ)方案范文第5篇

法規(guī)遵從要求和新型的存儲(chǔ)密集型應(yīng)用(如電子郵件、多媒體、生命科學(xué)研究和生物統(tǒng)計(jì)學(xué))正在合力將數(shù)據(jù)增長速度提高到前所未有的水平,并且已經(jīng)使眾多企業(yè)遭受數(shù)據(jù)增長失控的困擾。面對這種情況,大多數(shù)企業(yè)下意識的反應(yīng)都是試圖通過不斷提供容量來滿足數(shù)據(jù)增長的挑戰(zhàn),即一旦系統(tǒng)出現(xiàn)“磁盤空間已滿”的標(biāo)志,新的存儲(chǔ)系統(tǒng)就會(huì)被立即連接到服務(wù)器上。但遺憾的是,在同一環(huán)境中的其他存儲(chǔ)系統(tǒng)卻閑置在一旁。這種系統(tǒng)飽和狀態(tài)和閑置狀態(tài)并存的分散式存儲(chǔ)環(huán)境,從投資回報(bào)的角度看,無法對設(shè)備進(jìn)行充分的利用,導(dǎo)致了存儲(chǔ)設(shè)備的投資浪費(fèi); 從環(huán)保的角度看,為支持分散的存儲(chǔ)系統(tǒng)所需的電力、冷卻系統(tǒng)和地板空間等環(huán)境成本也必將水漲船高,導(dǎo)致了不必要的電力、散熱、空間資源的浪費(fèi)。

采用切實(shí)有效的虛擬化技術(shù),數(shù)據(jù)中心的管理人員可以通過整合存儲(chǔ)資源來積極面對失控的數(shù)據(jù)增長,在為企業(yè)存儲(chǔ)環(huán)境重整秩序的同時(shí)節(jié)省數(shù)據(jù)中心的地板空間資源,并能降低數(shù)據(jù)中心對電力和散熱的需求,從而顯著減少與環(huán)境有關(guān)的成本。

日立數(shù)據(jù)系統(tǒng)(HDS)公司的智能虛擬存儲(chǔ)控制器將磁盤介質(zhì)與提供存儲(chǔ)、數(shù)據(jù)及內(nèi)容服務(wù)的智能控制器分離開來,日立能夠?yàn)橛脩籼峁┹^強(qiáng)的靈活性,并在構(gòu)建綠色數(shù)據(jù)中心方面具有得天獨(dú)厚的競爭優(yōu)勢。

提高存儲(chǔ)密度

存儲(chǔ)基礎(chǔ)架構(gòu)對能源的消耗是和磁盤數(shù)直接掛鉤的,而非存儲(chǔ)的數(shù)據(jù)量,所以容量的密度越大就意味著能耗效率越高,因此利用虛擬化來部署分層存儲(chǔ)和實(shí)施通用管理架構(gòu)能夠大大提高資源利用率。以HDS的USP為例,它不僅配有功能獨(dú)特且強(qiáng)大的基于控制器的虛擬化引擎,還可以將控制器與存儲(chǔ)介質(zhì)相分離,允許企業(yè)將其DAS、NAS和SAN 都整合到一個(gè)存儲(chǔ)平臺中,使用戶可以在短短幾秒鐘內(nèi)將存儲(chǔ)空間分配(或解除分配)給某個(gè)應(yīng)用。

此外,USP還可以通過一個(gè)單一的控制器來管理整個(gè)數(shù)據(jù)中心高達(dá)32 PB的存儲(chǔ)容量,大大提高了數(shù)據(jù)中心每平方米所能支持的TB數(shù)。在使用單個(gè)控制器的前提下,市場上部分同類產(chǎn)品僅能支持0.5 PB,其余產(chǎn)品也不過是1.2 PB。由于HDS的虛擬存儲(chǔ)控制器能夠通過單一的存儲(chǔ)控制器管理龐大的存儲(chǔ)量,因此雖然它擁有的處理器數(shù)量與市場上同類產(chǎn)品相同,但其單機(jī)所支持的存儲(chǔ)容量卻遠(yuǎn)遠(yuǎn)高于同類產(chǎn)品,從而能夠帶給企業(yè)顯著的能源、散熱及空間效益。據(jù)估算,HDS提供的虛擬化和邏輯分區(qū)功能能夠?qū)?shù)據(jù)中心的能源及散熱成本降低30%~50%。

減少熱源

據(jù)Gartner統(tǒng)計(jì),過去數(shù)據(jù)中心的散熱所需電量只要60%,而今天這個(gè)數(shù)字已經(jīng)攀升至100%――現(xiàn)在存儲(chǔ)器每消耗1瓦電就需要額外1~1.5瓦的電力用于散熱。降低數(shù)據(jù)中心散熱需求的關(guān)鍵在于減少熱源。存儲(chǔ)和服務(wù)器機(jī)架應(yīng)當(dāng)配置成冷熱交替排列,否則后排機(jī)架就會(huì)吸收臨近的前排機(jī)架所排出的熱量。在不采用虛擬化的情況下,管理人員就無法擺脫固定配置,而且還可能不得不加大散熱能源的供應(yīng)。通過利用虛擬化,管理人員就能夠重新配置存儲(chǔ)機(jī)架,不僅不會(huì)引起應(yīng)用中斷,還能充分利用更合理的散熱配置。HDS提供的基于控制器的虛擬化能在任何環(huán)境下將控制器與存儲(chǔ)介質(zhì)相分離,而其他供應(yīng)商仍局限于只對機(jī)柜中的存儲(chǔ)器提供支持。HDS同時(shí)能夠提供外部連接存儲(chǔ)虛擬化,這表示企業(yè)可以在數(shù)據(jù)中心之外連接存儲(chǔ)設(shè)備,從而減少數(shù)據(jù)中心的熱源。

降低其他成本

HDS基于USP V平臺率先在企業(yè)級虛擬層實(shí)現(xiàn)了Thin Provisioning(動(dòng)態(tài)精細(xì)化預(yù)配置)功能:USP V和Hitachi Dynamic Provisioning (日立動(dòng)態(tài)與配置)軟件的結(jié)合使用戶能夠在一個(gè)整合的解決方案中同時(shí)獲得外部存儲(chǔ)虛擬化的益處以及由Thin Provisioning帶來的電力和冷卻成本方面的優(yōu)勢。由于傳統(tǒng)的存儲(chǔ)管理和主機(jī)卷管理都要求存儲(chǔ)管理員預(yù)先為應(yīng)用分配足夠的存儲(chǔ)空間,以便確保業(yè)務(wù)應(yīng)用,因此管理員不得不通過過度地分配存儲(chǔ)容量來避免因容量不足而導(dǎo)致應(yīng)用崩潰的風(fēng)險(xiǎn)。但是這種固定的物理卷分配會(huì)造成存儲(chǔ)容量的極大浪費(fèi),也會(huì)促使管理員為了克服時(shí)間與成本的限制而為現(xiàn)有的卷增加性能或容量,從而帶來人為干預(yù)所導(dǎo)致的混亂。

USP V 打破了由于過度配置存儲(chǔ)容量而造成的局限,它采用面向服務(wù)的方法為用戶提供了一種新型的卷創(chuàng)建工具。Hitachi Dynamic Provisioning軟件能夠使用戶根據(jù)自身所預(yù)期的未來需求合理分配虛擬磁盤存儲(chǔ),而無需預(yù)先分配專用的物理磁盤存儲(chǔ)。如果未來應(yīng)用需要更多的物理磁盤容量,用戶可以在將來以更低的價(jià)格購買額外容量,并且透明地實(shí)施安裝,不會(huì)造成其關(guān)鍵任務(wù)應(yīng)用的中斷。由于減少了對物理磁盤的需求,大大提高了容量利用率,因此也減少了對“占地面積”的需求,進(jìn)而為用戶大大降低了空間、電力和冷卻方面的成本。

USP V還可以與日立 Tiered Storage Manager (分層存儲(chǔ)管理軟件)相結(jié)合,識別并應(yīng)對不斷變化的應(yīng)用需求挑戰(zhàn),允許數(shù)據(jù)在存儲(chǔ)層之間的頻繁遷移以確保其一直處于最佳位置,從而使用戶確保其數(shù)據(jù)始終處于最“環(huán)保”的位置。

另外,對于有大規(guī)模整合需求的企業(yè)用戶以及生命科學(xué)、互聯(lián)網(wǎng)服務(wù)及娛樂等數(shù)據(jù)密集型高性能計(jì)算領(lǐng)域的用戶而言,高性能NAS系統(tǒng)有助于降低電力、散熱和數(shù)據(jù)中心空間資源等成本。日立基于BlueArc技術(shù)的高性能NAS平臺不僅能配置成集群,還具備先進(jìn)的內(nèi)置虛擬化系統(tǒng),在很大程度上改變了用戶的成本組成,能夠在很大程度上節(jié)省用戶的環(huán)境資源及成本。

專家點(diǎn)評

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 yyfangchan@163.com (舉報(bào)時(shí)請帶上具體的網(wǎng)址) 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除