分布式云安全存儲系統的研究與應用

2019-06-13 01:54:19 網絡空間安全 2019年1期

楊翠翠 邵大鵬 周濤 呂美敬

摘? ?要:隨著信息技術的高速發展,網絡用戶迅猛增加。如今的互聯網正處于一個信息爆炸的時代,對信息的存儲和處理導致了海量數據的產生。海量分布式云安全存儲系統主要是對海量信息進行存儲和處理,通過多項安全技術的融合,最終實現安全性高、性能高、業務連續性高的分布式存儲系統。論文在對分布式云安全存儲系統的特點進行深入分析的基礎上,就分布式云安全存儲系統的關鍵性技術的實現細節和設計模式進行了詳盡的分析和闡述。同時,基于其技術理論,構建了實際的云安全存儲系統,并進行了環境實測,最終實現了預期的目標。

關鍵詞:分布式;云安全;存儲系統;研究;應用

中圖分類號:TP302.1? ? ? ? ? 文獻標識碼:A

Abstract: With the rapid development of information technology, Internet users are increasing rapidly. Nowadays, the Internet is in an era of information explosion, and the storage and processing of information leads to the generation of massive data. Massive distributed cloud security storage system mainly stores and processes massive information, and finally realizes the distributed storage system with high security, high performance and high business continuity through the integration of many security technologies. Based on the in-depth analysis of the characteristics of the distributed cloud security storage system, this paper analyzes and expounds the implementation details and design patterns of the key technologies of the distributed cloud security storage system. At the same time, based on its technical theory, the actual cloud security storage system is constructed, and the environment is measured. Finally, the expected goal is achieved.

Key words: distributed; cloud security; storage system; research; application

1 引言

隨著信息技術的高速發展,網絡用戶迅猛增加。如今的互聯網正處于一個信息爆炸的時代,對信息的存儲和處理導致了海量數據的產生。所謂海量數據,是指數據量極大,一般是TB(1012bytes)、PB(1015bytes)、EB(1018bytes)級別的數據集合。針對互聯網中的海量數據,傳統的存儲技術和C/S存儲模式已經難承其重。

對于海量數據而言,幾乎無法實現在單一設備上的存儲方式,采用分布式的存儲技術是一種合適的解決方案,其顯現了強大的生命力,得到了企業界和科學界的廣泛認可。海量信息的存儲不僅對存儲設備的儲存容量有要求,還需要大規模數據庫來存儲和處理這些信息。因此,在滿足通用關系數據庫技術要求的前提下,還需要對影響海量數據存儲系統性能的存儲模式、安全架構、數據庫策略和應用體系等進行更進一步的設計考慮。分布式云安全存儲系統主要是對海量信息進行存儲和處理,通過多項安全技術的融合,最終實現安全性高、性能高、業務連續性高的分布式云安全存儲系統。

2 分布式云安全存儲系統的特點

分布式云安全存儲系統在存儲模式、數據庫策略以及安全性方面均具有自身的特點,這些是實現對海量數據的高效、安全存儲的重中之重。

2.1 存儲模式

分布式云安全存儲系統采用的是對象存儲(Object-Based Storage, OBS)的存儲模式,其綜合了NAS和SAN的優點,且同時具有SAN的高速直接訪問和NAS的數據共享等優勢,提供了具有高性能、高安全性、跨平臺以及安全的數據共享的存儲體系結構。不同存儲模式的比較分析如表1所示。

2.2 數據庫策略

數據庫管理系統(DBMS)是分布式云安全存儲系統的核心部件,所有對數據的控制都需要通過DBMS來實現。針對海量數據,高性能且安全有效的數據存儲方法中可采取的數據庫策略主要有分區技術和并行處理技術兩種。所謂分區技術,就是為了更精細的對數據庫對象進行管理和訪問,可以對這些數據庫對象進行深入的劃分。其中的數據庫對象主要指表、索引以及索引編排表等。所謂并行處理技術,是指為了提高數據庫系統的性能,讓其多個處理器協同工作來執行單個SQL語句。

2.3 安全性

隨著數據的爆炸式增長,存儲系統的規模不斷擴大,而存儲設備的安全性卻一直沒有顯著改善,這給數據的持久化存儲帶來了巨大的困難。SSD從SLC到MLC和TLC的安全性一直下滑,磁盤隨著單位面積寫入數據越來越多導致安全性無法提高。此外,存儲系統中的冷數據的增加遠遠超過了熱數據的增加,冷數據的安全保存及獲取是存儲系統的重要環節。分布式云安全存儲系統采用三副本、跨機器做EC等安全相關技術提高了存儲系統中數據的冗余度、容錯度和安全性。

3 分布式云安全存儲系統的關鍵技術

存儲系統的安全性主要取決于硬盤壽命、容錯度和單位修復時間。硬盤壽命比較難調整,且與采購成本掛鉤;容錯度通常與系統的冗余度有關,且直接關系成本;單位修復時間是指單塊硬盤損壞的修復時間,不同的實現方式存在很大差異。以上三點是存儲系統安全性的關鍵指標。其中,系統的冗余度作為存儲系統安全性指標的重中之重,其實現方式是分布式云安全存儲系統的關鍵技術。

保證數據冗余度的兩個重要方法是編碼策略和副本策略。在原始數據發生部分丟失的情況下,這兩種策略都可以保證數據獲取的正確性。編碼策略是將原始數據分塊并編碼生成冗余數據塊,其可以保證即使丟失一定量內的數據塊,原始數據仍舊可以獲取到。副本策略是將原始數據拷貝一份或者多份進行存儲。

在保證存儲系統冗余度方面,分布式云安全存儲系統可以進行不同的配置方式,主要包括基本模式和高級模式兩種。

3.1 基本模式——三副本方式

三副本方式系統冗余度為3塊硬盤,容錯度為允許3塊硬盤同時損壞2塊,在單位修復時間內,同時損壞3塊盤以上,則發生數據丟失。三副本方式是將同一份數據拷貝成三份存儲在不同的數據節點上。三副本方式的存儲系統結構圖如圖1所示。

采用三副本模式后,分布式云安全存儲系統的具體實現方式如圖2所示。其中,NameNode節點為元數據節點,里面主要保存元數據信息,例如文件系統目錄樹信息、文件和塊的對應關系、文件系統的更改記錄等內容。DataNode節點為數據節點,主要保存具體的數據塊信息。由圖2可知,每個數據塊同時存在于三個不同的數據節點中,三個數據節點中同時損壞兩個及以下的數量,均不會造成數據丟失。

DFS的讀操作流程同寫操作流程是相呼應的,具體的流程描述有五步驟:

(1)客戶端與NameNode通訊獲取文件的塊位置信息,其中包括了塊的所有冗余備份的位置信息,即所在DataNode的列表;

(2)客戶端獲取文件位置信息后直接同有文件塊的DataNode通訊,讀取文件;

(3)如果第一個DataNode無法連接,客戶端將自動聯系下一個DataNode;

(4)如果塊數據的校驗值出錯,則客戶端需要向NameNode報告,并自動聯系下一個DataNode;

(5)重復第(2)、(3)、(4)步過程,直至數據讀取成功,讀操作完成。

3.2 高級模式——跨機器做EC

在技術層面上,存儲系統的核心需求是安全性和成本,而這兩者又是相互矛盾的。提升系統安全性降低丟失數據的風險,勢必要增加數據拷貝的份數,而增加每份數據拷貝的份數,又勢必會造成成本的增加。分布式云安全存儲系統采用EC冗余算法來平衡這個核心需求。EC冗余算法是將一份數據拆分成M份,并將這M份數據代入一個多元線性方程組,算出N份校驗數據,然后將這M+N份數據存儲。在存儲下來的M+N份數據中,有任何一份或者多份數據發生損壞,都可以通過這個多元線性方程組將損壞的數據算回。使用EC冗余算法的存儲系統最多支持N份數據損毀而不丟失數據。

采用跨機器做EC的高級模式后,分布式云安全存儲系統的冗余度為(N+M)/N,容錯度為允許N+M塊硬盤同時損壞M塊,在單位修復時間內,同時損壞M+1塊盤,才會發生數據丟失。分布式云安全存儲系統通過計算,將M和N均做到比較大的數值,且M遠遠大于N,這樣使得系統的冗余度很高、容錯度很大,且備份數又非常低。在一定程度上,很好地平衡了存儲系統的安全性和建設成本。

4 分布式云安全存儲系統的應用

在對分布式云安全存儲系統深入研究的基礎之上,以中央財經大學為應用場景,將分布式云安全存儲系統進行了實際業務環境的測試和使用。中央財經大學全校師生共有2萬人左右,涉及的科研、學工、教務、人事、組織、財務、招生、校園卡等信息,數據量較大,且數據塊較小,因此海量分布式云安全存儲系統是適合該應用場景的。具體的配置流程是:采用10臺型號為NS3000-16的存儲服務器搭建了分布式云安全存儲系統,配置為三副本的基本模式,同時對存儲系統的冗余度、容錯度進行了配置。基于分布式云安全存儲系統之上,構建了云安全管理平臺,實現了對近200臺虛擬化服務器的配置、使用和管理,該200臺虛擬服務器主要部署了中央財經大學廣大師生相關的應用系統。在構建之初,對分布式云安全存儲系統的容量、冗余度和容錯度分別進行了驗證性測試,均達到預期效果。系統啟用至今已經2年多了,雖出現過硬件損壞但均未造成數據丟失,具有良好的穩定性和安全性。由于該存儲系統主要是面向中央財經大學的全體師生,數據來源較為單一,其在海量數據的存儲和安全管理方面的優勢還有待在實際使用中進一步驗證和測試。

5 結束語

本文在對分布式云安全存儲系統的特點進行深入分析的基礎上,就分布式云安全存儲系統的關鍵性技術的實現細節和設計模式進行了詳盡的分析和闡述。同時,基于其技術理論,構建了實際的存儲系統,并進行了環境實測,最終實現了預期的目標。通過對分布式云安全存儲系統的細致研究,將其應用到了實際的工作環境中,并計劃在今后的實際使用過程中不斷的完善之前的研究內容,繼續攻克新的技術難點,推動分布式云安全存儲系統的進一步發展和完善。

參考文獻

[1] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al.. Google BigTable—A Distributed Storage System for Data[C]. OSDI, 2006.

[2] 劉琨,李愛菊,董龍江.基于Hadoop的云存儲的研究及實現[J].微計算機信息, 2011.

[3] Jeffrey Dean, Sanjay Ghemawat. MapReduce:Simplied data processing on large clusters [C]. Proceedings of the 6th Symposium on Operating System Design and Implementation. New York: ACM Press. 2004.

作者簡介:

楊翠翠(1985-),女,漢族,河北衡水人,北京工業大學,研究生,工程師;主要研究方向和關注領域:計算機網絡與應用。

邵大鵬(1984-),男,漢族,吉林德惠人,北京工業大學,研究生,工程師;主要研究方向和關注領域:信息安全。

周濤(1972-),男,漢族,吉林長春人,西安電子科技大學,本科,工程師;主要研究方向和關注領域:計算機網絡與應用。

呂美敬(1988-),女,漢族,山東濟寧人,華北電力大學,研究生,工程師;主要研究方向和關注領域:計算機網絡與應用。

福建36选7走势图幸
体彩排列5什么时间开奖 股票股票配资平台 福州麻将app哪个好 广东快乐二十分钟开 竞彩半全场技巧 微乐长春麻将手机版 广西快乐双彩基本走势图 辽宁35选7的开奖号码是多少 天津台球比赛 gpk王者捕鱼游戏下载 一分快三app下载平台 支付宝天天红包赛反作弊 股票指数基金排名 英超主题曲 亦乐贵州捉鸡麻将下 内蒙古十一选五走势图内蒙古