女生迈开腿打扑克又痛又叫|在卧室被躁哭还继续做|迈开腿给我看看你的草莓印|么公的好大好硬好深好爽视频|十分钟免费观看视频|乡村乱情乱睡小|啦啦啦视频在线观看 视频

新聞 > 新聞詳情

解碼分布式:存儲環境下海量非結構化數據安全

公司動態|發布于2021-02-19 14:29:02

本期熱點——非結構化數據時代,集中存儲VS分布式存儲


      非結構化數據的重要之處在于它所提供的語境,通過其對應的數據流能更準確地對未來趨勢進行解鎖,即對行業動向進行可視化拆分及分析。據IDC調查報告顯示,全球企業數據量中結構化數據僅占20%,以多種格式存在的非結構化數據及半結構化數據占比約為80%,且逐年遞增60%。

      存在Oracle、SQL Server等數據庫中的結構化數據(即行數據)往往是可以通過二維邏輯表(數字、符號等)來表達實現。而非結構化數據(XML、圖像、聲音、超媒體等信息)往往是先有數據,再有結構,因此難以被納入關系數據庫。尤其是,將海量非結構化數據進行存儲絕非易事。數據專家60%的時間都花費在清理和整理非結構化數據上(《福布斯》)。

      此外,面對海量數據劇增的情況下,通過增加存儲節點,極易造成成本劇增、管理困難及系統的高負載性等諸多問題。對于非結構數據SAN、NAS等傳統存儲架構顯然是不適合的,面對未來的數據存儲需求,分布式存儲架構具有鏈路聚合及Scale-out擴展能力等特性,可實現4K/8K視頻儲存的帶寬需求、資源池的高可用性及訪問更加便捷。


      柏科數據深耕數據存儲、數據保護及數據生產三大領域,依托在存儲架構、存儲管理軟件及存儲核心算法等方面的核心技術,針對海量非結構數據存儲需求,自主研發推出IS -Cloud分布式存儲系統。

      在“智慧城市”數字化建設方案中,柏科數據為視頻監控網絡部署了IS -Cloud分布式存儲系統解決方案,為其配置分布式存儲內部數據交換網絡(集群內網)、業務數據訪問網絡(集群外網)、IPMI管理網絡以及分布式存儲配置管理網絡。

      整體方案配置兩臺元數據節點及數臺分布式存儲節點,基于X86的分布式存儲的集群架構,實現了較強的Scale-out擴展能力。選用SSD作為相應的存儲實現方式。可將I/O性能線性提高到幾十個GB或者上百個GB的聚合帶寬,實現每秒數十萬個的文件查詢效率,大幅度減少計算任務的數據IO時間,提高系統的整體效率。




?冗余保護策略

      多副本及糾刪碼是數據冗余保護策略中,較為重要的兩項數據安全技術。多副本是通過多路讀寫的方式,將副本存放至不同存儲節點的資源池內,實現數據冗余備份,通過副本對數據進行恢復,有效應對物理故障。即副本就是對原始數據的完全拷貝,有效地提高文件的可用性,避免在物理上分散的存儲節點或硬盤由網絡斷開或機器故障等不可測因素而引起的數據丟失或不可獲取。副本數量越多,文件的可靠性就越高,同時通過對多個副本的并行讀取,進一步分散和平衡節點負載,提高文件讀取的效率,提高系統的I/O性能。副本保護機制是目前業界安全性最高底層技術。

      相對于副本校驗的方式,糾刪碼技術不需要完整寫入真實的數據副本,主要通過糾刪碼算法將原始數據進行編碼,可實現存儲空間高可用。其基本思想是指將K塊原始的數據通過一定的計算,得M塊編碼塊。對于這K+M個數據塊,其中任意個數據塊出現故障,可通過對應的重構算法將原始的K數據塊進行恢復,提高了磁盤的整體利用率。




      如圖所示,采用糾刪碼方式的存儲池是以 K+M 個數據塊,來存儲一個單一對象,其中分為 K 個數據塊和 M 個編碼塊。首先,將一個糾刪碼存儲池規劃為3+2的配置形式,那么一個對象需要分別存儲到五個 OSD 上,最多可以容忍其中兩個丟失數據的風險( M = 2 )。

      當包含 ABCDEFGHI 的對象 NYAN 被寫入存儲池時,糾刪編碼函數把內容分割為三個數據塊,假設切割為分別包含 ABC 、 DEF 、和 GHI的三份 ,另外還會創建兩個編碼塊:第四份是 YXY 、第五份是 GQC ,各個塊分別存入 acting set 中的 OSD 內。這些塊擁有相同的名字NYAN,但是位于存儲節點不同的 OSD 上;分塊順序也會作為對象的一個屬性存儲起來。

      從糾刪碼存儲池中讀取 NYAN 對象時,假設最先讀取到的三個塊是:包含 ABC 的塊 1 ,包含 GHI 的塊 3 和包含 YXY 的塊 4 ,解碼函數會立刻重建對象的原始內容 ABCDEFGHI 。即使我們說塊 5 因為 OSD4 異常沒有辦法讀取, 塊2因為OSD2 讀取較慢最后獲取到,糾刪碼的機制下只需要有三塊讀出就可以立刻調用解碼函數,即為糾刪碼技術針對數據保護環境下的高性能讀寫速度及數據安全性能。