出擊海量數據 曙光衛星遙感大數據方案
發(fā)布時(shí)間:2013-05-28來自:IT168網
遙感技術是從地面(miàn)到空間對(duì)地球、天體觀測的各種(zhǒng)綜合性技術系統的總稱。由遙感平台、遙感儀器以及信息接受、存儲、處理與分析應用等分系統組成(chéng)。遙感技術是正在飛速發(fā)展的高新技術,它已經(jīng)形成(chéng)的信息網絡,正時(shí)時(shí)刻刻、源源不斷地向(xiàng)人們提供大量的科學(xué)數據和動态信息。
遙感平台是遙感過(guò)程中乘載遙感器的運載工具,主要的遙感平台有高空氣球、飛機、火箭、人造衛星、載人宇宙飛船等。遙感器是遠距離感測地物環境輻射或反射電磁波的儀器,除可見光攝影機、紅外攝影機、紫外攝影機外,還(hái)有紅外掃描儀、多光譜掃描儀、微波輻射和散射計、側視雷達、專題成(chéng)像儀、成(chéng)像光譜儀等。
遙感器搜集到的原始數據經(jīng)過(guò)接收裝置接收後(hòu),進(jìn)行集中式存儲,通常是以非結構化文件的形式保存。原始數據的可讀性很差,通常需要進(jìn)行加工處理後(hòu),才便于分析。根據分析内容和側重點不同,原始數據的加工處理方法也不同,同一套原始數據經(jīng)常需要反複讀取和處理。最後(hòu),處理後(hòu)的數據也會(huì)保存在存儲系統中,可能(néng)以非結構化文件形式保存,也可能(néng)導入結構化的數據庫中,方便以後(hòu)查閱,或與前端應用系統集成(chéng)。
需求分析
存儲類型
衛星遙感的數據處理系統對(duì)存儲類型需求多樣(yàng)。衛星遙感的原始數據主要爲巨大的非結構化的文件數據,這(zhè)些原始數據的存儲、處理需要基于文件系統的非結構化存儲系統作爲支撐;經(jīng)處理後(hòu)的結果數據,通常需要導入數據庫用于後(hòu)期查詢和應用,需要結構化存儲系統來支持;此外,整套系統也有數據歸檔備份相關的需求,需要相應的數據歸檔備份存儲系統。
存儲容量
衛星遙感的原始數據量非常巨大,取得這(zhè)些數據的成(chéng)本和代價高昂,數據的重要性非常高,需要海量的存儲系統對(duì)數據進(jìn)行保存。從目前的應用情況看,有的系統對(duì)存儲容量的需求會(huì)高達上百PB級。
存儲性能(néng)
衛星遙感的數據存儲及處理對(duì)存儲系統的性能(néng)要求很高,特别是并發(fā)IO帶寬。主要針對(duì)原始數據的非結構存儲系統,在原始數據采集導入的時(shí)候需要較高的寫入帶寬,需要通過(guò)條帶化等處理方式加快原始數據寫入,避免成(chéng)爲性能(néng)瓶頸;原始數據的處理需要頻繁的讀入原始數據,通常都(dōu)是通過(guò)MPIO等數據并行方式來加快并行處理速度,這(zhè)需要非結構存儲系統提供充足的并發(fā)讀帶寬;對(duì)于結構化存儲系統,同樣(yàng)有很高的性能(néng)要求,衛星遙感的數據庫非常龐大,前端應用系統對(duì)數據的查詢調用開(kāi)銷很大,需要通過(guò)有效的方式提高數據庫的查詢性能(néng),減小前端系統的等待時(shí)間。
可擴展性
衛星遙感數據是海量的,且存儲容量和存儲性能(néng)随著(zhe)業務量的增長(cháng)而增長(cháng)。通常一套系統的建設初期數據存儲和處理量不大,但未來會(huì)出現爆發(fā)式的增長(cháng)。如果采用一次性投入的方式,前期會(huì)造成(chéng)較大的資源浪費,後(hòu)期存儲系統容量及性能(néng)不足的時(shí)候又較難擴展。因此,較合理及高性價比的方案是采用分批建設,這(zhè)就(jiù)要求整套存儲系統具有及高的可擴展性,最好(hǎo)能(néng)支持在線擴展,避免擴展時(shí)對(duì)業務系統造成(chéng)中斷。同時(shí),系統擴展時(shí)需要做到存儲容量和性能(néng)的線性增長(cháng)。
分級存儲
衛星遙感的數據量非常巨大,合理的分級存儲機制同樣(yàng)是降低系統整體成(chéng)本,提高效率的有效手段。存儲系統可分爲在線、近線、離線等部分。在線存儲系統的性能(néng)最好(hǎo)、容量相對(duì)較小,主要用于存儲和處理“熱點數據”;近線存儲系統的性能(néng)相對(duì)較低,容量較大,主要用于存放較少訪問的數據;離線存儲一般爲數據歸檔備份系統,用于對(duì)曆史數據進(jìn)行歸檔,或者對(duì)關鍵數據進(jìn)行備份。
解決方案
根據對(duì)衛星遙感領域的大數據需求分析,曙光衛星遙感數據存儲處理系統的整體解決方案框架如下:
在數據存儲層,Parastor分布式并行存儲系統負責非結構化衛星遙感原始數據的存儲,Parastor具有大容量、高帶寬、線性擴展、易管理、高性價比等特性,自動支持分級存儲,支持Windows/Linux等多種(zhǒng)客戶端,可通過(guò)千兆/萬兆以太網或InfiniBand高速網提供全局共享的統一文件系統存儲;結構化存儲系統通過(guò)DCstor存儲虛拟化控制系統將(jiāng)磁盤陣列存儲設備整合成(chéng)存儲資源池,同樣(yàng)具有線性擴展的特性,支持存儲分級和自動精簡配置,提供FC SAN訪問接口,用于結構化數據庫存儲,再結合XData結構化數據查詢分析系統,實現結構化數據的高速查詢及分析;DBstor歸檔備份系統提供非結構化文件及結構化數據庫的歸檔或備份,支持磁帶庫、虛拟帶庫等存儲設備。
在應用層,數據采集接收系統負責接收衛星數據資料,并將(jiāng)這(zhè)些原始數據并發(fā)寫入Parastor分布式并行存儲系統;數據處理高性能(néng)計算集群負責原始數據的加工處理,由統一的作業調度系統進(jìn)行資源管理和任務分配,Parastor的高帶寬爲數據處理的數據并行提供了充分保障,數據計算處理完成(chéng)後(hòu),通過(guò)數據庫服務器寫入到DCstor結構化存儲資源池中。前端應用服務器可通過(guò)XData數據查詢分析系統進(jìn)行結構數據的快速查詢及分析,前端應用服務器也可對(duì)Parastor上的原始數據進(jìn)行查詢及分析。
整套系統通過(guò)曙光Gridview監控管理平台對(duì)存儲系統、網絡系統、計算集群、應用系統等進(jìn)行統一監控和管理。
曙光衛星遙感領域大數據整體解決方案,針對(duì)衛星遙感的行業應用特點,提供了多種(zhǒng)類型的存儲資源,支持Windows/Unix/Linux等異構平台,存儲系統具有大容量、高并發(fā)、高帶寬、高性能(néng)、高可擴展性等典型特征,滿足衛星遙感的數據存儲和處理分析需求,還(hái)通過(guò)分級存儲、自動精簡配置等方式提高存儲資源的利用效率、降低投入和運行成(chéng)本。大數據存儲系統與數據處理系統、前端應用系統等無縫結合,并提供了統一的監控和管理平台,易于管理和使用。