一、需求與分析
大氣環(huán)境應(yīng)用需求
引言
近幾年中國大陸的嚴重污染現(xiàn)象頻出,尤其是2011年10月、2013年1月和2014年2月,我國華北地區(qū)、黃淮、江淮、江南等中東部地區(qū)持續(xù)多日出現(xiàn)灰霾天氣,灰霾問題成為社會各界廣泛關(guān)注的焦點。大氣重污染事件的持續(xù)發(fā)生,對人民群眾的身體健康和生產(chǎn)生活造成嚴重影響,受到來自公眾、輿論和中央等各個層面的迫切關(guān)注。這些污染事件是我國在實施新的《環(huán)境空氣質(zhì)量標準(GB3095-2012)》及評價方法后經(jīng)歷的嚴重污染過程,對我國城市空氣質(zhì)量達標和大氣污染防治工作提出了嚴峻的挑戰(zhàn)。2013年9月,國務(wù)院下發(fā)了“大氣污染防治行動計劃”(簡稱大氣十條)的通知,提出了“經(jīng)過五年努力,全國空氣質(zhì)量總體改善,重污染天氣較大幅度減少;京津冀、長三角、珠三角等區(qū)域空氣質(zhì)量明顯好轉(zhuǎn)。力爭再用五年或更長時間,逐步消除重污染天氣,全國空氣質(zhì)量明顯改善”的總體目標。明確要求建立監(jiān)測預(yù)警體系,要求環(huán)保部門加強與氣象部門的合作,建立重污染天氣監(jiān)測預(yù)警體系,要做好重污染天氣過程的趨勢分析,完善會商研判機制,提高監(jiān)測預(yù)警的準確度,及時發(fā)布監(jiān)測預(yù)警信息。
導(dǎo)致我國大氣污染形勢嚴峻的根本原因,是大氣污染特征發(fā)生了本質(zhì)性的變化。由于社會經(jīng)濟和城鎮(zhèn)化的快速發(fā)展,主要城市群正經(jīng)歷由過去比較單一的大氣污染向大氣復(fù)合污染快速轉(zhuǎn)變。以PM2.5、O3(臭氧)為特征的區(qū)域性、復(fù)合性空氣污染日益突出,污染源排放及其影響的地域跨越了城市甚至省際的行政邊界,總體呈現(xiàn)出區(qū)域性和二次污染日趨顯著的特征。這種以PM2.5和O3為代表的二次污染已逐漸成為阻礙我國城市和區(qū)域空氣質(zhì)量改善的主要瓶頸。二次污染問題的復(fù)雜性和危害的嚴重性,決定了其治理的艱巨性。固有的“單打一”的污染物控制思路已經(jīng)很難滿足污染防治的需求,急需開展城市及周邊地區(qū)大氣污染成因、預(yù)報預(yù)警及控制對策研究。
目前許多國家和地區(qū)都開展了空氣質(zhì)量日報和預(yù)報的工作。國際上使用的統(tǒng)計預(yù)報和數(shù)值預(yù)報兩種方法中,數(shù)值預(yù)報以其客觀、實時、準確、高效等特點成為空氣污染預(yù)報研究的發(fā)展趨勢。但數(shù)值預(yù)報涉及到的程序模式眾多,但都有計算量大、通信頻繁、IO需求大等共同點,普通的個人計算機或工作站很難滿足計算需求,所以一個具備高性能、高可用性、高可靠性的高性能計算系統(tǒng)平臺成為空氣質(zhì)量數(shù)值預(yù)報領(lǐng)域研究和應(yīng)用發(fā)展的關(guān)鍵。
浪潮公司在不斷沖擊全球知名的高性能、高端機型排名的同時,我們也對應(yīng)推出滿足多種企業(yè)、事業(yè)和研究機構(gòu)需求的高效、穩(wěn)定的解決方案。在氣象、海洋和環(huán)境等數(shù)值預(yù)報領(lǐng)域,浪潮經(jīng)過十余年的實踐,積累了大量的軟件調(diào)試和業(yè)務(wù)實施經(jīng)驗,并同多個科研機構(gòu)建立長期良好的合作關(guān)系,針對這些行業(yè),浪潮結(jié)合多年的領(lǐng)域?qū)嵤┙?jīng)驗,推出專門的領(lǐng)域軟硬一體化的解決方案,為用戶的研究和業(yè)務(wù)系統(tǒng)順利開展提供最佳的產(chǎn)品選擇。另外,浪潮具有目前國內(nèi)最系統(tǒng)化專業(yè)化水平的數(shù)值預(yù)報領(lǐng)域的HPC支持團隊,能夠?qū)τ脩魬?yīng)用進行專業(yè)的性能調(diào)優(yōu)、流程優(yōu)化、業(yè)務(wù)系統(tǒng)監(jiān)控等工作。
浪潮目前擁有國內(nèi)數(shù)目眾多的數(shù)值預(yù)報領(lǐng)域高性能集群成功案例,最近3年系統(tǒng)規(guī)模超過30萬億次的案例包括深圳氣象局(34萬億次)、上海臺風所(32萬億次)、浙江氣象局(35萬億次)、北京氣象局(90萬億次)等。浪潮在不斷積累成功經(jīng)驗的基礎(chǔ)上,也跟國內(nèi)最專業(yè)的數(shù)值預(yù)報研究單位建立了良好的合作關(guān)系,共同推動數(shù)值預(yù)報在中國環(huán)保、氣象行業(yè)的普及和發(fā)展。
常用空氣質(zhì)量模式
在環(huán)境保護行業(yè)中,利用高性能計算進行數(shù)值模擬,對大氣污染情況進行預(yù)報預(yù)警,并通過源解析指導(dǎo)污染防控和政策指定,并成為科研院所和事業(yè)監(jiān)測機構(gòu)不可或缺的手段之一。
相關(guān)單位包括:
環(huán)保部環(huán)境監(jiān)測和預(yù)報單位(如環(huán)境監(jiān)測總站、各省市的環(huán)境監(jiān)測中心等)
各種環(huán)境研究單位(如中科院大氣所,深圳、廣州、上海、北京、新疆環(huán)境研究所等)
各個高校的環(huán)境學院(北京大學,清華大學,蘭州大學,中山大學,華南理工大學等)
空氣質(zhì)量預(yù)報模式目前應(yīng)用的較多、較成熟的有:中國科學院大氣物理所的NAQPMS模式、美國環(huán)保署(EPA)的Models-3/CMAQ模式及美國Environ公司的CAMx模式、NCAR的WRF-Chem等。
模式計算特點
計算量巨大
中尺度氣象預(yù)報模式(WRF、GRAPES等)和大氣化學模式(如CMAQ)等都有非常大的計算量,且絕大多數(shù)為浮點計算。理論上預(yù)報精度提高一倍,其所需計算量將提高16倍。數(shù)值預(yù)報模式對計算的這一需求,靠單個CPU或普通的計算機根本不可能在有效時間內(nèi)完成,必須利用并行計算。一方面,需要將模式預(yù)報軟件通過消息傳遞或者共享存儲的通信方式并行化,另一方面需要購買高性能并行計算機以滿足計算需求的增長。
目前本文提到的大多數(shù)預(yù)報模式都已經(jīng)完成了并行化,如中尺度預(yù)報模式的WRF、空氣質(zhì)量模式CAMx等既支持MPI消息傳遞并行,又支持OpenMP共享存儲并行,也支持MPI+OpenMP的混合運行模式;CMAQ、NAQPMS目前只支持MPI并行,暫不支持OpenMP并行。
通訊密集
由于這些模式都是并行軟件,同時一般都采用有限差分格點模式并行計算,所以運行這些預(yù)報模式時,各個CPU之間的通訊量很大,模式對通訊的性能要求非常高。如氣象中尺度預(yù)報模式WRF的通訊既包括母域和嵌套域之間的域間通訊,又有各個域內(nèi)部不同數(shù)據(jù)劃分之間的通訊。所以這就要求高性能計算機有高性能的通訊網(wǎng)絡(luò)。
I/O要求高
由于涉及大量的用戶和大量的小文件讀寫,氣象模式程序大都對整個系統(tǒng)的IOPS性能有較高要求,一般要求有分布式IO或者并行文件系統(tǒng)。同時,存儲系統(tǒng)的穩(wěn)定性和可用性對整個業(yè)務(wù)系統(tǒng)的運行至關(guān)重要,在存儲系統(tǒng)的設(shè)計上,一般要求提供高可用解決方案和支持故障自愈的存儲系統(tǒng)。
另外,考慮到氣象數(shù)據(jù)的周期性訪問特性,最好能提供支持基于策略的分級存儲功能。
主模式計算量大
從軟件的處理流程上看,一般分為前處理、主模式和后處理。前處理包括資料的傳輸下載、數(shù)據(jù)同化等等,后處理主要是指圖形化處理生成產(chǎn)品等,前/后處理一般對計算機浮點計算能力要求不是太高,但對綜合處理節(jié)點的I/O處理能力要求較高。主模式是整個系統(tǒng)的主要部分,也是主要雙精度浮點計算量所在,這個部分是對計算機雙精度浮點性能要求非常高。
由于預(yù)報模式上述特點,它對計算環(huán)境有如下要求:
高密度機群系統(tǒng)(Cluster),其具有較高的處理性能;
分級的存儲空間,能存儲周期性業(yè)務(wù)數(shù)據(jù)(熱點數(shù)據(jù))和歸檔數(shù)據(jù)(大數(shù)據(jù));
Linux或者Unix操作系統(tǒng);
C和Fortran 77/90編譯環(huán)境;
MPI和OpenMP并行環(huán)境;
圖形庫和圖形顯示系統(tǒng),如NCL、MICAPS、GrADS、VIS5D、RIP4等;
保證系統(tǒng)能獲取背景場數(shù)據(jù)資料,如NCEP、T213資料;
因此對于構(gòu)建一個數(shù)值預(yù)報平臺業(yè)務(wù)預(yù)報系統(tǒng),在選擇基礎(chǔ)環(huán)境時,以下幾點是非常重要的。
高性能,特別是計算系統(tǒng)的雙精浮點處理性能和前后處理系統(tǒng)的綜合處理能力;
高性能網(wǎng)絡(luò)環(huán)境;
系統(tǒng)的高穩(wěn)定性;
高性能和高可用的并行存儲系統(tǒng),支持歸檔;
成熟、穩(wěn)定的作業(yè)調(diào)度系統(tǒng),具備優(yōu)先級調(diào)度和支持作業(yè)搶占/恢復(fù)調(diào)度。
浪潮擁有一支專業(yè)化的HPC應(yīng)用分析團隊,可以針對客戶應(yīng)用,運用獨有的的測試工具得出具體的硬件平臺需求,從而幫助浪潮提為客戶提供針對性的性價比最高的HPC解決方案。下面WRF氣象軟件的應(yīng)用特征。
二、浪潮高性能氣象行業(yè)解決方案
針對氣象行業(yè)高性能需求的特點,浪潮從應(yīng)用出發(fā),提出了針對化的解決方案,具有以下明顯優(yōu)勢:
高性能,特別是浮點處理性能
氣象軟件對計算能力的需求非常高,因此方案配置了多個雙路節(jié)點,浮點運算能力極強,適合于MPI分布式內(nèi)存的計算。
網(wǎng)絡(luò)帶寬問題
在氣象軟件應(yīng)用中,并行化對于網(wǎng)絡(luò)延時和帶寬的要求很高,我們配置了單向40Gb或56GB的高速Infiniband網(wǎng)絡(luò),滿足所有節(jié)點計算交換需求,網(wǎng)絡(luò)延時低。
存儲帶寬問題
氣象在計算過程中,邊界區(qū)域會產(chǎn)生大量數(shù)據(jù)交換,一個優(yōu)秀的存儲系統(tǒng)能夠滿足軟件對于網(wǎng)絡(luò)帶寬的需求。我們配置了8Gb接口的光纖存儲系統(tǒng),通過專有的IO節(jié)點接入40GB或56GB的Infiniband網(wǎng)絡(luò),不至于出現(xiàn)CPU等待數(shù)據(jù)計算的情況,大大提高了計算效率。
系統(tǒng)高穩(wěn)定性
一套高穩(wěn)定性的系統(tǒng)能夠使我們的氣象應(yīng)用更加方便快捷。浪潮提供的設(shè)計方案集成度高,配置簡單,不僅有效的減少了故障概率,也提高了設(shè)備的利用率,從而保證在實現(xiàn)高可用性,高穩(wěn)定性的情況下為用戶實現(xiàn)最大的投入產(chǎn)出比。
三、浪潮HPC方案優(yōu)勢與價值
系統(tǒng)方案配置滿足用戶需求,計算、存儲、網(wǎng)絡(luò)等部分配比合理,符合用戶應(yīng)用特點,沒有性能或功能上的短板;
系統(tǒng)計算性能強勁,計算資源豐富,節(jié)點選型和配置切合用戶應(yīng)用,瘦節(jié)點、胖節(jié)點、GPU節(jié)點等有機結(jié)合;
存儲系統(tǒng)采用浪潮TSExaStor分布式存儲架構(gòu),提供充足的I/O聚合帶寬,存儲系統(tǒng)穩(wěn)定可靠、具有很強的可擴展性;
采用業(yè)界最先進的56Gb/s FDR InfiniBand高速網(wǎng)絡(luò),作為高速計算網(wǎng)絡(luò)和存儲網(wǎng)絡(luò),56Gb FDR作為目前業(yè)界最領(lǐng)先的網(wǎng)絡(luò)技術(shù),相比上一代的QDR網(wǎng)絡(luò)性能提升一倍,能大幅度提升并行應(yīng)用程序的計算效率,并顯著提升并行存儲系統(tǒng)的I/O聚合帶寬及IOPS性能;
集群監(jiān)控管理網(wǎng)絡(luò)采用千兆交換萬兆上聯(lián)方案,既能保障網(wǎng)絡(luò)性能,又能簡化了布線管理;
方案充分考慮系統(tǒng)的穩(wěn)定可靠性和高可用性,比如主要產(chǎn)品都采用了冗余設(shè)計,系統(tǒng)管理節(jié)點采用雙機冗余配置,存儲系統(tǒng)的雙活冗余設(shè)計、集群監(jiān)控告警系統(tǒng)對系統(tǒng)潛在風險的預(yù)估等方面;
浪潮 ClusterEngine集群監(jiān)控管理系統(tǒng),提供了簡單友好的集群管理和用戶使用界面,提供集群部署、監(jiān)控、告警、管理、統(tǒng)計、報表、作業(yè)調(diào)度等豐富功能; 支持記賬配置,支持按照CPU、內(nèi)存、存儲使用情況計費或者自定義計費策略;支持統(tǒng)計報表導(dǎo)出;支持在線用戶繳費和余額管理;支持作業(yè)運行過程中對作業(yè)進行斷點設(shè)置,并可從斷點處恢復(fù)作業(yè)的運行。
浪潮提供完備的高性能計算基礎(chǔ)軟件環(huán)境,包括編譯器、函數(shù)庫、常用工具庫、并行環(huán)境等,并針對系統(tǒng)進行優(yōu)化,滿足高性能計算程序的開發(fā)和運行需要