臺灣化學工程研究團隊採用 NeoSapphire™ 全閃存儲存陣列加速平行計算效能提高研究效率

「各研究室的 IT 設備預算都極為有限,使用全閃存陣列雖然單機成本較高,但確可省下龐大的 Compute Node 建置費用,且日後營運成本例如電費,也能夠大幅降低。加上省下來的計算時間,可協助各研究室進行更多更精確的分析。我們所接觸的學術單位無不希望提升目前資料分析的速度與品質,NeoSapphire™ P310 已經證明在此領域中大幅提升系統效能,整體機房建置預算也能獲得極佳的控制。」

成果

• 在相同的結構模型下,比較使用傳統硬碟儲存陣列與 P310 全閃存陣列兩者整體計算所需的時間,較前者快 5.4 倍
• 大幅降低整體系統佈建成本與日後營運成本
• 解決儲存設備的效能瓶頸,釋放 Compute Node 原有的效能

挑戰

研究團隊鉆研於各項化學材料的研究與反覆驗證,常會應用各種化學計算軟體論證研究的假設與確定性,其計算的結果可說明許多化學實驗,亦可預測某些驗證過程中產生的中間產物,了解物質的反應機制。也因此,研究團隊需要大量使用量子化學與材料科學計算軟體,然而隨著實驗的複雜度提升,以及不同研究員需要共用同一套 IT 設備,往往實驗結果需要很長的時間才能被產出,而產出後若研究成果需要調整或驗證,也需要時間再次計算。研究團隊以增加 Compute Node (計算節點) 的方式增加系統的計算效能,但在增加至 15 個 Compute Node 之後,仍明顯感受到效能的瓶頸。原本 1 個 Compute Node 所產生的隨機讀寫 (Random read/write) 動作,在新增至 15 個 Compute Node 之後,隨機讀寫的資料量隨之大幅增加,而隨機讀寫正是儲存設備最難處理的工作,也會產生嚴重的計算瓶頸。

解決方案

AccelStor 與思瑋科技研究團隊討論後了解,實驗室的 IT 設備並非是缺乏計算能力,而是在資料都計算處理完之後,效能卡在後端的儲存設備上。實驗室原本採用傳統的硬碟儲存設備,以 SAS HDD RAID 0 組態建立。實驗室採用了 15 個 Compute Node 並以 NFS 協議與硬碟儲存設備接軌,思瑋與 AccelStor 建議,將後段的儲存設備以 NeoSapphire™ P310 取代,並新增一個 10GbE 網路交換器以提高資料交換的頻寬 (如圖表 1)。P310 是全閃存陣列 (All-Flash Array) 以固態硬盤 SSD 組成為儲存單元,SSD 的特色就是存取速度較傳統硬碟快,且 P310 搭載了 AccelStor 獨家的 FlexiRemap® 軟體技術,針對容易造成繫統儲存效能瓶頸的隨機寫入資料,更能完善處理加速運作。

 

導入效益

思瑋科技與 AccelStor 以研究團隊經常使用的 Gaussian 09 軟體,在相同的結構模型之下,使用 Coupled Cluster 方法,比較使用傳統硬碟儲存陣列與 P310 全閃存陣列兩者整體計算所需的時間,傳統硬碟儲存陣列需要 32 分 25 秒,而 P310 僅需要 5 分 47 秒,較前者快 5.4 倍。即使以其他方法計算,P310 仍大幅領先,原因即在於使用 P310 解決原有架構上的儲存瓶頸,讓 Compute Node 的 CPU 全力執行化學計算。AccelStor 團隊更以不同數量的 Compute Node 試算比較,在只有 1 個 Compute Node 時,傳統硬碟儲存陣列與 P310 表現不相上下,但在增加 Compute Node 以及其隨之增加的資料量下,可顯而易見的發現,P310 仍可在一定的時間內執行完所有計算,而傳統硬碟儲存陣列所需的時間卻大幅增加 (圖表 2)。顯見,當叢集繫統計算節點增加後,往往繫統效能瓶頸會由計算能力轉移到儲存效能,又因多節點關係,資料散亂程度增加,一般傳統硬碟儲存陣列將成為效能瓶頸。

再者,以原有多個 Compute Node 的布局,資料寫入散亂程度高,更容易拖慢寫入時間與縮短繫統使用壽命。思瑋科技銷售經理陳延儒說明:「其實各研究室的 IT 設備預算都極為有限,使用全閃儲存存陣列雖然單機成本較高,但確可省下龐大的 Compute Node 建置費用,且日後營運成本例如電費,也能夠大幅降低。加上省下來的計算時間,可協助各研究室進行更多更精確的分析。」