存儲系統組

存儲系統課題組包括分布式存儲與操作系統兩個研究方向。

分布式存儲方向

面對日益增長的海量數據,如何從軟件層面管理和利用分布式的硬件資源提供存儲服務是我們要解決的主要問題。機群文件系統是分布式存儲的重要基礎軟件,也是云計算的重要組成部分。利用機群文件系統提供海量存儲服務是目前大多數存儲服務提供商的選擇。我們基于機群文件系統這一存儲平臺主要研究的問題有如下幾個方面:

1,元數據管理

面對海量元數據尤其是超大目錄,提供可擴展的分布式元數據管理服務,需要研究支持可擴展的、動態的分布式索引結構。考慮到EB級數據存儲規模,未來元數據管理應支持萬億至千萬億級別元數據。并能支持動態數據遷移和負載均衡。與此同時,數據的放置信息也需提供分布式、可擴展、無中心結構的查詢及存儲組織方法。

2,糾刪碼存儲

提供高性價比的可靠性存儲是支持海量數據存儲的條件之一。相比較于復本的可靠性方式,糾刪碼存儲能夠在50%的存儲開銷下實現與三復本存儲相同的可靠性保障。糾刪碼存儲的主要問題是糾刪碼的數據編碼、數據更新和數據恢復三個過程的開銷較高。因此,我們的研究問題就是提高數據編碼效率,減少數據更新過程的I/O操作,并降低數據恢復的開銷。

3,數據去重與壓縮

數據去重與壓縮是進一步降低海量數據存儲成本的利器,尤其是對于冷數據。我們需要研究面向通用數據的通用數據去重與壓縮方法,比如分布式去重系統中的分布式數據路由問題和去重節點內的指紋值高效索引問題,也需要研究面向特殊數據比如生物基因數據的數據壓縮方法,比如可參照壓縮方法,針對FASTQ數據的復合式壓縮方法。未來還需針對不同科學大數據進行有針對性的去重壓縮研究。


操作系統方向

立足傳統高性能通信方向的積累,面向艾級高性能計算與大規模數據處理,開展“COMM+”、“HPC+”的研究,向下基于現代可定制、異構加速的硬件平臺,向上結合HPCBigData融合型應用特征,提供協同設計的高性能、高通量的系統軟件與中間件支持,具體來說:

 1,控制平面

開展基于硬件虛擬化機制與高性能RDMA通信的資源解聚(Resource Disaggregation)研究。為HPC提供大SMP、大內存支持,兼顧集群Scale-out的低成本與多處理器Scale-up的易編程,滿足計算與通信模式不規則類型應用的需求;為BD提供細粒度的負載均衡與多副本高可用機制,均衡與副本均以vCPU與內存Page為單位,支持在線切換且避免了大規模的數據與磁盤映像傳輸。

2,數據平面

開展面向多核架構、外層緩存與集成I/O以及高性能I/O設備的數據通路優化研究。將MPI RDMA協議擴展至KVGraph等應用,數據通路延伸至用戶級NVMe協議與受限運行時JVM,通過完全旁路內核與運行時以及網絡與存儲的協同調度,為I/O密集型應用提供低開銷、性能可預測的數據通路。

3,加速平面

開展以加速器為中心的服務化操作系統研究。操作系統定位控制平面,CPU定位編排器,數據于加速器與I/O之間直通流動,計算流程的觸發與推動由加速器發起,從而降低數據中轉開銷并提供簡化的異構編程模型與運行時支持。向下基于統一I/O、融合網絡等的新型體系結構,向上結合KVGraph等的應用特征,提供應用-結構協同設計的加速支持。