壓縮數據上的關系代數操作算法
摘要:針對在大數據管理中,在壓縮的數據上無需解壓即可進行相關操作的問題,在數據服從正態分布的前提下,根據列數據存儲的特點,提出了一種新的面向列存儲的壓縮方法——CCA。首先,通過對列數據的長度進行歸類;然后,采用抽樣的方法獲得重復度較高的前綴;最后,使用字典編碼進行壓縮,提出了列索引(CI)和列實體(CR)作為數據壓縮結構來降低大數據存儲的空間需求,從而直接有效地在壓縮數據上支持選擇、投影、連接等基本操作,并實現了基于CCA的數據庫原型系統——D-DBMS。理論分析和在1 TB數據上的實驗結果表明,該壓縮算法能夠顯著提高大數據的存儲效率和數據操作性能,與BAP和TIDC壓縮方法相比,在壓縮率分別提高了51%、14%;在執行速度上提高了47%、42%。
注: 保護知識產權,如需閱讀全文請聯系計算機應用雜志社