男人摸女人的胸视频,91精品国产91久久久久久最新,黄色视频性爱免费看,黄瓜视频在线观看,国产小视频国产精品,成人福利国产一区二区,国产高清精品自拍91亚洲,国产91一区二区

加急見刊

分析:大數(shù)據(jù)環(huán)境下如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層

佚名

()最近出現(xiàn)了好幾次同樣的對(duì)話場(chǎng)景:問:你是做什么的?答:最近在搞數(shù)據(jù)倉庫。問:哦,你是傳統(tǒng)行業(yè)的吧,我是搞大數(shù)據(jù)的。答:……

發(fā)個(gè)牢騷,搞大數(shù)據(jù)的也得建設(shè)數(shù)據(jù)倉庫吧。而且不管是傳統(tǒng)行業(yè)還是現(xiàn)在的互聯(lián)網(wǎng)公司,都需要對(duì)數(shù)據(jù)倉庫有一定的重視,而不是談一句自己是搞大數(shù)據(jù)的就很厲害了。數(shù)據(jù)倉庫更多代表的是一種對(duì)數(shù)據(jù)的管理和使用的方式,它是一整套包括了etl、調(diào)度、建模在內(nèi)的完整的理論體系。現(xiàn)在所謂的大數(shù)據(jù)更多的是一種數(shù)據(jù)量級(jí)的增大和工具的上的更新。兩者并無沖突,相反,而是一種更好的結(jié)合。

話說,單純用用Hadoop、Spark、Flume處理處理數(shù)據(jù),其實(shí)只是學(xué)會(huì)幾種新的工具,這是搞工具的,只是在數(shù)據(jù)倉庫中etl中的一部分。

當(dāng)然,技術(shù)的更新往往能領(lǐng)到一個(gè)時(shí)代的變革,比如Hadoop的誕生,光是深入研究一個(gè)大數(shù)據(jù)組件就要花很大的時(shí)間和精力。但是在熱潮冷卻之后,我們更應(yīng)該考慮地是如何更好地管理和使用自己的數(shù)據(jù)。

對(duì)于數(shù)據(jù)的從業(yè)者來講,要始終重視緊跟技術(shù)的變革,但是切記數(shù)據(jù)為王,在追求技術(shù)的極致的時(shí)候,不要忘了我們是搞數(shù)據(jù)的。

文章主題

吐槽完畢,本文主要講解數(shù)據(jù)倉庫的一個(gè)重要環(huán)節(jié):如何設(shè)計(jì)數(shù)據(jù)分層!

本文對(duì)數(shù)據(jù)分層的討論適合下面一些場(chǎng)景,超過該范圍場(chǎng)景or數(shù)據(jù)倉庫經(jīng)驗(yàn)豐富的大神就不必浪費(fèi)時(shí)間看了。

數(shù)據(jù)建設(shè)剛起步,大部分的數(shù)據(jù)經(jīng)過粗暴的數(shù)據(jù)接入后就直接對(duì)接業(yè)務(wù)。數(shù)據(jù)建設(shè)發(fā)展到一定階段,發(fā)現(xiàn)數(shù)據(jù)的使用雜亂無章,各種業(yè)務(wù)都是從原始數(shù)據(jù)直接計(jì)算而得。各種重復(fù)計(jì)算,嚴(yán)重浪費(fèi)了計(jì)算資源,需要優(yōu)化性能。

文章結(jié)構(gòu)

最初在做數(shù)據(jù)倉庫的時(shí)候遇到了很多坑,由于自身資源有限,接觸數(shù)據(jù)倉庫的時(shí)候,感覺在互聯(lián)網(wǎng)行業(yè)里面的數(shù)據(jù)倉庫成功經(jīng)驗(yàn)很少,網(wǎng)上很難找到比較實(shí)踐性強(qiáng)的資料。而那幾本經(jīng)典書籍里面又過于理論,折騰起來真是生不如死。還好現(xiàn)在過去了那個(gè)坎,因此多花一些時(shí)間整理自己的思路,幫助其他的小伙伴少踩一些坑。

為什么要分層?這個(gè)問題被好幾個(gè)同學(xué)質(zhì)疑過。因此分層的價(jià)值還是要說清楚的。分享一下經(jīng)典的數(shù)據(jù)分層模型,以及每一層的數(shù)據(jù)的作用和如何加工得來。分享兩個(gè)數(shù)據(jù)分層的設(shè)計(jì),通過這兩個(gè)實(shí)際的例子來說明每一層該怎么存數(shù)據(jù)。給出一些建議,不是最好的,但是可以做參考。

為什么要分層

我們對(duì)數(shù)據(jù)進(jìn)行分層的一個(gè)主要原因就是希望在管理數(shù)據(jù)的時(shí)候,能對(duì)數(shù)據(jù)有一個(gè)更加清晰的掌控,詳細(xì)來講,主要有下面幾個(gè)原因:

清晰數(shù)據(jù)結(jié)構(gòu):每一個(gè)數(shù)據(jù)分層都有它的作用域,這樣我們?cè)谑褂帽淼臅r(shí)候能更方便地定位和理解。數(shù)據(jù)血緣追蹤:簡單來講可以這樣理解,我們最終給業(yè)務(wù)誠信的是一能直接使用的張業(yè)務(wù)表,但是它的來源有很多,如果有一張來源表出問題了,我們希望能夠快速準(zhǔn)確地定位到問題,并清楚它的危害范圍。減少重復(fù)開發(fā):規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算。把復(fù)雜問題簡單化。講一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問題的步驟開始修復(fù)。屏蔽原始數(shù)據(jù)的異常。屏蔽業(yè)務(wù)的影響,不必改一次業(yè)務(wù)就需要重新接入數(shù)據(jù)。

數(shù)據(jù)體系中的各個(gè)表的依賴就像是電線的流向一樣,我們都希望它是很規(guī)整,便于管理的。但是,最終的結(jié)果大多是第一幅圖,而非第二幅圖。

下載