一份大數(shù)據(jù)學(xué)習(xí)寶典、值得收藏
在大數(shù)據(jù)的研究中,我們可以將研究分為五個主要部分:數(shù)據(jù)收集,數(shù)據(jù)傳輸,數(shù)據(jù)存儲,數(shù)據(jù)處理和數(shù)據(jù)治理。在數(shù)據(jù)收集部分中,可以分為收集數(shù)據(jù)以及收集的規(guī)則的位置。互聯(lián)網(wǎng)時代為我們提供了各種數(shù)據(jù)格式的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)收集來源包括系統(tǒng)日志,網(wǎng)絡(luò)數(shù)據(jù)和傳感器。系統(tǒng)日志的集合主要通過瀏覽器,應(yīng)用程序和用于埋地點(diǎn)的服務(wù)器獲得,例如用戶訪問點(diǎn)擊數(shù)據(jù),接口呼叫數(shù)據(jù)等以及網(wǎng)絡(luò)數(shù)據(jù)主要通過爬行者等技術(shù)從網(wǎng)站獲得。設(shè)備數(shù)據(jù)主要通過傳感器從物理設(shè)備收集。數(shù)據(jù)收集器確認(rèn)后,下一個問題是用于分配數(shù)據(jù)存儲和數(shù)據(jù)收集的規(guī)則。數(shù)據(jù)量的快速增加一直無法直接在單機(jī)系統(tǒng)中存儲PB級數(shù)據(jù)。有必要在分布式模式下存儲數(shù)據(jù)。數(shù)據(jù)可以通過散列分配到不同的機(jī)器,然后與路由機(jī)制配合。 ,您可以在某個機(jī)器上快速找到某個記錄。可以根據(jù)分布式帽/ ACD /堿的原理決定數(shù)據(jù)的選擇。在數(shù)據(jù)更新中,主從更新的策略,每個機(jī)器節(jié)點(diǎn)的同步更新以及任何節(jié)點(diǎn)的更新都可用于處理數(shù)據(jù)。在數(shù)據(jù)傳輸方面,通常存在可以將收集的數(shù)據(jù)發(fā)送到存儲信道的消息隊(duì)列,數(shù)據(jù)同步和其他方法。消息隊(duì)列現(xiàn)在應(yīng)該是Internet公司最常用的方法。通過消息隊(duì)列,如Kafka和RabbitMQ,服務(wù)分離。生產(chǎn)者負(fù)責(zé)數(shù)據(jù)生產(chǎn),消費(fèi)者訂閱了對消費(fèi)和業(yè)務(wù)處理需求的數(shù)據(jù)。數(shù)據(jù)同步通常用于數(shù)據(jù)倉庫中,并且在各種數(shù)據(jù)源中未處處理的數(shù)據(jù)被傳送到數(shù)據(jù)倉庫。
收集并傳輸數(shù)據(jù)后,存儲數(shù)據(jù)。在存儲方面,通常存在物理存儲,分布式對象存儲和大型數(shù)據(jù)庫存儲。物理存儲的定義是數(shù)據(jù)存儲在磁盤上。存儲類型支持文件存儲,塊存儲和對象存儲。分布式存儲主要提供多個存儲節(jié)點(diǎn)以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的存儲和方面,并支持高可用性,高性能和高可擴(kuò)展性。大型數(shù)據(jù)庫存儲主要用于特定類型或離線分析,例如點(diǎn)擊屋,Hbase,Elasticsearch等大型數(shù)據(jù)庫,用于直接統(tǒng)計(jì)分析,MongoDB和其他文檔數(shù)據(jù)庫主要存儲半結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)處理方面,它主要使用流式計(jì)算,大規(guī)模批量計(jì)算和其他方法來處理數(shù)據(jù)以授權(quán)業(yè)務(wù)。就實(shí)時處理而言,流傳輸計(jì)算方法,例如傳遞,火花和風(fēng)暴通常用于實(shí)時處理數(shù)據(jù)。大規(guī)模批量計(jì)算主要是離線分析。通過離線計(jì)算方法處理數(shù)據(jù),例如MapReduce和Hive,適用于不需要高實(shí)時數(shù)據(jù)的業(yè)務(wù)。在數(shù)據(jù)收集,傳輸,存儲和處理階段之后,數(shù)據(jù)具有其值,可以更好地用于業(yè)務(wù)決策和操作分析。然而,隨著數(shù)據(jù)量變大,業(yè)務(wù)變得越來越復(fù)雜,數(shù)據(jù)的治理是必要的。數(shù)據(jù)治理包括三個方面:元數(shù)據(jù)管理,數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)安全性。元數(shù)據(jù)通常是指數(shù)據(jù)和數(shù)據(jù)之間的相關(guān)信息。通過生命周期管理和業(yè)務(wù)屬性管理,管理員可以更好地執(zhí)行系統(tǒng)維護(hù)和管理。數(shù)據(jù)質(zhì)量主要通過一些過程質(zhì)量管理控制系統(tǒng)控制。在數(shù)據(jù)安全性方面,主要控制數(shù)據(jù)收集安全性,數(shù)據(jù)傳輸安全性,存儲安全性,應(yīng)用程序安全性和其他方面。企業(yè)在用戶信息后掌握更多,我們應(yīng)該做好安全管理和控制。除了上面介紹的專業(yè)內(nèi)容外,大規(guī)模數(shù)據(jù)的存儲,計(jì)算,分析和治理還需要掌握分布式技術(shù),高并發(fā)處理,高可用性處理,集群和實(shí)時計(jì)算。您需要了解微服務(wù)架構(gòu),云計(jì)算和云計(jì)算。概念,如本地,東西,5g等。
?