
青島游戲機構 什么是大數據
什么是大數據,也就是大數據概念A的定義,是大數據概念的核心。目前,大數據的概念尚未形成統一的認識。一些文獻從技術分析、應用價值、社會發展影響等角度對大數據概念進行了不同的定義。這些多樣化的定義可以統一到廣義的大數據概念中,即大數據是數據、技術、人才和組織的組合。例如,大數據發展、大數據建設、大數據政策等,使用廣義的大數據概念。一般來說,大數據是指數據本身,這是一個狹義的大數據概念。其中,麥肯錫最權威、最有影響力的定義是:大數據是指超出典型數據庫軟件采集、存儲、管理和分析能力的數據集。這個定義以數據規模為衡量大數據的標準,強調大數據的大,從而區分大數據和小數據。
大數據被標榜為大數據,認為大數據是所有數據(N=all),即使用手頭的所有數據,而不是其中的一小部分。然而,N=all只是一個誘人的假象。首先,并不是所有的信息源都能生成數據。以人為例,無論PC、平板、智能手機、可穿戴設備如何普及,還是有相當一部分人錯過了這些設備,在數據上屬于沉默者。因此,基于互聯網和智能終端的數據不是所有數據。尤其是人的思想、心理、情緒、意識等。,通常不能以數據的形式表達出來,而且除了所有數據。其次,數據收集受公民隱私、商業秘密或國家安全等客觀條件的制約,導致數據空白和數據不足。第三,大數據本身不是全面數據。受有意操縱、誘導或無意識主觀偏見的影響,獲得的大數據可能是片面的、局部的。另外,數據公開,數據共享并非絕對的,而數據壁壘,數據孤島仍將長期存在。所以,大數據并不等于全部數據,它仍然是部分數據,局部數據。此外,大數據之所以如此大,是因為數字圖片和數字圖像的興起導致了數據量空間的膨脹,其中包含了大量無用的數據,遠沒有很多人想象的那么重要。追求所有數據只會增加成本和算法的難度,不一定能產生實際效果。
大數據的大,即數據量,是否有明確的標準?英特爾和美國國家科學基金會提出,一個機構每周產生和分析500TB以上的數據可以稱為大數據。另一種說法是,大數據的數量級通常應該達到太字節(TB)的數量級。這兩種觀點對大數據量的描述差異很大。事實上,數據量是大數據的外在特征,并非衡量大數據的唯一標準。在2011年的一項調查中,美國《科學》雜志發現,在科學研究中,48.3%的受訪者不到1GB,92.4%的受訪者使用的數據不到1TB。事實上,日常大數據分析不需要大規模的數據集,Hadoop運行處理輸入的數據集往往小于14GB。即便是Facebook,90%的任務,數據集也不到100GB。大數據的大數據的大用Big表達,而不是Large或Vast。后者是指具體直觀的體積,而Big是指抽象意義。可見,不要拘泥于從數據量上理解大數據。在大數據應用中,不要迷戀大,盲目追求完美,盲目收集大數據;而是要根據自己的數據能力和價值目標選擇所需的核心數據。