什么是海量數據 海量數據的定義解決方案

海量數據的意思:

海量數據是一個形容詞,它是用來形容巨大的、空前浩瀚的數據。現在,在許多業務部門中都需要操作海量數據,如規劃部門有規劃方面的數據,水利部門有水利方面的數據,氣象部門有氣象方面的數據,測繪部門有測繪方面的數據,這些部門都可能有幾百兆甚至數十千兆的數據,如僅測繪部門的全國1∶25萬地形數據庫的數據量就達4.5Gb(千兆);又如一景包含七個波段的Landsat TM影像的數據量達270兆左右,如果統計覆蓋全國的TM影像的數據量將達到135Gb(千兆),真是不可思議。隨著人類信息化程度的提高,數據已超出它原始的范疇,它包含各種空間數據、報表統計數據、文字、聲音、圖像、超文本等各種環境和文化數據信息。隨著社會信息化程度的提高、計算機的普及,特別是因特網和萬維網(WWW)的迅速發展,世界各地、各行業、各部門以及個人都能通過網絡達到信息共享,使得分布于世界各地的海量數據能有機地聯系在一起。

什么是海量數據?海量數據還可以稱為大數據。對于大數據(Big data)研究機構Gartner給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。

從技術上看,大數據與云計算的關系就像一枚硬幣的正反面。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。其特色在于可對海量數據進行分布式數據挖掘,但必須依托云計算的分布式處理、分布式數據庫以及云存儲、虛擬化技術。

隨著云時代的來臨,大數據也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce –樣的框架來向數十、數百甚至數千臺計算機分配工作。

  1.大數據的特點

相比傳統的數據倉庫應用,大數據分析具有數據量大、查詢分析復雜等特點。《計算機學報》刊登的“架構大數據:挑戰、現狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。

大數據的特點有四個層面:第一,數據體量巨大。從TB級別躍升到PB級別。第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等。第三,處理速度快。1s定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。第四,只要合理利用數據并對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個“V”Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(數據價值大)。

從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。

  2.大數據的用途

大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。

物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。

什么是海量數據?“它”具有哪些特征呢?
 很多年前,業界就在討論一個話題:如何應對海量數據?特別是一些需要存儲大量用戶數據的行業,金融、電信、保險等熱門行業。用戶幾乎在一天的每個小時,都有可能產生大量數據,這些行業的存儲設備,必須要將期間產生的數據一絲不茍地記錄下來,為了防止丟失,還必須做備份,同時還必須做異地的容災備份,這還不算完,業務中斷事件不能超過多少時間范圍,否則就算是重大事故,所以必須通過IT系統保證業務的連續性。

然而,當人們發現數據庫中的數據可以分為三種類型:結構性數據、非結構性數據以及半結構性數據等復雜情況時,問題似乎就沒有那么簡單了。如果僅僅是海量的結構性數據,那么解決的辦法就比較的單一,用戶通過購買更多的存儲設備,提高存儲設備的效率等解決此類問題。

大數據洶涌來襲

但是,當類型復雜的數據洶涌襲來,那么對于用戶IT系統的沖擊又會是另外一種處理方式。很多業內專家和第三方調查機構通過一些市場調查數據發現,大數據時代即將到來。

其中,85%的數據屬于廣泛存在于社交網絡、物聯網、電子商務等之中的非結構化數據。這些非結構化數據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用。

大數據的概念和云計算一樣,也存在著很多的炒作和大量的不確定性。為此,我們咨詢了多位分析師和研究大數據的專家,讓他們解釋大數據是什么和不是什么,以及大數據對于數據挖掘的未來究竟意味著什么等諸多問題。

在云計算繼續成熟和平板電腦廠商之間的競爭日益激烈的氛圍中,2011年預計會看到更多的把多TB(1TB = 1000 GB)數據集用于商務智能和商務分析。多TB數據集也稱作大數據。據市場研究公司IDC統計,數據使用預計將增長44倍,全球數據使用量將達到大約35.2ZB(1ZB = 10億TB)。然而,單個數據集的文件尺寸也將增加,導致對更大處理能力的需求以便分析和理解這些數據集。

存儲巨頭EMC指出,它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的數據數據,這個數字到2020年將增長到10萬。一些客戶在一兩年內還將開始使用數千倍多的數據,1EB(1艾字節 = 10億GB)或者更多的數據。

對大企業而言,大數據的興起部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行多任務處理。其次,內存的成本也在直線下降,企業可以在內存中處理比以往更多的數據。還有就是把計算機聚合成服務器集群越來越簡單。IDC的數據庫管理分析師Carl Olofson認為,這三大因素的結合便催生了大數據。

IDC認為,某項技術要想成為大數據技術,首先必須是成本可承受的,其次是必須滿足IBM所描述的三個V判據中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。

個人理解,拋磚引玉,說的不準確千萬磚下留情,呵呵
海量數據是一般性描述,意指很大的數據量;而大數據則是近年來火熱起來的一個專屬名詞,不僅僅指字面上的大量數據,還包含有針對數據的綜合分析以及特征信息相關的數據挖掘等含義,

不是一個概念。海量數據僅僅是指數據的量比較大,而大數據一般認為有5個V,其中就包括體量大(海量數據),但是大數據還不僅僅是數據量大,還有數據的不確定性、速度等幾個方面。

如果在mysql中想要like檢索,那么需要分詞技術,題主可以了解一下,總之不可以在mysql中用like。
如果是海量數據,用mysql的話,要會自己分庫分表,自己寫查詢查不同的庫,然后匯總,可以考慮使用java或python這類帶并發的語言進行查詢。
海量數據,也可以直接使用nosql的庫,網上很多,我沒用過,但我知道很多人在用。

更多
  • 該日志由 于2017年12月04日發表在 未分類 分類下, 你可以發表評論,并在保留原文地址 及作者的情況下引用到你的網站或博客。
  • 本文鏈接: 什么是海量數據 海量數據的定義解決方案 | 幫助信息-動天數據
  • 文章標簽: ,
  • 版權所有: 幫助信息-動天數據-轉載請標明出處
  • 【上一篇】 【下一篇】

    0 Comments.