大資料和傳統的資料探勘的本質區別是什麼?大資料和雲計算的關係

2021-03-21 14:53:18 字數 4847 閱讀 9515

1樓:承德巖弟

大資料的本質就是利用計算機集群來處理大批量的資料,大資料的技術關注點在於如何將資料分發給不同的計算機進行儲存和處理。雲計算的技術關注點在於如何在一套軟硬體環境中,為不同的使用者提供服務,使得不同的使用者彼此不可見,並進行資源隔離,保障每個使用者的服務質量。在大資料和雲計算的關係上,兩者都關注對資源的排程。

大資料處理可以基於雲計算平台。大資料處理也可以作為一種雲計算的服務雲計算改變了 it,而大資料則改變了業務;雲計算是大資料的 it 基礎,大資料須有雲計算作為基礎架構才能高效執行;通過大資料的業務需求,為雲計算的落地找到實際應用。

2樓:匿名使用者

資料探勘與資料分析這兩個概念。很多人會刻意把資料探勘用在如今的大資料上,而把資料分析侷限在傳統的統計資料分析領域。但是也有人會把資料分析作為乙個更大的概念,將各種資料探勘、傳統的統計分析、文字資料分析等都看作是資料分析的乙個方向或類別而已。

這涉及到資料的概念。一般狹義的資料 通常都是我們認為的數字,但是廣義上來說所有語言的文字類、**類、音訊等等各種資料都可以是資料,於是就出現了大資料的概念。

大資料現在一般是指資料量特別大、資料型別包括多種(比如數字、文字、**、聲音等)、涉及的變數多等,所以你可以理解為用「資料」來概括更廣義,而大資料是因為這幾年隨著網際網路的發展、資料量和資料型別的不斷增加而提出的乙個與時俱進的概念。

而大資料的分析通常就是所說的資料探勘或者資料分析,其中用到的分析挖掘方法既包括了傳統的統計資料分析方法,也包括了很多交叉學科的前沿分析方法,比如機器學習、神經網路、遺傳學等。所以要說大資料和傳統的資料探勘或分析的本質區別,或許就是大資料融合了更多學科更多領域的前沿技術,它是不斷與時俱進的,而傳統的資料分析是指侷限於統計學理論應用居多。

再說大資料和雲計算。大資料應該是雲計算的素材吧,沒有大資料,雲計算就好比無公尺之炊。 通常大資料探勘你可以在本地計算機安裝專門的資料探勘軟體來進行計算分析,前提是你的計算機硬體能夠滿足大資料的需求和實時高效運作分析;相比本地計算所出現的就是雲計算,通過伺服器架構的雲空間,在伺服器上進行執行分析處理任務,會更加高效。

傳統的資料探勘和大資料的區別是什麼

3樓:北大青鳥崇德

資料探勘基於資料庫理論,機器學習,人工智慧,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支援向量機,分類回歸樹,和關聯分析的諸多演算法。資料探勘的定義是從海量資料中找到有意義的模式或知識。

大資料是今年提出來,也是**忽悠的乙個概念。有三個重要的特徵:資料量大,結構複雜,資料更新速度很快。

由於web技術的發展,web使用者產生的資料自動儲存、感測器也在不斷收集資料,以及移動網際網路的發展,資料自動收集、儲存的速度在加快,全世界的資料量在不斷膨脹,資料的儲存和計算超出了單個計算機(小型機和大型機)的能力,這給資料探勘技術的實施提出了挑戰(一般而言,資料探勘的實施基於一台小型機或大型機,也可以進行平行計算)。google提出了分布式儲存檔案系統,發展出後來的雲儲存和雲計算的概念。

大資料需要對映為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce演算法框架。在單個計算機上進行的計算仍然需要採用一些資料探勘技術,區別是原先的一些資料探勘技術不一定能方便地嵌入到 map-reduce 框架中,有些演算法需要調整。

此外,大資料處理能力的提公升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大資料時代,可能得到的是總體,而不再是總體的不放回抽樣。

4樓:安徽新華電腦專修學院

傳統的分析是基於結構化、關係性的資料,而且往往是取乙個很小的資料集,來對整個資料進行**和判斷。

大資料是對整個資料全集直接進行儲存和管理分析。

大資料、資料分析和資料探勘的區別是什麼?

5樓:時時時擦

區別:大資料

是網際網路的海量資料探勘,而資料探勘更多是針對內部企業行業小眾化的資料探勘,資料分析就是進行做出針對性的分析和診斷,大資料需要分析的是趨勢和發展,資料探勘主要發現的是問題和診斷。

釋義:大資料:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產;在維克托·邁爾-捨恩伯格及肯尼斯·庫克耶編寫的《大資料時代》 中大資料指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料進行分析處理。

大資料的5v特點(ibm提出):volume(大量)、velocity(高速)、variety(多樣)、value(價值)veracity(真實性) 。

資料分析:是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。

在實用中,資料分析可幫助人們作出判斷,以便採取適當行動。

資料分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得資料分析得以推廣。資料分析是數學與電腦科學相結合的產物。

6樓:cda資料分析師

1、大資料:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

大資料的5v特點(ibm提出):volume(大量)、velocity(高速)、variety(多樣)、value(價值)veracity(真實性)

2、資料分析:是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。

在實用中,資料分析可幫助人們作出判斷,以便採取適當行動。

3、資料探勘:涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支援向量機,分類回歸樹,和關聯分析的諸多演算法。資料探勘的定義是從海量資料中找到有意義的模式或知識。

海闊憑魚躍,天高任鳥飛。對於進入這個行業的同學而言,你可以選擇讀研後再進入這個行業,也可以先就業,用你的工作經驗彌補你的學歷不足。大資料、資料分析或資料探勘是實踐性很強的學科,從實際工作中獲取的知識和能力是你在學校裡面無法學習到的,企業最終也是看重你的實際工作能力。

7樓:只愛小

大資料概念:大資料

是近兩年提出來的,有三個重要的特徵:資料量大,結構複雜,資料更新速度很快。由於web技術的發展,web使用者產生的資料自動儲存、感測器也在不斷收集資料,以及移動網際網路的發展,資料自動收集、儲存的速度在加快,全世界的資料量在不斷膨脹,資料的儲存和計算超出了單個計算機(小型機和大型機)的能力,這給資料探勘技術的實施提出了挑戰(一般而言,資料探勘的實施基於一台小型機或大型機,也可以進行平行計算)。

資料探勘概念: 資料探勘基於資料庫理論,機器學習,人工智慧,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支援向量機,分類回歸樹,和關聯分析的諸多演算法。

資料探勘的定義是從海量資料中找到有意義的模式或知識。

大資料需要對映為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce演算法框架。在單個計算機上進行的計算仍然需要採用一些資料探勘技術,區別是原先的一些資料探勘技術不一定能方便地嵌入到 map-reduce 框架中,有些演算法需要調整。

大資料和資料探勘的相似處或者關聯在於: 資料探勘的未來不再是針對少量或是樣本化,隨機化的精準資料,而是海量,混雜的大資料,資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。

在實用中,資料分析可幫助人們作出判斷。

拓展資料:

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

在維克托·邁爾-捨恩伯格及肯尼斯·庫克耶編寫的《大資料時代》 中大資料指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有資料進行分析處理。大資料的5v特點(ibm提出):volume(大量)、velocity(高速)、variety(多樣)、value(低價值密度)、veracity(真實性)。

雲計算與大資料區別,有沒通俗的解析或好的文章來解釋這兩個詞

8樓:匿名使用者

雲計算,可以理解為一種工具,比如你有乙份100g的檔案,沒辦法一次性讀進一台電腦的記憶體,但是雲計算是一種可以把n臺電腦連線在一起的東西,就可以通過強大的集群效能處理非常大的檔案,比如乙個雲可能有3000臺機器,可能有1w臺機器,它的計算能力就能得到極大提公升,目前主要就是hadoop家族的東西。

而大資料,字面意義就是很大的資料,但在應用中主要是資料探勘等,大量的資料本身沒有意義,而通過一些方法(比如資料探勘的演算法)對大量資料進行分析處理後,能通過計算機發現大量資料中有用的、有價值的東西,把大量資料轉化為價值,這就是大資料

9樓:匿名使用者

對雲計算的定義有多種說法。對於到底什麼是雲計算,至少可以找到100種解釋。現階段廣為接受的是美國國家標準與技術研究院(nist)定義:

雲計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網路訪問, 進入可配置的計算資源共享池(資源包括網路,伺服器,儲存,應用軟體,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務**商進行很少的互動。

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

如果做乙個更形象的解釋,雲計算相當於計算機和作業系統,將大量的硬體資源虛擬化之後再進行分配使用。整體來看,未來的趨勢是,雲計算作為計算資源的底層,支撐著上層的大資料處理,而大資料的發展趨勢是,實時互動式的查詢效率和分析能力。

大資料時代和傳統資料有什麼區別

傳統的分析是基於結構化 關係性的資料,而且往往是取乙個很小的資料集,來對整個資料進行 和判斷。大資料是對整個資料全集直接進行儲存和管理分析。大資料時代簡介 大資料 在網際網路行業指的是這樣一種現象 網際網路公司在日常運營中生成 累積的使用者網路行為資料。這些資料的規模是如此龐大,以至於不能用g或t來...

資料探勘的概念和原理是什麼什麼是資料探勘,或資料探勘的過程是什麼

資料探勘概述 資料探勘又稱資料庫中的知識發現 knowledge discover in database,kdd 是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的 先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧 機...

資料探勘與資料分析的區別是什麼,資料探勘與資料分析的主要區別是什麼

1.資料探勘 資料探勘是指從大量的資料中,通過統計學 人工智慧 機器學習等方法,挖掘出未知的 且有價值的資訊和知識的過程。資料探勘主要側重解決四類問題 分類 聚類 關聯和 就是定量 定性,資料探勘的重點在尋找未知的模式與規律。輸出模型或規則,並且可相應得到模型得分或標籤,模型得分如流失概率值 總和得...