大數(shù)據(jù)挖掘中的“大”在哪里?
  • 更新時(shí)間:2024-11-07 05:26:33
  • 網(wǎng)站建設(shè)
  • 發(fā)布時(shí)間:1年前
  • 274

以前我們講數(shù)據(jù)挖掘,大數(shù)據(jù)時(shí)代講大數(shù)據(jù)挖掘。那么大數(shù)據(jù)挖掘的“大”在哪里呢?本文做一些歸納,希望能提供一些思考問題的方法。

不足之處歡迎留言發(fā)表意見。

一、數(shù)據(jù)量的大

數(shù)據(jù)量有多大?這是很多人在挖掘大數(shù)據(jù)時(shí)不得不問的問題。

從一些實(shí)際應(yīng)用來(lái)看,如果每天處理的數(shù)據(jù)量達(dá)到T、P級(jí)別,可以考慮部署Hadoop、Spark等大數(shù)據(jù)處理平臺(tái)。只有一定程度的數(shù)據(jù)處理才能凸顯這些平臺(tái)的優(yōu)勢(shì)。

數(shù)據(jù)量小,讀取和遷移數(shù)據(jù)所花費(fèi)的時(shí)間占太多,不能體現(xiàn)大數(shù)據(jù)處理平臺(tái)的優(yōu)勢(shì)。很多應(yīng)用只是為了大數(shù)據(jù)大數(shù)據(jù),幾百M(fèi)也搞定Hadoop。因此,談大數(shù)據(jù)時(shí)想到Hadoop、Spark等平臺(tái)是非常有限的。

當(dāng)然,在決定是否使用大數(shù)據(jù)平臺(tái)時(shí),可能需要考慮更多的因素,例如:許多低性能機(jī)器的集成、異構(gòu)軟硬件平臺(tái)之間的可移植性、海量非結(jié)構(gòu)化數(shù)據(jù)處理等。

二、數(shù)據(jù)類型的多樣化

在數(shù)據(jù)挖掘時(shí)代,我們挖掘的數(shù)據(jù)主要是關(guān)系數(shù)據(jù)。大數(shù)據(jù)時(shí)代,各種應(yīng)用產(chǎn)生各種數(shù)據(jù),大數(shù)據(jù)挖掘通常涉及多種數(shù)據(jù)類型。這里所說(shuō)的數(shù)據(jù)類型不是編程中的普通數(shù)據(jù)類型,而是更接近于應(yīng)用數(shù)據(jù)表示,通常包括時(shí)序數(shù)據(jù)、軌跡數(shù)據(jù)、圖形數(shù)據(jù)、文本數(shù)據(jù)等。

每天的銷售記錄和價(jià)格都是常見的數(shù)據(jù)類型,但它們從時(shí)間維度上是按順序連接起來(lái)的,形成的時(shí)間序列數(shù)據(jù)可以反映價(jià)格的變化規(guī)律,當(dāng)然具有更豐富的含義。

每個(gè)人的位置只是一個(gè)普通的數(shù)據(jù)類型(x,y),但是按照運(yùn)動(dòng)的先后順序?qū)⑽恢眠B接起來(lái)就構(gòu)成了一個(gè)人的活動(dòng)軌跡,反映了他背后的生活和習(xí)慣。隱藏的信息才是大數(shù)據(jù)應(yīng)該關(guān)注的。

微博或論壇中的每個(gè)人都是獨(dú)立存在的,也是公共數(shù)據(jù),但是如果把每個(gè)人按照粉絲、粉絲等關(guān)系連接起來(lái),就可以形成一個(gè)大圖,即圖數(shù)據(jù)。圖中的人群和離群點(diǎn),以及加入群體偏好、群體移動(dòng)等屬性后的高層次圖數(shù)據(jù),是大數(shù)據(jù)挖掘的重點(diǎn)。

三、數(shù)據(jù)處理的噪音

在數(shù)據(jù)挖掘時(shí)代,數(shù)據(jù)來(lái)源于關(guān)系型數(shù)據(jù)庫(kù),是與業(yè)務(wù)相關(guān)的高質(zhì)量數(shù)據(jù),通??梢灾苯油诰?。這絕對(duì)不是大數(shù)據(jù)挖掘的情況。大數(shù)據(jù)思維決定了我們必須考慮不同來(lái)源數(shù)據(jù)的質(zhì)量和混合數(shù)據(jù)結(jié)構(gòu),以增強(qiáng)數(shù)據(jù)處理的健壯性。例如,要進(jìn)行企業(yè)級(jí)的客戶分析,不同的分支機(jī)構(gòu)可能會(huì)使用不同的客戶管理系統(tǒng)。有的系統(tǒng)用本科/碩士/博士來(lái)區(qū)分客戶的教育背景,有的則用本科/研究生來(lái)區(qū)分。這就需要考慮數(shù)據(jù)的一致性處理。此外,數(shù)據(jù)格式、數(shù)據(jù)完整性等都是大數(shù)據(jù)挖掘需要考慮的東西。

四、數(shù)據(jù)挖掘的多樣化

在數(shù)據(jù)挖掘時(shí)代,一般側(cè)重于單一的數(shù)據(jù)分析,而大數(shù)據(jù)挖掘可能更側(cè)重于業(yè)務(wù)中同時(shí)存在的多個(gè)數(shù)據(jù)挖掘任務(wù),如分類、預(yù)測(cè)、關(guān)聯(lián)、聚類等。雖然有更多的業(yè)務(wù)需求,但是這些分類、預(yù)測(cè)、關(guān)聯(lián)、聚類在底層可能會(huì)使用同一個(gè)模型。因此,在挖掘大數(shù)據(jù)時(shí),考慮模型、算法和業(yè)務(wù)的分離是非常重要的,即所謂的大數(shù)據(jù)處理層次。

我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對(duì)接開發(fā)等。十余年開發(fā)經(jīng)驗(yàn),每一個(gè)項(xiàng)目承諾做到滿意為止,多一次對(duì)比,一定讓您多一份收獲!

本文章出于推來(lái)客官網(wǎng),轉(zhuǎn)載請(qǐng)表明原文地址:https://www.tlkjt.com/web/11917.html
推薦文章

在線客服

掃碼聯(lián)系客服

3985758

回到頂部