葉風(fēng)講的雖然淺顯易懂,但確實(shí)精彩萬分。
“數(shù)據(jù)處理,必須經(jīng)過這幾個(gè)步驟,完成之后才會(huì)有智慧?!?br>
此時(shí)臺(tái)前的葉風(fēng),像極了傳教老師。
下面的眾人,像極了專心聽弟子。
“第一個(gè)步驟是數(shù)據(jù)收集。這里有兩個(gè)方式,第一個(gè)方式是拿,專業(yè)點(diǎn)的說法叫抓取或者爬取,例如萬象搜索就是這么做的,它把網(wǎng)上的所有的信息都下載到它的數(shù)據(jù)中心,然后你一搜才能搜出來。比如你去搜索的時(shí)候,結(jié)果會(huì)是一個(gè)列表,這個(gè)列表為什么會(huì)在搜索引擎的公司里面呢,就是因?yàn)樗堰@個(gè)數(shù)據(jù)啊都拿下來了,但是你一點(diǎn)鏈接,點(diǎn)出來這個(gè)網(wǎng)站就不在搜索引擎它們公司了?!?br>
“比如說網(wǎng)易有個(gè)新聞,你拿萬象搜出來,你不點(diǎn)的時(shí)候,那一頁在萬象數(shù)據(jù)中心,一點(diǎn)出來的網(wǎng)頁就是在網(wǎng)易的數(shù)據(jù)中心了。另外一個(gè)方式就是推送,有很多終端可以幫我們收集數(shù)據(jù),比如說華風(fēng)智能手機(jī)上面的健康管理應(yīng)用,可以將你每天跑步的數(shù)據(jù)、心跳的數(shù)據(jù)、睡眠的數(shù)據(jù)都上傳到數(shù)據(jù)中心里面。”
“第二個(gè)步驟是數(shù)據(jù)傳輸。一般會(huì)通過隊(duì)列方式進(jìn)行,因?yàn)閿?shù)據(jù)量實(shí)在是太大了,數(shù)據(jù)必須經(jīng)過處理才會(huì)有用,可是系統(tǒng)處理不過來,只好排好隊(duì),慢慢的處理?!?br>
“第三個(gè)步驟是數(shù)據(jù)存儲(chǔ)?,F(xiàn)在數(shù)據(jù)就是金錢,掌握了數(shù)據(jù)就相當(dāng)于掌握了錢。要不然別人怎么知道你想買什么呢?就是因?yàn)樗心銡v史的交易的數(shù)據(jù),這個(gè)信息可不能給別人,十分寶貴,所以需要存儲(chǔ)下來。”
“第四個(gè)步驟是數(shù)據(jù)分析。剛才說的存儲(chǔ)數(shù)據(jù)是原始數(shù)據(jù),原始數(shù)據(jù)多是雜亂無章的,有很多垃圾數(shù)據(jù)在里面,因而需要清洗和過濾,得到一些高質(zhì)量的數(shù)據(jù)。對(duì)于高質(zhì)量的數(shù)據(jù),就可以進(jìn)行分析,從而對(duì)數(shù)據(jù)進(jìn)行分類,或者發(fā)現(xiàn)數(shù)據(jù)之間的相互關(guān)系,得到知識(shí)?!?br>
“比如90年代盛傳的沃爾瑪超市啤酒和尿布的故事?!?br>
葉風(fēng)剛剛舉了一個(gè)例子,還沒說完,大家就會(huì)心笑起來。
在坐的各位,都是精英,基本上都聽過這個(gè)故事。
尤其是紅旗大賣場(chǎng)的總裁曹世茹,她知道在美國有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為她津津樂道,常常用來教育下面的員工。
沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。
內(nèi)容未完,下一頁繼續(xù)閱讀