如今,越來越多企業都開展了數據分析工作,因此不管從事什么行業、什么崗位,擁有一定的數據分析能力在職場中都是“香餑餑”一樣的存在。現在有很多人都有想要學習數據分析知識的心,但還沒有找到數據分析的“路”,不知道應該從何學起。今天小編就帶大家來了解一個很基礎但也比較冷門的知識點—— 數據清洗。
雖然數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗被提(ti)及的(de)頻率不(bu)如數(shu)(shu)(shu)據(ju)(ju)(ju)分(fen)(fen)析(xi)(xi)、數(shu)(shu)(shu)據(ju)(ju)(ju)挖掘、數(shu)(shu)(shu)據(ju)(ju)(ju)可(ke)視化等詞高,但并不(bu)代表(biao)它就不(bu)重要喔,數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗也是(shi)整個數(shu)(shu)(shu)據(ju)(ju)(ju)分(fen)(fen)析(xi)(xi)過程(cheng)中(zhong)不(bu)可(ke)或缺的(de)一環。提(ti)到數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗,你(ni)最(zui)先想(xiang)到什(shen)么(me)問題(ti)?“數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗是(shi)什(shen)么(me)”、“數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗想(xiang)要洗掉什(shen)么(me)”、“數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗的(de)基(ji)本流程(cheng)”……接下來小編會圍繞這3個問題(ti)開始今天的(de)話題(ti)。
 
 
一、數據清洗是什么
數(shu)據(ju)(ju)(ju)清洗(xi),顧名思義就是將要(yao)用到的(de)(de)數(shu)據(ju)(ju)(ju)中重復、多余部分的(de)(de)數(shu)據(ju)(ju)(ju)進行篩(shai)選(xuan)并(bing)清除;把缺失部分補充(chong)完(wan)整(zheng),并(bing)將不正(zheng)確的(de)(de)數(shu)據(ju)(ju)(ju)糾正(zheng)或者刪除。最后整(zheng)理成可以進一步加工、使用的(de)(de)數(shu)據(ju)(ju)(ju)。
二、數據清洗想要洗掉什么
從上(shang)面數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗的概(gai)念就可以大概(gai)知(zhi)道(dao)數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗是(shi)在清(qing)洗什么了,洗掉的就是(shi)數(shu)(shu)(shu)據(ju)(ju)(ju)庫中的“臟(zang)”數(shu)(shu)(shu)據(ju)(ju)(ju)。“臟(zang)數(shu)(shu)(shu)據(ju)(ju)(ju)”,即數(shu)(shu)(shu)據(ju)(ju)(ju)庫中殘缺、錯誤、重復的數(shu)(shu)(shu)據(ju)(ju)(ju)。數(shu)(shu)(shu)據(ju)(ju)(ju)清(qing)洗,旨在提高數(shu)(shu)(shu)據(ju)(ju)(ju)的質量(liang)、縮小數(shu)(shu)(shu)據(ju)(ju)(ju)統計過(guo)程中的誤差值。
三、數據清洗的基本流程
“一圖勝千言”,直(zhi)接(jie)上一張數據清洗的路徑圖,是不(bu)是一目了然(ran)啦!
  
 
1、對缺失值進行清洗
數據清(qing)洗第一步,對缺(que)失(shi)值(zhi)(zhi)進行清(qing)洗。缺(que)失(shi)值(zhi)(zhi)是非(fei)常(chang)常(chang)見的數據問(wen)題,它的處理方(fang)法也很(hen)(hen)多。下面分(fen)享一種(zhong)很(hen)(hen)常(chang)用的方(fang)法,首先是明確缺(que)失(shi)值(zhi)(zhi)的范圍:對每個字段進行計算(suan)其缺(que)失(shi)值(zhi)(zhi)比例,并按照缺(que)失(shi)比例和字段重要性,分(fen)別制定策略。
2、去除不需要的字段
這(zhe)(zhe)個步驟非常(chang)簡單(dan),直接刪(shan)掉(diao)即可。這(zhe)(zhe)里有一個點注意,就是(shi)記得(de)先對數據進行備份,或者先進行小規模的(de)數據實驗(yan),確定(ding)無誤(wu)后在應用到大量的(de)數據上。這(zhe)(zhe)樣做是(shi)為了避免“一誤(wu)刪(shan)成千(qian)古恨”。
3、填充缺失內容
填(tian)(tian)充(chong)缺(que)失數據(ju)有(you)3種方(fang)法,分別(bie)是以業務知(zhi)識/經驗推(tui)測進行(xing)填(tian)(tian)充(chong)、以同一個指(zhi)標計算的結果進行(xing)填(tian)(tian)充(chong)、以不同的指(zhi)標計算的結果進行(xing)填(tian)(tian)充(chong)。
4、重新取數
重(zhong)新(xin)取數(shu)是針對那些指標重(zhong)要但缺失率又較(jiao)高(gao)的數(shu)據,這需(xu)要向取數(shu)人員或是業務人員進行資訊,或者從(cong)其他渠道(dao)取到相(xiang)關數(shu)據。
5、關聯性驗證
如果數據的(de)來源較(jiao)多,就(jiu)有必(bi)要進行關聯(lian)性驗證。
數(shu)據(ju)清洗可以借助(zhu)專業的BI工具來進行,思邁特軟(ruan)件Smartbi就很值得(de)推(tui)薦。思邁特軟(ruan)件Smartbi采用(yong)的是分布式的計算架構,單節點支(zhi)持(chi)多(duo)線程,處理海量數(shu)據(ju)沒(mei)有(you)壓力(li),能(neng)(neng)有(you)效提高數(shu)據(ju)處理的性能(neng)(neng)。強大的數(shu)據(ju)處理功(gong)能(neng)(neng)不僅支(zhi)持(chi)異(yi)構數(shu)據(ju),還(huan)內(nei)置排序(xu)、去(qu)重(zhong)、映射(she)、行列(lie)合并、行列(lie)轉換聚合、去(qu)空值等(deng)等(deng)數(shu)據(ju)預處理功(gong)能(neng)(neng)。
 
 
相信大家現在對數據清洗已(yi)經有了一(yi)定的了解(jie)了,感興趣(qu)的小(xiao)伙伴(ban)可以去找(zhao)些BI工具來試驗一(yi)下,去真實的感受(shou)一(yi)番喔~
來自 “ ITPUB博(bo)客 ” ,鏈接://blog.itpub.net/69985379/viewspace-2851172/,如需轉載,請注明出(chu)處,否則(ze)將追究法律責任。