香港虛擬主機(jī)對(duì)SEO網(wǎng)站優(yōu)化的影響 |
發(fā)布時(shí)間:2016-10-25 文章來(lái)源: 瀏覽次數(shù):2694 |
數(shù)據(jù)審核匡助我們發(fā)現(xiàn)數(shù)據(jù)中存在的題目,而這些題目有時(shí)候可以利用一些方法就行修正,從而晉升數(shù)據(jù)的整體質(zhì)量,數(shù)據(jù)修正就是為了完成這個(gè)任務(wù),可以從以下幾個(gè)方面進(jìn)行修正: 填補(bǔ)缺失值 對(duì)于記實(shí)缺失的題目,最簡(jiǎn)樸的辦法就是數(shù)據(jù)回補(bǔ)。一般而言統(tǒng)計(jì)指標(biāo)數(shù)據(jù)缺失可以從原始數(shù)據(jù)中重新統(tǒng)計(jì)獲取,而原始數(shù)據(jù)缺失可以從抽取的數(shù)據(jù)源或者備份數(shù)據(jù)中回補(bǔ)。假如原始數(shù)據(jù)完全丟失,基本就回天無(wú)力了。 對(duì)于字段值的缺失,良多資料都會(huì)先容使用一些統(tǒng)計(jì)學(xué)的方法進(jìn)行修補(bǔ),實(shí)在就是對(duì)缺失值的猜測(cè)或者估計(jì),一般會(huì)使用均勻數(shù)、眾數(shù)、前后值取均勻等方法,或者使用回歸分析的方法擬合指標(biāo)的變化趨勢(shì)后進(jìn)行猜測(cè)。這些方法在缺失值無(wú)法使用其他途徑找回或者重新統(tǒng)計(jì)計(jì)算,并且在缺失值有變化規(guī)律可循的條件下都是可取的,當(dāng)某天的指標(biāo)值丟失機(jī)可以通過(guò)這類(lèi)方法根據(jù)前幾天的數(shù)據(jù)來(lái)預(yù)估該天的數(shù)值。但良多時(shí)候網(wǎng)站分析中假如底層的日志存在缺失值,我們很難猜測(cè)詳細(xì)的缺失值,由于訪問(wèn)的細(xì)節(jié)幾乎是無(wú)跡可尋的,所以對(duì)于訪問(wèn)記實(shí)存在缺失值并且這些字段的缺失會(huì)顯著影響一些統(tǒng)計(jì)指標(biāo)的計(jì)算時(shí),最簡(jiǎn)樸的方法就是舍棄該記實(shí),但這種直接過(guò)濾掉缺失記實(shí)的方法一些只會(huì)用于訪問(wèn)日志等不需要非常精確的數(shù)據(jù)上,假如是網(wǎng)站的運(yùn)營(yíng)、交易等這些需要保證完全計(jì)算正確的數(shù)據(jù)絕對(duì)是不能直接舍棄的,而且對(duì)于訪問(wèn)日志中缺失或者異常記實(shí)的過(guò)濾也需要基于對(duì)這類(lèi)數(shù)據(jù)的統(tǒng)計(jì)基礎(chǔ)上,一般的原則是不太重要的字段假如缺失或者異常的記實(shí)占比小于1%或者5‰的情況下可以選擇過(guò)濾這些記實(shí),假如占比比較高,需要進(jìn)一步排查日志記實(shí)是否存在題目。 刪除重復(fù)記實(shí) 數(shù)據(jù)集里面某些字段的值必定是獨(dú)一的,好比按天統(tǒng)計(jì)的指標(biāo)值中的日期字段,用戶信息表的用戶ID等,這些需要保證獨(dú)一的規(guī)則可以對(duì)數(shù)據(jù)庫(kù)設(shè)置獨(dú)一約束,但我們?cè)谧鯡TL處理時(shí),有時(shí)為了保證數(shù)據(jù)加載全過(guò)程可以不由于違背獨(dú)一約束而間斷(有時(shí)Load的過(guò)程需要較長(zhǎng)的時(shí)間或處理本錢(qián),ETL需要有容錯(cuò)能力以保證整個(gè)過(guò)程不被間斷)會(huì)先忽略重復(fù)記實(shí),待整個(gè)ETL過(guò)程結(jié)束后再對(duì)需要保證獨(dú)一的字段進(jìn)行去重處理。 這些重復(fù)記實(shí)可以比對(duì)Data Profiling中數(shù)據(jù)統(tǒng)計(jì)信息的獨(dú)一值個(gè)數(shù)和記實(shí)總數(shù)是否一致進(jìn)行審核,而進(jìn)行修正的最簡(jiǎn)樸辦法就是重復(fù)記實(shí)僅留存一條,刪除其他記實(shí)。這個(gè)需要根據(jù)現(xiàn)實(shí)情況,有時(shí)也可能使用把重復(fù)記實(shí)的統(tǒng)計(jì)量相加的方法進(jìn)行去重。 轉(zhuǎn)化不一致記實(shí) 數(shù)據(jù)的轉(zhuǎn)化是數(shù)據(jù)倉(cāng)庫(kù)抽取數(shù)據(jù)過(guò)程中最常見(jiàn)的處理,由于數(shù)據(jù)倉(cāng)庫(kù)“集成性”的特征,需要把來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)集中存入數(shù)據(jù)倉(cāng)庫(kù),而不同數(shù)據(jù)源對(duì)某些含義相同的字段的編碼規(guī)則會(huì)存在差異,好比用戶ID,固然是相同的用戶,但可能A系統(tǒng)的ID是u1001,B系統(tǒng)是1001,C系統(tǒng)是100100,來(lái)源于這三套系統(tǒng)的用戶ID就需要同一,好比我們將A數(shù)據(jù)源的u前綴去除,C系統(tǒng)ID除100后同一成B系統(tǒng)的編碼方式一起導(dǎo)入數(shù)據(jù)庫(kù);即使是來(lái)源于統(tǒng)一套日志,也可能存在記實(shí)的不一致,好比之前碰到較早發(fā)布的產(chǎn)品版本記實(shí)的日志中移動(dòng)操縱系統(tǒng)是Android,而版本更新后記實(shí)改成了android,新老版本的日志打到了一起,于是也會(huì)涉及數(shù)據(jù)的轉(zhuǎn)化,但這種記實(shí)的不一致性無(wú)疑會(huì)增加ETL的處理本錢(qián)。 上面舉例的轉(zhuǎn)化規(guī)則是比較簡(jiǎn)樸的,在數(shù)據(jù)倉(cāng)庫(kù)的ETL處理數(shù)據(jù)轉(zhuǎn)化時(shí)可能會(huì)碰到一些很BT的規(guī)則,這個(gè)時(shí)候最樞紐的仍是對(duì)數(shù)據(jù)源記實(shí)方式足夠的認(rèn)識(shí),這樣才能保證進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是一致的。最好的做法就是數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)工程師與其他前臺(tái)系統(tǒng)的開(kāi)發(fā)職員能事先商定一套同一的數(shù)據(jù)記實(shí)和編碼的方式,這樣可以減少后期的協(xié)調(diào)溝通和轉(zhuǎn)化處理本錢(qián)。 處理異常數(shù)據(jù) 異常數(shù)據(jù)大部門(mén)情況是很難修正的,好比字符編碼等題目引起的亂碼,字符被截?cái),異常的?shù)值等,這些異常數(shù)據(jù)假如沒(méi)有規(guī)律可循幾乎不可能被還原,只能將其直接過(guò)濾。 有些數(shù)據(jù)異常則可以被還原,好比原字符中參雜了一些其他的無(wú)用字符,可以使用取子串的方法,用trim函數(shù)可以去掉字符串前后的空格等;字符被截?cái)嗟那闆r假如可以使用截?cái)嗪笞址茖?dǎo)出原完整字符串,那么也可以被還原,好比移動(dòng)操縱系統(tǒng)的記實(shí)一般包括Symbian、Android、iPhone、BlackBerry等,假如某些記實(shí)的是And,那么可以被還原成Android,由于其他的移動(dòng)操縱系統(tǒng)被截?cái)嗖豢赡芊浩餉nd這種記實(shí)。數(shù)值記實(shí)中存在異常大或者異常小的值是可以分析是否數(shù)值單位差異引起的,好比克和千克差了1000倍,美元和人民幣存在匯率的差異,時(shí)間記實(shí)可能存在時(shí)區(qū)的差異,百分比用的是小于1的小數(shù)仍是已經(jīng)乘了100等等,這些數(shù)值的異常可以通過(guò)轉(zhuǎn)化進(jìn)行處理,數(shù)值單位的差異也可以以為是數(shù)據(jù)的不一致性,或者是某些數(shù)值被錯(cuò)誤的放大或縮小,好比數(shù)值后面被多加了幾個(gè)0導(dǎo)致了數(shù)據(jù)的異常。 最后,總結(jié)一下數(shù)據(jù)可修正的條件:1) 數(shù)據(jù)質(zhì)量的題目可以通過(guò)Data Auditing的過(guò)程被審核出來(lái);2) 數(shù)據(jù)的題目必需有跡可循,可以通過(guò)趨勢(shì)進(jìn)行猜測(cè)或者可以通過(guò)一些規(guī)則進(jìn)行轉(zhuǎn)換還原。否者,對(duì)于異常數(shù)據(jù)只能直接進(jìn)行刪除丟棄,但進(jìn)行數(shù)據(jù)過(guò)濾之前必需評(píng)估異常記實(shí)的比例,當(dāng)占比過(guò)高時(shí)需要重新審核原始數(shù)據(jù)的記實(shí)方式是否存在題目。 |
|