數(shù)字中國建設(shè)規(guī)劃之后,兩會(huì)又確定了國務(wù)院機(jī)構(gòu)改革的方案,組建國家數(shù)據(jù)局,朋友圈紛紛被數(shù)據(jù)人刷屏,這可能算的上是數(shù)據(jù)人的一個(gè)高光時(shí)刻了。近期也有粉絲咨詢數(shù)據(jù)治理工作的崗位前景,有沒有必要考數(shù)據(jù)治理的DAMA證書,今天就花點(diǎn)時(shí)間聊聊數(shù)據(jù)治理那些事。
大禹治水,是因?yàn)楹樗簽E,禍及民生題,修堤建壩河流改道,并且也要防患于未然。百度百科把數(shù)據(jù)治理定義為組織中涉及數(shù)據(jù)使用的一整套的管理行為。所以了解數(shù)據(jù)使用過程涉及的工作,也就能夠更加準(zhǔn)確地理解數(shù)據(jù)治理到底指的是什么了。
數(shù)字中國建設(shè),首先要解決有數(shù)據(jù)的問題,也就是數(shù)據(jù)基建,連數(shù)據(jù)都沒有或者沒采集,上層建筑也就沒有根基,都是空談。
其次是,數(shù)據(jù)準(zhǔn)不準(zhǔn),也就是質(zhì)量的問題,數(shù)據(jù)臟亂差,錯(cuò)誤數(shù)據(jù)帶來錯(cuò)誤的決策指導(dǎo),還不如沒有數(shù)據(jù)拍腦袋。
第三階段就是效率了,想分析個(gè)數(shù)據(jù)要等個(gè)十天半個(gè)月,決策時(shí)效也過了。最后是成本,寒冬還沒過,企業(yè)數(shù)字化轉(zhuǎn)型本質(zhì)是追求依賴數(shù)據(jù)進(jìn)行降本增效,而如果數(shù)據(jù)團(tuán)隊(duì)的人和資產(chǎn)本身成了成本大頭,肯定不是長久之計(jì)。
所以,一切圍繞這四大目標(biāo)而進(jìn)行的相關(guān)開發(fā)工作或者數(shù)據(jù)產(chǎn)品工具的建設(shè),都是數(shù)據(jù)治理的范疇,比如為了獲取數(shù)據(jù),需要制定數(shù)據(jù)采集的流程和規(guī)范,對(duì)于線上業(yè)務(wù)主要是埋點(diǎn)采集,線下靠傳感器或其他數(shù)據(jù)導(dǎo)入。
既然數(shù)據(jù)治理的目的是為了完成數(shù)字化應(yīng)用的四大目標(biāo),那么,數(shù)據(jù)治理日常的工作范疇和全貌主要包含哪些呢?
在數(shù)字化轉(zhuǎn)型意識(shí)覺醒之前,很多企業(yè)數(shù)據(jù)是缺失不全的,甚至很多人都不知道想要分析用戶行為數(shù)據(jù),必須要先埋點(diǎn)采集。在一些公司中,數(shù)據(jù)分析、數(shù)據(jù)產(chǎn)品承擔(dān)了制定埋點(diǎn)規(guī)范的職責(zé),定義數(shù)據(jù)采集的規(guī)范和標(biāo)注,一個(gè)功能上線,需要采集哪些字段,字段的結(jié)果和規(guī)范是怎樣的等。
或者散落在不同的業(yè)務(wù)系統(tǒng),數(shù)據(jù)是孤島般存在的,數(shù)據(jù)中臺(tái)的概念興起后,首要的任務(wù)就是要打破煙囪和孤島,把數(shù)據(jù)統(tǒng)一匯聚起來。不同系統(tǒng)怎么整合和匯聚,不同部門數(shù)據(jù)打架時(shí),該聽誰的也同樣需要制定數(shù)據(jù)匯聚的標(biāo)注和規(guī)范。
主要是指數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)從采集、加工處理到應(yīng)用要經(jīng)歷非常長的鏈路和流程,任何環(huán)節(jié)出了問題,都可能導(dǎo)致數(shù)據(jù)錯(cuò)誤,所以需要建立數(shù)據(jù)質(zhì)量檢查和監(jiān)控的標(biāo)準(zhǔn),防患于未然,提前發(fā)現(xiàn)數(shù)據(jù)問題并修復(fù)
一致性:一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。
完整性:完整性指的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價(jià)值就會(huì)大大降低,也是數(shù)據(jù)質(zhì)量更為基礎(chǔ)的一項(xiàng)評(píng)估標(biāo)準(zhǔn)。
及時(shí)性:及時(shí)性是指數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長。及時(shí)性對(duì)于數(shù)據(jù)分析本身要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時(shí)間過長,就可能導(dǎo)致分析得出的結(jié)論失去了借鑒意義。
準(zhǔn)確性:準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e(cuò)誤。和一致性不一樣,存在準(zhǔn)確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致。更為常見的數(shù)據(jù)準(zhǔn)確性錯(cuò)誤就如亂碼。其次,異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù)。
有效性:對(duì)于數(shù)據(jù)的值、格式要求符合數(shù)據(jù)定義或業(yè)務(wù)定義的要求,如某些電話、郵箱的格式。唯一性:針對(duì)某個(gè)數(shù)據(jù)項(xiàng)或某組數(shù)據(jù),沒有重復(fù)的數(shù)據(jù)值。值必須是唯一的如ID類數(shù)據(jù)。
主要包括數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者兩個(gè)方面,即既要高效生產(chǎn),又可以快速輸出業(yè)務(wù)價(jià)值。這就主要涉及數(shù)據(jù)倉庫的資產(chǎn)化管理和建設(shè),比如元數(shù)據(jù)管理、主數(shù)據(jù)管理等。數(shù)據(jù)生產(chǎn)者:模型開發(fā)效率高,可復(fù)用,通過數(shù)據(jù)倉庫分層建設(shè),提升開發(fā)效率和運(yùn)維效率。
源端業(yè)務(wù)數(shù)據(jù)變動(dòng)只需要修改一層底表邏輯,而不需要所有任務(wù)全部改一遍。數(shù)據(jù)消費(fèi)者:數(shù)據(jù)找得到,敢使用。可以清楚的知道自己需要的數(shù)據(jù)指標(biāo)存放在哪個(gè)指標(biāo)中,統(tǒng)計(jì)邏輯是什么,放心大膽的使用。
這就要求數(shù)據(jù)資產(chǎn)管理的數(shù)據(jù)產(chǎn)品,既能滿足數(shù)倉建設(shè)的高效率,同時(shí)也要具備資產(chǎn)索引地圖的能力,方便業(yè)務(wù)查找和使用數(shù)據(jù)。
大數(shù)據(jù)數(shù)據(jù)量大、價(jià)值密度低導(dǎo)致需要大量的服務(wù)器來存儲(chǔ)每天海量增長的數(shù)據(jù),雖然說Hadoop分布式的能力支持廉價(jià)服務(wù)器的部署,但每臺(tái)4w也架不住幾千幾萬臺(tái)。
所以,數(shù)據(jù)不可能只增不減,還需要持續(xù)做加法,通過數(shù)據(jù)的冷熱分離、無效數(shù)據(jù)歸檔刪除,高耗時(shí)任務(wù)的治理來降低數(shù)據(jù)的存儲(chǔ)和計(jì)算成本。
1)數(shù)據(jù)埋點(diǎn)管理系統(tǒng)將埋點(diǎn)規(guī)范集成到數(shù)據(jù)管理后臺(tái)中,讓整個(gè)埋點(diǎn)流程線上化流轉(zhuǎn),提升埋點(diǎn)工作的規(guī)范化程度,減少漏埋和錯(cuò)埋。即使像一些用戶行為分析系統(tǒng)力推的無埋點(diǎn)或可視化埋點(diǎn),也都有埋點(diǎn)數(shù)據(jù)管理模塊提供界面化的指標(biāo)定義能力。早期的埋點(diǎn)規(guī)則主要靠excel世代相傳。
2)數(shù)據(jù)倉庫開發(fā)與管理匯聚入湖的數(shù)據(jù)需要加工處理才能發(fā)揮其價(jià)值,尤其對(duì)于湖倉一體的架構(gòu)中,涉及到結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉庫模塊的開發(fā)。按照業(yè)務(wù)需求的邏輯對(duì)數(shù)據(jù)進(jìn)行ETL處理,輸出一個(gè)個(gè)的數(shù)據(jù)模型??梢詫?shù)據(jù)模型開發(fā)規(guī)范和流程融入到系統(tǒng)當(dāng)中,是一種低代碼的思想減少數(shù)倉建模的開發(fā)代碼開發(fā),提升模型的規(guī)范化和復(fù)用性,比如阿里的Datapin,系統(tǒng)化的好處在于方便前置化管理建模過程,而不是先污染后治理,弊端是可能沒有開發(fā)自己寫代碼那么靈活。
數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)不準(zhǔn)可以說是業(yè)務(wù)和數(shù)據(jù)團(tuán)隊(duì)最頭疼的問題之一,業(yè)務(wù)拿到數(shù)據(jù)不敢用,先來問下開發(fā)準(zhǔn)不準(zhǔn),開發(fā)不自信,看了任務(wù)看了代碼說應(yīng)該沒問題。數(shù)據(jù)質(zhì)量監(jiān)控圍繞一致性、及時(shí)性、完整性、準(zhǔn)確性維度構(gòu)建豐富靈活的數(shù)據(jù)質(zhì)量規(guī)則配置和自動(dòng)化預(yù)警能力,讓數(shù)據(jù)開發(fā)人員更自信,只要監(jiān)控沒報(bào)警,就可以拍著胸脯說,是不是業(yè)務(wù)上有什么變化。
數(shù)據(jù)資產(chǎn)管理地圖酒香也怕巷子深,數(shù)據(jù)模型開發(fā)完了,找得到、敢使用才能提升復(fù)用性,數(shù)據(jù)地圖通過資產(chǎn)目錄共享和強(qiáng)大的數(shù)據(jù)檢索能力,提供逛數(shù)據(jù)、找數(shù)據(jù)的能力,同時(shí)需要具備豐富的模型元數(shù)據(jù)信息,讓數(shù)據(jù)消費(fèi)者快速判斷是不是自己所需要的數(shù)據(jù),如何使用。
數(shù)據(jù)成本治理與優(yōu)化雖然說大家默認(rèn)數(shù)據(jù)部門是成本中心,但是在這個(gè)寒冬之下,也要勒緊褲腰帶,雖不能開源但總要節(jié)流,哪些數(shù)據(jù)長期無人使用可以歸檔或刪除,哪些任務(wù)SQL性能奇差一個(gè)任務(wù)執(zhí)行10多個(gè)小時(shí),消耗大量CPU、GPU?
數(shù)據(jù)成本優(yōu)化核心目標(biāo)是建立數(shù)據(jù)健康分評(píng)價(jià)體系,自動(dòng)化檢測(cè)治理目標(biāo),并提供歸檔、刪除等自動(dòng)化治理動(dòng)作,從而釋放服務(wù)器資源,常態(tài)化做減法。
數(shù)據(jù)血緣主要解決數(shù)據(jù)的追根溯源的問題,例如數(shù)據(jù)異常,需要通知下游業(yè)務(wù),數(shù)據(jù)治理時(shí)需要下線或者刪除,下游有沒有人在使用,沒有血緣就不敢治理,數(shù)據(jù)&服務(wù)只增不減統(tǒng)一數(shù)據(jù)權(quán)限數(shù)據(jù)安全問題事關(guān)企業(yè)生死存亡和數(shù)據(jù)團(tuán)隊(duì)的“錢途”,統(tǒng)一權(quán)限主要是建立數(shù)據(jù)資產(chǎn)權(quán)限申請(qǐng)、授權(quán)、審計(jì)對(duì)應(yīng)的流程,從而保證數(shù)據(jù)既共享又安全。
數(shù)據(jù)治理可以說是數(shù)字化建設(shè)最基礎(chǔ)的根基部分,在數(shù)字化建設(shè)初期需求量非常大,即使有些企業(yè)追求短期的數(shù)據(jù)應(yīng)用價(jià)值快速可見,終究還是要回過頭來還數(shù)據(jù)治理的技術(shù)債,所以如果當(dāng)前從事的是數(shù)據(jù)治理方向的開發(fā)或者產(chǎn)品工作,就先花1-2年把這個(gè)方向的基礎(chǔ)打扎實(shí),然后再向雨后春筍一樣,遇到合適的機(jī)會(huì)快速向上。
如果開始選擇職業(yè)方向,那就根據(jù)自己專業(yè)背景決定是否以這個(gè)方向切入,計(jì)算機(jī)、統(tǒng)計(jì)、算法、數(shù)學(xué)等專業(yè)背景的上手?jǐn)?shù)據(jù)治理相關(guān)工作相對(duì)會(huì)更快。