數據治理(DG)是管理企業系統中數據的可用性、可用性、完整性和安全性的過程,它基于內部數據標準和也控制數據使用的策略。有效的數據治理可確保數據一致且值得信賴,并且不會被濫用。隨著組織面臨新的數據隱私法規并越來越依賴數據分析來幫助優化運營和推動業務決策,它變得越來越重要。
一個設計良好的數據治理計劃通常包括一個治理團隊、一個充當管理機構的指導委員會和一組數據管理員。他們共同制定數據管理標準和政策,以及主要由數據管理員執行的實施和執行程序。理想情況下,除了 IT 和數據管理團隊之外,來自組織業務運營的高管和其他代表也會參與。
獨立顧問 Nicola Askham 在 2022 年 1 月的一篇博文中寫道,雖然數據治理是整體數據管理戰略的核心組成部分,但組織需要關注治理計劃的預期商業利益才能取得成功。紐約梅隆銀行首席數據官埃里克·赫施霍恩 (Eric Hirschhorn) 在 2022 年企業數據世界數字會議期間的一次會議上提出了同樣的觀點。“結果不能只是良好的治理,”他說。“結果必須是經營更好的企業。”
這份全面的數據治理指南進一步解釋了它是什么、它是如何工作的、它提供的商業利益、最佳實踐和治理數據的挑戰。您還將找到可以幫助治理流程的數據治理軟件和相關技術的概述。在整個指南中,超鏈接指向相關文章,這些文章更深入地涵蓋了正在討論的主題。
為什么數據治理很重要?
如果沒有有效的數據治理,組織中不同系統中的數據不一致可能無法得到解決。例如,客戶名稱在銷售、物流和客戶服務系統中可能會有所不同。這可能會使數據集成工作復雜化,并產生影響商業智能 (BI)、企業報告和分析應用程序準確性的數據完整性問題。此外,可能無法識別和修復數據錯誤,進一步影響 BI 和分析的準確性。
這些是制定數據治理計劃的一些主要原因。糟糕的數據治理也會阻礙監管合規計劃。這可能會給需要遵守越來越多的數據隱私和保護法律的公司帶來問題,例如歐盟的 GDPR 和加州消費者隱私法案 (CCPA)。企業數據治理計劃通常包括開發適用于所有業務系統的通用數據定義和標準數據格式,從而提高業務和合規性用途的數據一致性。
數據治理目標和收益
數據治理的一個關鍵目標是打破組織中的數據孤島。當各個業務部門在沒有集中協調或企業數據架構的情況下部署單獨的事務處理系統時,通常會形成這種孤島。數據治理旨在通過協作過程協調這些系統中的數據,各業務部門的利益相關者參與其中。
另一個數據治理目標是確保數據得到正確使用,既可以避免將數據錯誤引入系統,也可以阻止對客戶個人數據和其他敏感信息的潛在濫用。這可以通過制定統一的數據使用政策以及監控使用情況和持續執行政策的程序來實現。此外,數據治理有助于在數據收集實踐和隱私要求之間取得平衡。
除了更準確的分析和更強的合規性之外,數據治理提供的好處還包括提高數據質量;降低數據管理成本;并增加了數據科學家、其他分析師和業務用戶對所需數據的訪問權限。最終,數據治理可以通過為高管提供更好的信息來幫助改進業務決策。理想情況下,這將帶來競爭優勢并增加收入和利潤。
誰負責數據治理?
在大多數組織中,不同的人參與數據治理過程。這包括業務主管、數據管理專業人員和 IT 人員,以及熟悉組織系統中相關數據域的最終用戶。這些是主要參與者及其主要治理職責。
首席數據官。首席數據官 (CDO)(如果有的話)通常是負責監督數據治理計劃并對其成敗負有高層責任的高級管理人員。CDO 的職責包括確保項目獲得批準、資金和人員配備;在設立過程中發揮主導作用;監控其進展;并在內部充當它的倡導者。如果組織沒有 CDO,則通常由另一位最高層主管擔任執行發起人并處理相同的職能。
數據治理經理和團隊。在某些情況下,CDO 或相當的執行官——例如企業數據管理主管——也可能是實際數據治理項目經理。在其他情況下,組織會任命一名數據治理經理或負責人專門負責運行該程序。無論哪種方式,項目經理通常都會領導一個全職處理項目的數據治理團隊。有時更正式地稱為數據治理辦公室,它協調流程、領導會議和培訓課程、跟蹤指標、管理內部通信并執行其他管理任務。
數據治理委員會。不過,治理團隊通常不制定政策或標準決策。這是主要由業務主管和其他數據所有者組成的數據治理委員會或委員會的責任。該委員會批準基本數據治理政策和相關的政策和規則,如數據訪問和使用,以及實施它們的程序。它還解決了爭議,例如不同業務部門之間在數據定義和格式方面的分歧。
數據管理員。數據管理員的職責包括監督數據集以使其保持有序。他們還負責確保數據治理委員會批準的政策和規則得到實施,并確保最終用戶遵守這些政策和規則。具有特定數據資產和領域知識的工作人員通常被任命來處理數據管理角色。這在一些公司是全職工作,在另一些公司是兼職。還可以混合使用 IT 和業務數據管理員。
這顯示了數據治理過程中的主要參與者以及他們扮演的角色。數據架構師、數據建模師和數據質量分析師和工程師通常也是治理流程的一部分。此外,業務用戶和分析團隊必須接受數據治理政策和數據標準方面的培訓,這樣他們才能避免以錯誤或不當的方式使用數據。您可以在技術作家 George Lawton 撰寫的相關文章中了解有關數據治理角色和職責以及如何構建治理程序的更多信息。
數據治理框架的組件
數據治理框架由作為治理計劃的一部分實施的政策、規則、流程、組織結構和技術組成。它還詳細說明了項目的任務說明、目標和成功的衡量方式,以及項目中各種職能的決策責任和問責制。一個組織的治理框架應該被記錄下來并在內部共享,所以每個參與的人都清楚——預先——這個項目將如何運作。
在技??術方面,數據治理軟件可用于自動化管理治理程序的各個方面。雖然數據治理工具不是強制性的框架組件,但它們支持程序和工作流管理、協作、治理策略的開發、流程文檔、數據目錄的創建和其他功能。它們還可以與數據質量、元數據管理和主數據管理 ( MDM ) 工具結合使用。
數據治理實施
數據治理應該是組織的一項戰略舉措。在一篇關于創建數據治理策略的文章中,咨詢公司 TreeHive Strategy 的負責人 Donald Farmer 推薦了一系列要采取的步驟,包括以下待辦事項:
在實施數據治理框架之前,Farmer 提到的另一個步驟是識別整個企業中不同數據資產的所有者或保管人,并讓他們——或指定的代理人——參與治理計劃。然后,CDO、執行發起人或專門的數據治理經理帶頭創建項目結構,為數據治理團隊配備人員,確定數據管理員并正式組建治理委員會。
一旦結構到位,管理數據的真正工作就開始了。必須制定數據治理政策和數據標準,以及定義授權人員如何使用數據的規則。此外,還需要一套控制和審計程序來確保持續遵守內部政策和外部法規,并保證數據在應用程序中以一致的方式使用。治理團隊還應記錄數據的來源、存儲位置以及如何保護數據免受濫用和安全攻擊。
數據治理計劃通常還包括以下要素:
管理數據治理計劃的最佳實踐
由于數據治理通常會對數據的處理和使用方式施加限制,因此在組織中可能會引起爭議。IT 和數據管理團隊之間的一個共同擔憂是,如果他們領導數據治理計劃,他們將被業務用戶視為“數據警察”。為促進業務支持并避免抵制治理政策,經驗豐富的數據治理經理和行業顧問建議項目由業務驅動,數據所有者參與其中,數據治理委員會就標準、政策和規則做出決策。
數據治理的培訓和教育是計劃的必要組成部分,特別是讓業務用戶和數據分析師熟悉數據使用規則、隱私要求以及他們自己幫助保持數據集一致的責任。通過報告、電子郵件通訊、研討會和其他外展方法的組合,與企業高管、業務經理和最終用戶就數據治理計劃的進展進行持續溝通也是必須的。
溝通和培訓是Farmer 在第二篇文章中概述的一組七個數據治理最佳實踐的一部分。其他一些包括盡可能靠近源系統應用數據安全和隱私規則,在組織的每個級別制定適當的治理策略并定期審查治理策略。
Gartner 分析師 Saul Judah 推薦了一種自適應數據治理方法,該方法將不同的治理策略和風格應用于各個業務流程。他還列出了成功管理數據和分析應用程序的這七個基礎:
促進數據治理流程最佳實踐的專業協會包括 DAMA International 和 Data Governance Professionals Organization。Data Governance Institute 是一個由當時的顧問 Gwen Thomas 于 2003 年創立的組織,它發布了一個數據治理框架模板和各種關于治理最佳實踐的指南。一些信息在其網站上公開提供,而其他材料只能由付費會員訪問。其他地方也提供類似的指南——例如,在由 EWSolutions 維護的 DataManagementU 在線圖書館中。
數據治理挑戰
通常,數據治理工作的早期步驟可能是最困難的,因為組織的不同部分通常對關鍵數據實體(例如客戶或產品)有不同的看法。這些差異必須作為數據治理過程的一部分加以解決——例如,通過就通用數據定義和格式達成一致。這可能是一項充滿爭議且難以處理的工作,這就是為什么數據治理委員會需要一個明確的爭議解決程序。組織在數據治理方面面臨的其他常見挑戰包括以下內容。
展示其商業價值。如果沒有數據治理計劃的預期業務收益的前期文檔,獲得批準、資助和支持可能會很困難。在她 2022 年 1 月的博客文章中,Askham 表示,企業高管希望在治理計劃開始時就知道對他們有什么好處。“如果你不能以他們真正感興趣并使他們受益的方式回答這個問題,他們就不會感興趣,”她寫道。
在持續的基礎上,展示業務價值需要開發可量化的指標,尤其是在數據質量改進方面。這可能包括每季度解決的數據錯誤數量以及由此產生的收入收益或成本節約。其他常見的數據質量指標衡量數據集的準確性和錯誤率以及相關屬性,例如數據完整性和一致性。詳細了解數據治理和數據質量之間的密切聯系,以及也可用于顯示治理計劃價值的其他類型的指標。
支持自助服務分析。向自助服務 BI 和分析的轉變通過將數據交到組織中的更多用戶手中而帶來了新的數據治理挑戰。治理計劃必須確保自助服務用戶的數據準確且可訪問,但也要確保這些用戶(業務分析師、高管和公民數據科學家等)不會濫用數據或與數據隱私和安全發生沖突限制。用于實時分析的流數據進一步使這些工作復雜化。
治理大數據。大數據系統的部署也增加了新的治理需求和挑戰。數據治理程序傳統上側重于存儲在關系數據庫中的結構化數據,但現在它們必須處理大數據環境通常包含的結構化、非結構化和半結構化數據的混合,以及各種數據平臺,包括 Hadoop 和 Spark 系統, NoSQL 數據庫和云對象存儲。此外,大數據集通常以原始形式存儲在數據湖中,然后根據需要進行過濾以供分析使用,這進一步使數據治理復雜化。
關鍵數據治理支柱
數據治理計劃由整個數據管理流程的其他幾個方面提供支持。最值得注意的是,這些方面包括以下內容:
數據管理。如前所述,數據管理員負責組織的一部分數據。數據管理員還有助于實施和執行數據治理策略。通常,他們是精通數據的業務用戶,是各自領域的主題專家。數據管理員與數據質量分析師、數據庫管理員和其他數據管理專業人員協作。他們還與業務部門合作,以確定數據要求和問題。
數據質量。數據質量改進是數據治理活動背后的最大驅動力之一??缦到y的數據準確性、完整性和一致性是成功治理計劃的重要標志。數據清理,也稱為數據清理,修復數據錯誤和不一致,它還會關聯和刪除相同數據元素的重復實例,以協調客戶或產品在不同系統中的列出方式。數據質量工具通過數據剖析、解析和匹配功能以及其他功能提供這些功能。從 IT 服務提供商 RadixBay 的高級戰略家和顧問 Chris Foot 的文章中獲取有關管理數據質量改進工作的技巧。
主數據管理。MDM 是另一個與數據治理流程密切相關的數據管理規程。MDM 計劃建立關于客戶、產品和其他業務實體的主數據集,以幫助確保數據在整個組織的不同系統中是一致的。因此,MDM 自然地與數據治理相吻合。但是,與治理計劃一樣,MDM 工作可能會在組織中引起爭議,因為部門和業務單位之間在如何格式化主數據方面存在差異。此外,與數據治理相比,MDM 的復雜性限制了它的采用。但兩者的結合導致了向由數據治理目標驅動的較小規模 MDM 項目的轉變。
數據治理也與信息治理相關,信息治理更廣泛地關注信息在組織中的整體使用方式。在高層次上,數據治理可以被視為信息治理的一個組成部分,但它們通常被認為是具有相似目標的獨立學科。
數據治理用例
有效的數據治理是管理操作系統中使用的數據以及由數據倉庫、數據集市和數據湖提供的 BI 和分析應用程序的核心。它也是數字化轉型計劃的一個特別重要的組成部分,它可以幫助其他企業流程,例如風險管理、業務流程管理和并購。
隨著數據用途的不斷擴大和新技術的出現,數據治理可能會得到更廣泛的應用。例如,正在努力將數據治理流程應用于機器學習算法和其他人工智能工具。此外,備受矚目的數據泄露事件和 GDPR 和 CCPA 等法律使得將隱私保護納入數據治理政策成為治理工作的核心部分。