免費注冊
數據網(wǎng)格架構-從工程角度看數據網(wǎng)格

數據網(wǎng)格架構-從工程角度看數據網(wǎng)格

作者: 低代碼架構師Kaiwen
閱讀數:184
更新時(shí)間:2024-02-23 12:34:49
數據網(wǎng)格架構-從工程角度看數據網(wǎng)格
id="why" class="title">為什么您可能需要數據網(wǎng)格

許多組織已經(jīng)投資了一個(gè)中央數據湖和一個(gè)數據團隊,希望基于數據來(lái)推動(dòng)他們的業(yè)務(wù)。然而,在一些初步的快速獲勝之后,他們注意到中央數據團隊經(jīng)常成為瓶頸. 團隊無(wú)法足夠快地處理管理層和產(chǎn)品負責人的所有分析問(wèn)題。這是一個(gè)巨大的問(wèn)題,因為及時(shí)做出數據驅動(dòng)的決策對于保持競爭力至關(guān)重要。例如:在黑色周期間提供免費送貨是個(gè)好主意嗎?客戶(hù)是否接受更長(cháng)但更可靠的運輸時(shí)間?產(chǎn)品頁(yè)面更改如何影響結賬率和退貨率?

數據團隊希望快速回答??所有這些問(wèn)題。然而,在實(shí)踐中,他們遇到了困難,因為他們需要在操作數據庫更改后花費太多時(shí)間來(lái)修復損壞的數據管道。在剩下的時(shí)間里,數據團隊必須發(fā)現和理解必要的領(lǐng)域數據。對于每個(gè)問(wèn)題,他們都需要學(xué)習領(lǐng)域知識以提供有意義的見(jiàn)解。獲得所需的領(lǐng)域專(zhuān)業(yè)知識是一項艱巨的任務(wù)。

另一方面,組織也投資于領(lǐng)域驅動(dòng)設計、自治領(lǐng)域團隊(也稱(chēng)為流對齊團隊或產(chǎn)品團隊)和去中心化微服務(wù)架構。這些領(lǐng)域團隊擁有并了解他們的領(lǐng)域,包括業(yè)務(wù)的信息需求。他們自行設計、構建和運行自己的 Web 應用程序和 API。盡管了解領(lǐng)域和相關(guān)信息需求,領(lǐng)域團隊必須聯(lián)系超負荷的中央數據團隊以獲得必要的數據驅動(dòng)洞察力。

隨著(zhù)組織的最終成長(cháng),領(lǐng)域團隊和中心數據團隊的情況變得更糟。解決這個(gè)問(wèn)題的一種方法是將數據的責任從中央數據團隊轉移到領(lǐng)域團隊。這就是數據網(wǎng)格概念背后的核心思想: 面向領(lǐng)域的去中心化分析數據。數據網(wǎng)格架構使域團隊能夠對自己的跨域數據分析和互連數據,類(lèi)似于微服務(wù)架構中的 API。

什么是數據網(wǎng)格?

 

術(shù)語(yǔ)數據網(wǎng)格Zhamak Dehghani 創(chuàng )造在 2019 年,基于捆綁知名概念的四個(gè)基本原則:

域所有權原則要求域團隊對其數據負責 。根據這一原則,分析數據應圍繞域組成,類(lèi)似于與系統的有界上下文對齊的團隊邊界。遵循領(lǐng)域驅動(dòng)的分布式架構,分析和運營(yíng)數據所有權轉移到領(lǐng)域團隊,遠離中央數據團隊。

數據作為產(chǎn)品原則 將產(chǎn)品思維理念投射到分析數據上。這個(gè)原則意味著(zhù)域之外的數據有消費者。領(lǐng)域團隊負責通過(guò)提供高質(zhì)量數據來(lái)滿(mǎn)足其他領(lǐng)域的需求?;旧?,域數據應該被視為任何其他公共 API。

自助數據基礎設施平臺 背后的理念是將平臺思維應用于數據基礎設施。一個(gè)專(zhuān)門(mén)的數據平臺團隊提供與領(lǐng)域無(wú)關(guān)的功能、工具和系統,為所有領(lǐng)域構建、執行和維護可互操作的數據產(chǎn)品。借助其平臺,數據平臺團隊使領(lǐng)域團隊能夠無(wú)縫地使用和創(chuàng )建數據產(chǎn)品。

聯(lián)邦治理原則通過(guò)標準化實(shí)現所有數據產(chǎn)品的互操作性,由治理行會(huì )在整個(gè)數據網(wǎng)格中推動(dòng)。聯(lián)邦治理的主要目標是創(chuàng )建一個(gè)遵守組織規則和行業(yè)法規的數據生態(tài)系統。

 

如何設計數據網(wǎng)格?

數據網(wǎng)格架構是一種分散的方法,使域團隊能夠自行執行跨域數據分析。其核心是具有負責團隊及其運營(yíng)和分析數據的域。領(lǐng)域團隊攝取運營(yíng)數據并構建分析數據模型以執行他們自己的分析。它使用分析數據來(lái)構建基于其他領(lǐng)域需求的數據產(chǎn)品。

領(lǐng)域團隊與其他人就全球政策達成一致,例如聯(lián)合治理協(xié)會(huì )中的互操作性、安全性和文檔標準,以便領(lǐng)域團隊知道如何發(fā)現、理解和使用數據網(wǎng)格中可用的數據產(chǎn)品。數據平臺團隊提供的與領(lǐng)域無(wú)關(guān)的自助數據平臺,使領(lǐng)域團隊能夠輕松構建自己的數據產(chǎn)品并有效地進(jìn)行自己的分析。支持團隊指導領(lǐng)域團隊如何對分析數據進(jìn)行建模、使用數據平臺以及構建和維護可互操作的數據產(chǎn)品。

數據網(wǎng)格核心組件架構

數據產(chǎn)品

數據產(chǎn)品通常是可以被其他域訪(fǎng)問(wèn)的已發(fā)布數據集,類(lèi)似于 API。例如,Google BigQuery 表中的庫存更新歷史記錄或 AWS S3 存儲桶上帶有采購訂單的每日 JSON 文件。數據產(chǎn)品也可以采用其他形式,包括包含 KPI 和圖表的 PDF 形式的銷(xiāo)售報告,甚至是用于預測發(fā)貨日期的機器學(xué)習模型作為 ONNX 文件。

為了發(fā)現、訪(fǎng)問(wèn)和使用數據產(chǎn)品,它使用元數據進(jìn)行描述,包括所有權和聯(lián)系信息、數據位置和訪(fǎng)問(wèn)、更新頻率以及數據模型的規范。

領(lǐng)域團隊負責數據產(chǎn)品在其整個(gè)生命周期內的操作。團隊需要持續監控并確保數據質(zhì)量和可用性。例如,保持數據不重復或對丟失的條目做出反應。

聯(lián)邦治理

聯(lián)合治理機構通常組織為一個(gè)公會(huì ),由參與數據網(wǎng)格的所有團隊的代表組成。他們就全球政策達成一致,這是數據網(wǎng)格中的游戲規則。這些規則定義了領(lǐng)域團隊必須如何構建他們的數據產(chǎn)品。

互操作性 政策是起點(diǎn)。它們允許其他領(lǐng)域團隊以一致的方式使用數據產(chǎn)品。例如,全局策略可以將提供數據的標準方式定義為 AWS S3 上相應域團隊擁有的存儲桶中的 CSV 文件。

接下來(lái),必須有某種形式的文檔來(lái)發(fā)現和理解可用的數據產(chǎn)品。一個(gè)簡(jiǎn)單的策略可以是一個(gè) wiki 頁(yè)面,其中包含一組預定義的元數據,例如數據產(chǎn)品的所有者、位置 URL 和 CSV 字段的描述。

以安全方式 訪(fǎng)問(wèn)實(shí)際數據產(chǎn)品的統一方式可能是在 AWS IAM 中使用基于角色的訪(fǎng)問(wèn),由域團隊管理。

隱私和合 等全球政策也很常見(jiàn)??紤]保護個(gè)人身份信息 (PII) 或特定行業(yè)的法律要求。

分析數據

深入分析數據,我們可以看到導致數據產(chǎn)品的數據流。運營(yíng)數據通常作為某種原始和非結構化數據被攝取。

在預處理步驟中,原始數據被清理并結構化為事件和實(shí)體。 事件很小、不可變且高度面向領(lǐng)域,例如OrderPurchasedShipmentDelivered。 實(shí)體代表業(yè)務(wù)對象,例如貨物物品,其狀態(tài)隨時(shí)間而變化。這就是為什么實(shí)體經(jīng)常被表示為一個(gè)快照列表,即歷史,最新的快照是當前狀態(tài)。

在實(shí)踐中,我們經(jīng)常會(huì )看到手動(dòng)輸入或導入的數據。例如,通過(guò)電子郵件作為 CSV 文件或業(yè)務(wù)代碼的文本描述發(fā)送的預測數據。

來(lái)自其他團隊的數據被整合為外部數據。當使用來(lái)自其他管理良好的團隊的數據產(chǎn)品時(shí),這種集成可能會(huì )以非常輕量級的方式實(shí)現。在從遺留系統導入數據的情況下,外部區域充當反腐敗層 .

發(fā)布的數據產(chǎn)品是通過(guò)聚合事件、實(shí)體、手冊和外部數據的子集而得出的。

攝取

領(lǐng)域團隊如何將他們的運營(yíng)數據引入數據平臺?根據領(lǐng)域驅動(dòng)設計原則設計的軟件系統包含作為可變實(shí)體/聚合和不可變領(lǐng)域事件的數據。

領(lǐng)域事件非常適合被攝取到數據平臺中,因為它們代表了相關(guān)的業(yè)務(wù)事實(shí)。如果有一個(gè)消息傳遞系統,則可以通過(guò)附加一個(gè)額外的消息消費者將域事件轉發(fā)到數據平臺。數據可以實(shí)時(shí)采集、處理并轉發(fā)到數據平臺。通過(guò)這種流式攝取,數據在到達時(shí)以小批量發(fā)送,因此可立即用于分析。由于領(lǐng)域事件已經(jīng)被很好地定義,除了 PII 數據的重復數據刪除和匿名化之外,在清理和預處理方面幾乎沒(méi)有什么可做的。有時(shí),還建議定義和攝取包含僅與分析用例相關(guān)的信息的內部分析事件,這樣就不必修改域事件。
流式攝取示例:Kafka Connect、Kafka Streams、AWS Lambda

許多業(yè)務(wù)對象作為實(shí)體和聚合保存在 SQL 或 NoSQL 數據庫中。它們的狀態(tài)會(huì )隨著(zhù)時(shí)間而變化,并且最新的狀態(tài)只保存在數據庫中。具有狀態(tài)的實(shí)體的有力候選者是文章、價(jià)格、客戶(hù)數據裝運狀態(tài)。對于分析用例,通常需要同時(shí)擁有最新?tīng)顟B(tài)和一段時(shí)間內的狀態(tài)歷史。有幾種攝取實(shí)體的方法。一種方法是生成并發(fā)布onCreate/onUpdate/onDelete 事件每次更改實(shí)體時(shí)都使用當前狀態(tài),例如通過(guò)添加 方面 實(shí)體監聽(tīng)器 . 然后可以使用流式攝取來(lái)攝取上述數據。當更改操作軟件不可行時(shí),可以使用更改數據捕獲 (CDC)直接監聽(tīng)數據庫更改并將其流式傳輸到數據平臺。
CDC 流的示例:Debezium 

最后,可以設置將數據導出到文件并將其加載到平臺中的傳統預定ELT 或 ETL 作業(yè),其缺點(diǎn)是沒(méi)有實(shí)時(shí)數據,在導出之間沒(méi)有所有階段更改,并且需要整合導出的數據再次。但是,對于大型機等遺留系統來(lái)說(shuō),它們是一個(gè)可行的選擇。

清潔數據

干凈的數據是有效數據分析的基礎。使用數據網(wǎng)格,域團隊負責執行數據清理。他們了解自己的領(lǐng)域,并且可以確定需要處理其領(lǐng)域數據的原因和方式。

攝取到數據平臺中的數據通常以其原始的原始和非結構化格式導入。使用列式數據庫時(shí),這可能是每個(gè)包含 CLOB 的事件的行事件負載的字段,可能是 JSON 格式?,F在可以對其進(jìn)行預處理以獲取干凈的數據:

  • 結構化:將非結構化和半結構化數據轉換為分析數據模型,例如,通過(guò)將 JSON 字段提取到列中。
  • 緩解結構變化:當數據結構發(fā)生變化時(shí),緩解它們,例如,通過(guò)用合理的默認值填充空值。
  • 重復數據刪除:由于大多數分析存儲系統都是僅追加的,因此無(wú)法更新實(shí)體和事件。刪除所有重復條目。
  • 完整性:確保數據包含約定的時(shí)間段,即使在攝取期間存在技術(shù)問(wèn)題。
  • 修復異常值:識別并糾正可能因錯誤而出現的無(wú)效數據。

從實(shí)現的角度來(lái)看,這些預處理步驟可以實(shí)現為投影原始數據的簡(jiǎn)單 SQL 視圖。查詢(xún)可以通過(guò) 公用表表達式 來(lái)組織(CTE)并且可以通過(guò)用戶(hù)定義的功能 進(jìn)行增強(UDF),例如,用于 JSON 處理。作為替代方案,清理步驟可以實(shí)現為對主題進(jìn)行操作的 lambda 函數??梢允褂?a >dbt 等框架構建更復雜的管道或 Apache Beam 它提供了高級編程模型,但也需要掌握更多技能。

分析

為了獲得洞察力,領(lǐng)域團隊查詢(xún)、處理和聚合他們的分析數據以及來(lái)自其他領(lǐng)域的相關(guān)數據產(chǎn)品。

SQL是大多數分析查詢(xún)的基礎。它提供了強大的功能來(lái)連接和調查數據。數據平臺應該高效地執行連接操作,即使對于大型數據集也是如此。聚合用于對數據進(jìn)行分組,窗口函數有助于跨多行執行計算。筆記本有助于建立和記錄探索性發(fā)現。
示例:Jupyter 筆記本、Presto

人類(lèi)在視覺(jué)上感知數據、趨勢和異常時(shí),會(huì )更容易理解它們。有許多出色的數據可視化工具可以構建漂亮的圖表、關(guān)鍵績(jì)效指標概覽、儀表板和報告。它們提供了一個(gè)易于使用的 UI 來(lái)向下鉆取、過(guò)濾和聚合數據。
示例:Looker、Tableau、元數據庫、Redash

對于更高級的見(jiàn)解,可以應用數據科學(xué)和機器學(xué)習方法。這些支持相關(guān)性分析、預測模型和其他高級用例。需要特殊的方法、統計和技術(shù)技能。
示例:scikit-learn、PyTorch、TensorFlow

數據平臺

自助數據平臺可能因每個(gè)組織而異。數據網(wǎng)格是一個(gè)新領(lǐng)域,供應商開(kāi)始在其現有產(chǎn)品中添加數據網(wǎng)格功能。

從所需的能力來(lái)看,您可以區分分析能力和數據產(chǎn)品能力: 分析能力使領(lǐng)域團隊能夠構建分析數據模型并為數據驅動(dòng)的決策執行分析。數據平臺需要以自助服務(wù)的形式攝取、存儲、查詢(xún)和可視化數據的功能。典型的數據倉庫和數據湖解決方案,無(wú)論是內部部署還是云提供商,都已經(jīng)存在。主要區別在于每個(gè)領(lǐng)域團隊都有自己的隔離區域。

更高級的數據網(wǎng)格數據平臺還提供了額外的與領(lǐng)域無(wú)關(guān)的數據產(chǎn)品功能 用于創(chuàng )建、監控、發(fā)現和訪(fǎng)問(wèn)數據產(chǎn)品。自助數據平臺應該支持領(lǐng)域團隊,以便他們可以快速構建數據產(chǎn)品并在其隔離區域的生產(chǎn)中運行它。該平臺應該支持領(lǐng)域團隊發(fā)布他們的數據產(chǎn)品,以便其他團隊可以發(fā)現它們。該發(fā)現需要所有去中心化數據產(chǎn)品的中心入口點(diǎn)。數據目錄可以通過(guò)不同的方式實(shí)現:作為 wiki、git 存儲庫,或者甚至已經(jīng)有供應商針對基于云的數據目錄的解決方案,例如 Select Star、Google 數據目錄或 AWS Glue 數據目錄。然而,數據產(chǎn)品的實(shí)際使用情況,需要域團隊訪(fǎng)問(wèn)、集成和查詢(xún)其他域的數據產(chǎn)品。該平臺應支持、監控和記錄數據產(chǎn)品的跨域訪(fǎng)問(wèn)和使用。

更高級的數據平臺支持策略自動(dòng)化。這意味著(zhù),與其強制域團隊手動(dòng)確保不違反全局策略,不如通過(guò)平臺自動(dòng)執行策略。例如,所有數據產(chǎn)品在數據目錄中具有相同的元數據結構,或者 PII 數據在數據攝取期間被自動(dòng)刪除。

有效地組合來(lái)自多個(gè)域的數據產(chǎn)品,即在幾秒鐘內進(jìn)行大型跨域連接操作,確保開(kāi)發(fā)人員的接受度和幸福感。這就是為什么查詢(xún)引擎對數據平臺的架構影響很大的原因. 具有單一查詢(xún)語(yǔ)言并支持分離區域的共享平臺是一個(gè)很好的開(kāi)始方式,因為一切都是高度集成的。這可能是 Google BigQuery,其中包含可通過(guò) Google 數據目錄發(fā)現的多個(gè)項目中的表。在更加去中心化和分布式的數據網(wǎng)格中,像 Presto 這樣的分布式查詢(xún)引擎仍然可以在不導入數據的情況下執行跨域連接,但它們有其自身的局限性,例如,有限的下推要求需要傳輸所有底層列數據。

賦能團隊

支持團隊在組織內傳播數據網(wǎng)格的想法。在開(kāi)始采用數據網(wǎng)格時(shí),需要進(jìn)行大量的解釋工作,并且支持團隊可以充當數據網(wǎng)格的倡導者。他們幫助領(lǐng)域團隊成為數據網(wǎng)格的正式成員。支持團隊由在數據分析、數據工程和自助數據平臺方面具有廣泛知識的專(zhuān)家組成。

支持團隊的成員在有限的時(shí)間跨度內(例如一個(gè)月)作為 內部顧問(wèn)臨時(shí)加入領(lǐng)域團隊,以了解團隊的需求,建立學(xué)習環(huán)境,提升團隊成員的數據分析技能,并指導他們如何使用自助數據平臺。他們不會(huì )自己創(chuàng )建數據產(chǎn)品。

在他們的咨詢(xún)活動(dòng)之間,他們分享學(xué)習材料,例如行走骨架、示例、最佳實(shí)踐、教程,甚至播客。

發(fā)表評論

評論列表

暫時(shí)沒(méi)有評論,有什么想聊的?

工廠(chǎng)MES系統定制開(kāi)發(fā)

工廠(chǎng)MES系統定制開(kāi)發(fā)

智能制造,智慧管理。定制智慧工廠(chǎng)MES系統,助您實(shí)現生產(chǎn)流程數字化升級,提升生產(chǎn)效率和質(zhì)量。



熱推產(chǎn)品-全域低代碼平臺

會(huì )Excel就能開(kāi)發(fā)軟件

全域低代碼平臺,可視化拖拉拽/導入Excel,就可以開(kāi)發(fā)小程序、管理系統、物聯(lián)網(wǎng)、ERP、CRM等應用

數據網(wǎng)格架構-從工程角度看數據網(wǎng)格最新資訊

分享關(guān)于大數據最新動(dòng)態(tài),數據分析模板分享,如何使用低代碼構建大數據管理平臺和低代碼平臺開(kāi)發(fā)軟件

如何構建高效穩定的智慧水務(wù)物聯(lián)網(wǎng)系統?

一、智慧水務(wù)物聯(lián)網(wǎng)系統的重要性 1.1 水資源管理面臨的挑戰 1.1.1 水資源短缺與需求增長(cháng) 隨著(zhù)全球人口的不斷增長(cháng)和城市化進(jìn)程的加速,水資源短缺問(wèn)題日益凸顯。傳統的水資

...
2024-07-01 23:06:21
智慧水務(wù)管網(wǎng)系統:解決城市水務(wù)管理的新方案?

智慧水務(wù)管網(wǎng)系統:解決城市水務(wù)管理的新方案? 一、智慧水務(wù)管網(wǎng)系統的概述 1.1 智慧水務(wù)管網(wǎng)系統的定義 智慧水務(wù)管網(wǎng)系統是一種集成了物聯(lián)網(wǎng)、大數據、云計算和人工智能

...
2024-07-01 23:05:26
智慧水務(wù)物聯(lián)網(wǎng)系統:解決水務(wù)行業(yè)痛點(diǎn)的創(chuàng  )新方案?

智慧水務(wù)物聯(lián)網(wǎng)系統:解決水務(wù)行業(yè)痛點(diǎn)的創(chuàng )新方案? 一、智慧水務(wù)物聯(lián)網(wǎng)系統的概述 1.1 什么是智慧水務(wù)物聯(lián)網(wǎng)系統? 智慧水務(wù)物聯(lián)網(wǎng)系統是一種集成了物聯(lián)網(wǎng)、云計算、大數

...
2024-07-01 23:04:50

速優(yōu)云

讓監測“簡(jiǎn)單一點(diǎn)”

×

??

銷(xiāo)售溝通:17190186096

售前咨詢(xún):15050465281

掃碼加顧問(wèn)微信 -->

速優(yōu)物聯(lián)PerfCloud官方微信
精品国产欧美SV在线观看|亚洲永久精品线看|女同性另类一区二区三区视频|性做久久久久久久|亚洲中文字幕无码天然素人在线