怎么保障企业数据仓库中的数据质量?

不同的企业以及企业的不同发展阶段,关于数仓数据质量保障的要求都不尽相同。文章从互联网公司发展的各个阶段对数据质量管理的要求,以及常见的数据质量衡量标准和通用的数据质量管理流程出发,分享了关于数据质量管理的相关经验。

前段时间被问起:公司的数据质量管理是怎么控制的?基于目前大部分互联网公司的数据部门都会建设集团数据仓库,上层数据产品的数据来源也基本上来自数据仓库。所以,这个问题我理解为:怎么保障企业数据仓库中的数据质量?

结合以往的数据项目经验,我做了简单的回答:

(1)数据基础建设

想要有一个高质量的数据仓库,那么首先从数据仓库的设计上,我们就得有一个主题域完善,层级分明(通常分为ODS【数据源表层】,DWD【数据明细层】,DWS【数据汇总层】,DWA【数据应用层】),且数据消费场景明确,数据加工链路清晰的数据仓库体系。

有了这个基础之后,我们才能对不同主题域,不同层级的数据分别进行监控。

(2)数据处理监控

通过数据血缘关系管理,监控并定位数据处理链路上出问题的执行节点,通过系统或者邮件或企业员工管理平台通知到相应的负责人。

(3)业务系统调整响应

一是新增业务模块,导致有新的数据需要及时接入到数据仓库中。

二是业务模块变更,导致数仓中某些指标的历史统计口径发生了改变。

无论是哪一种,除了借助相应的发布平台工具之外,同时还需要规范及优化人为干预流程,降低业务部门与数据部门的沟通成本,提升数据部门的数据输出质量及数据响应速度。

虽然对于不同的企业以及企业的不同发展阶段,关于数仓数据质量保障的要求都不尽相同,但是都有相关的方法论可以参考。

下面从互联网 公司发展的各个阶段对数据质量管理的要求 ,以及常见的 数据质量衡量标准 和通用的 数据质量管理流程 来聊聊数据质量管理那些事儿。

一、从公司发展周期看数据质量管理

1. 发展初期

业务模式不清晰,各条业务线都处于快速试错阶段,数据体量也不大,数据的输出相对简单,数据质量问题还没有那么突出。

这时候关于数据就是一个“快”字,需要及时的提供数据支撑,帮助业务及产品迅速完成产品的迭代及业务模式的探索。所以更注重的是数据的快速接入,分析报表的快速输出。

2. 发展中期

各条业务线的业务模式都已经趋于成熟,数据体量呈指数式增长。由于需要经常提供跨业务系统的数据分析,以及各种算法模型的数据支撑,这时候再回头想从眼花缭乱的数据表中及时的提供准确的数据内容,就显得极其困难。

这个时候关于数据就是一个“理”字,这里的“理”是“梳理”和“治理”的意思,梳理我们的所有业务内容并治理我们的数据。这个时候就得按照数据质量管理的流程,开展一系列数据治理工作,建设公司的数据质量管理规范。同时,也要从战略层面上打造集团的数据中台,通过及时准确的数据响应,赋能前台业务快速增长。

3. 发展稳定期

这时候公司处于一个稳定增长的状态,可能也会进行一些新业务模式的尝试,但是总体发展趋于稳定。伴随着中期的数据治理过程,整个数据团队的组织架构也趋于完善,如大数据数仓组,算法组,研发组,测试组,产品组等。

这时候关于数据就是一个“稳”字,这里的“稳”是“稳发展”和“稳创新”的意思。“稳发展”是指整个数据中心的规模及状态稳步发展,包括框架的稳步迭代更新以及整体架构的逐步优化。“稳创新”是指数据中台要稳定的像前台输出一些创新性的数据产品,帮助业务部门挖掘新的业务模式和变现渠道。

二、数据质量衡量标准

1. 完整性

主要包括实体缺失、属性缺失、记录缺失和字段值缺失四方面。

2. 准确性&合理性

数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。主要包括格式、类型、值域和业务规则的合理有效。

3. 一致性

系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性。

4. 及时性

数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。

图一:数据衡量标准说明

三、数据质量管理流程

数据质量管理流程: 通过划分数据资产等级和分析元数据的应用链路,对不同资产等级的数据采取相对应的质量管理方式。

1. 数据资产等级划分

分析业务场景,根据应用的影响程度,确定当前以及生产链路上的数据资产等级。

2. 数据加工过程校验

在各个加工环节上根据不同资产等级对数据采取不同的质量管理方式。

3. 数据处理风险监控

对数据加工过程中存在的风险点进行监控,包括数据质量风险和数据及时性。

图二:数据质量管理流程图

四、后续

通过以上内容,我们对数据质量管理有了一个初步的认知,也了解了数据质量衡量标准以及数据质量管理流程。相信大家对数据质量管理的实施过程和思路也有了大致的了解。下一篇文章,我会拆解数据质量管理流程,详细介绍数据资产等级划分,数据加工过程校验及数据处理风险监控等的实施方法论。感谢各位的支持与关注,希望后续有更多高质量的文章与大家分享!

数据产品路上,与君共勉!

本文由 @BennettC 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

我来评几句
登录后评论

已发表评论数()

相关站点

热门文章