数据治理(1)- 概述

总体思路

1. 建组织

  • 摘自 信通院《数据资产管理实践白皮书4.0》

2. 立规范

3. 选平台

4. 重运营


技术角度

1. 元数据治理

  1. 数据字典&数据地图。需要提供可用工具,数据使用方能很方便的查找到所需要的数据,理解大数据数仓中的表,字段定义,例如统计交易数据该使用哪张表等等。同时当线上的数仓结构更新时,能自动的捕获变化,保证使用方查到的数据字典等信息与生产的时刻保持一致,减少人工维护成本。
  2. 工具需要记录技术元数据(表,列的schema等) & 业务元数据(维度/属性,业务过程,指标的规范化定义) & 任务运行/调度元数据(运行时间过长节点)
  3. 血缘关系。方便查看表/字段间各层的相互关系,可以看到在数仓里,数据是从哪里来,如何使用。当发现数据问题,可以回溯到源头;当需要对数据进行清洗时,也可以看到对后面的哪些数据造成影响。
  4. 规范指标定义。指标产出需要指定业务责任人,技术责任人。业务团队需要清晰定义统计口径。当组织人员流动比较大,缺乏责任人机制会造成历史任务无法跟踪,造成任务上线多,下线少。同时,对统计指标缺乏明确定义,既不利于理解指标,也容易造成技术开发与业务对口径的理解偏差,还不利于指标的复用。
  5. 物理表查询热度,资源消耗。

2. 数据资产分级及标签化

  1. 根据业务重要性及影响力划分等级(例如 灾难,重要,普通,未知)等。借助上述的元数据管理工具,根据任务的血缘关系,将分级上推至各层级的数据,数仓表。数据分级的应用可以在监控任务等。例如,监控任务产出时效性,监控重要任务链路上的节点,按照不同的等级设置告警策略。
  2. 利用元数据管理工具,可以数据标签化,进行分级。
    • 基础标签: 安全等级,访问情况(冷热数据)
    • 数仓标签: 全量/增量,是否可再生,生命周期
    • 业务标签: 主题域,层,业务类型

分级处理可以应用在治理中的各个维度,分级的标准依据根据具体的维度设计。

3. 数据质量

  1. 质量衡量由事前(DQC覆盖,自定义规则),事中(异常报警),事后(问题跟踪,质量评分,历史趋势)结合。
  2. 根据数据资产分级进行质量监控程度分级。准确性,完整性,及时性,唯一性,规范性,一致性。
  3. 准确性。DQC检查,按照资产等级配置监控覆盖率。由于DQC检查嵌入任务,需要按等级做好覆盖率等级配置。
  4. 及时性。按照任务优先级分配资源,设置告警策略,任务延迟预警等。相应的规范人工运维介入时机,保证重要任务产出。
  5. 事后质量问题记录。故障定义,分级,处理,review。形成长期记录,质量问题有跟踪记录,同时避免质量问题重复的出现。

4. 数据安全

数据安全分为四个层次。

  1. 利用上述的分级思想,从字段含义,产出指标反推等,定义数据密级。利用元数据管理工具,可以将密级推送到上下游。
  2. 角色/分组访问授权,数据确权。数据所有者/管理员分配数据访问权限。按照最小权限分配。
  3. 数据脱敏,加密。即使越权获取到数据也无法读懂理解数据。根据不同的数据类型,密级,数据使用方式,使用不同的权限控制与加密方式,例如隐藏数据列,hash,对称加密,同态加密等。确保即使越权获取到数据也无法读懂理解数据。最晚解密原则。
  4. 对数据访问进行审计。使用数据水印,在数据泄漏时可追溯泄漏源。

5. 生命周期

  1. 表分类。 空表, 3个月无访问表,数据无更新无/有任务表等
  2. 删除策略
    • 周期性删除X天前。适用于每天从数据库同步
    • 永久保留(增量交易) + 迁移至冷数据中心(3年以上日志)
    • 增量同步,全量merge。对应的delta表保留3个月
  3. 划分历史数据等级
    • 非常重要/重要/不重要,可恢复/不可恢复
  4. 根据 (数据重要性等级,数据表类型(全量表,维度表,交易增量表),数仓层) 等组合维度划分生命周期管理矩阵 ,按照所在的区间,相应的采取保留3天,一周,一月,一年,永久保存等不同的策略。

6. 数据成本

  1. 计算资源成本。
    • 监控资源使用率,合理分配资源,避免浪费。
    • 无效任务下线。需要根据数据表的访问统计,识别废弃任务/表。
    • 超长任务优化。
  2. 数据存储成本。结合上述的数据生命周期,分级处理,制定策略。例如如何处理冷数据,重复数据,压缩,无效数据下线销毁等。
  3. 按照分组/个体人员,以统一的标准折算数据成本(例如,1CPU,1T折合一个单位成本),每周统计折算后成本,督促成本大户重新审视和优化任务.

参考文档:

  1. 《大数据之路-阿里巴巴大数据实践》
  2. 信通院《数据资产管理实践白皮书4.0》