元数据
元数据就是“关于数据的数据”。
元数据对于数据管理和数据使用来说都是必不可少的。所有大型组织都会产生和使用大量的数据,在整个组织中,不同的人拥有不同层面的数据知识,但没有人知道关于数据的一切。因此,必须将这些信息记录下来,否则组织可能会丢失关于自身的宝贵知识。元数据管理提供了获取和管理组织数据的主要方法。
业务驱动因素
数据管理需要元数据。元数据本身也需要管理。可靠且良好的元数据管理有助于:
- 通过提供上下文语境和执行数据质量检查来提高数据的可信度。
- 通过扩展用途来增加战略信息(如主数据)的价值。
- 通过识别冗余数据和流程来提高运营效率。
- 防止使用过时或不正确的数据。
- 减少数据的研究时间。
- 改善数据使用者和IT专业人员之间的沟通。
- 创建准确的影响分析,从而降低项目失败的风险。
- 通过缩短系统开发生命周期时间来缩短产品上市时间。
- 通过全面记录数据背景、历史和来源,降低培训成本和降低员工流动的影响。
- 满足监管合规。
如果组织的数据质量很高,那么组织可以从数据资产中获得更多价值。高质量的数据和数据治理工作密切相关,因为元数据解释了使组织能够运行的数据和流程,所以元数据对于数据治理至关重要。如果说元数据是组织中数据管理的指南,那么必须妥善管理元数据。元数据管理不善容易导致以下问题:
- 冗余的数据和数据管理流程。
- 重复和冗余的字典、存储库和其他元数据存储。
- 不一致的数据元素定义和与数据滥用相关的风险。
- 元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心。
- 怀疑元数据和数据的可靠性。
良好的元数据管理工作,可以确保对数据资源的一致理解和更加高效的跨组织开发使用。
目标和原则
元数据管理的目标包括:
- 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性。
- 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异。
- 确保元数据质量、一致性、及时性和安全。
- 提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据。
- 推广或强制使用技术元数据标准,以实现数据交换。
成功的元数据解决方案的实施应遵循以下指导原则:
- 组织承诺。确保组织对元数据管理的承诺(高级管理层的支持和资金),将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
- 战略指导。制定元数据战略,考虑如何创建、维护、集成和访问元数据。战略能推动需求,这些需求应在评估、购买和安装元数据管理产品之前定义。元数据战略必须与业务优先级保持一致。
- 企业视角。从企业角度来确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值。
- 潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。
- 便捷访问。确保员工了解如何访问和使用元数据。
- 质量。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责。
- 审计。制定、实施和审核元数据标准,以简化元数据的集成和使用。
- 改进。创建反馈机制,以便数据使用者可以将错误或过时的元数据反馈给元数据管理团队。
基本概念
数据和元数据
元数据也是一种数据,应该用数据管理的方式进行管理。组织面临的一个问题是,如何在元数据和非元数据数据之间划分界限。从概念上讲,这条边界与数据所代表的抽象级别有关。例如,美国国家安全局对美国人使用电话的监控情况报告中,电话号码和通话时间通常被称为“元数据”,这意味着“真实”数据只包括电话交谈的内容。在IT领域的常识是电话号码和通话时间也只是普通数据。
为了管理元数据,一个组织不应该担心理论上的区别,相反,他们应该准确描述定义需求,重点关注元数据能用来做什么(创建新数据、了解现有数据、实现系统之间的流转、访问数据、共享数据)和满足这些需求的源数据。
元数据的类型
元数据通常分为三类:业务元数据、技术元数据和操作元数据。注意这种分类是根据来源而不是使用方式。就使用而言,不同类型元数据之间的区别并不严格,技术和操作人员可以使用“业务”元数据,也可以使用其他类型元数据。
元数据注册标准
ISO的元数据注册标准ISO/IEC 11179中提供了用于定义元数据注册的框架。它旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。该标准由以下几部分组成:
- 第1部分:数据元素生成和标准化框架。
- 第2部分:数据元数据分类。
- 第3部分:数据元素的基本属性。
- 第4部分:数据定义的形成规则和指南。
- 第5部分:数据元素的命名和识别原则。
- 第6部分:数据元素的注册。
非结构化数据的元数据
相比结构化数据的管理,元数据对非结构化数据的管理来说可能更为重要。非结构化数据的元数据包括:
- 描述元数据,如目录信息和同义关键字;
- 结构元数据,如标签、字段结构、特定格式;
- 管理元数据,如来源、更新计划、访问权限和导航信息;
- 书目元数据,如图书馆目录条目;
- 保留元数据,如档案保留策略;
- 保存元数据,如存储、归档条件和保存规则
鉴于元数据这个概念在各个领域的广泛使用,所以存在各种元数据的命名和分类都是正常的,最好明确相关的定义或在进行讨论。
元数据的来源
- 应用程序中元数据存储库
- 业务术语表
- 商务智能工具
- 配置管理工具
- 数据字典
- 数据集成工具
- 数据库系统目录
- 数据映射管理工具
- 数据质量工具
- 数据资产目录
- 事件消息工具
- 建模工具和存储库
- 参考数据库
- 服务注册
- 其他元数据存储
元数据存储库的架构
与其他形式的数据一样,元数据也有生命周期。所有元数据管理解决方案都包含与元数据生命周期相对应的架构层次:
- 元数据创建和采集。
- 元数据在存储库中存储。
- 元数据集成。
- 元数据交付。
- 元数据使用。
- 元数据控制和管理。
可以采用多种不同的架构方法来获取、存储、集成和维护元数据,以及供数据消费者访问元数据。常见的元数据架构类型包括:
- 集中式元数据架构
- 分布式元数据架构
- 混合式元数据架构
- 双向元数据架构
管理活动
- 定义元数据战略
- 理解元数据需求
- 定义元数据架构
- 创建和维护元数据
- 查询、报告和分析元数据
工具和方法
管理工具
管理元数据的主要工具是元数据存储库,元数据管理工具提供了在集中位置(存储库)管理元数据的功能。元数据可以手动输入,也可以通过专门的连接器从其他各种来源中提取元数据。元数据存储库还提供与其他系统交换元数据的功能。
元数据存储库的商业产品,一般是各种数据资产管理系统、数据管控系统,或者是其他企业内部管理系统的一个子系统。
管理方法:
元数据在数据管理的各个领域都有着非常重要的作用,此处简介两个:
数据血缘和影响分析
基于程序编码的当前版本的血缘称为“实现态血缘(Implemented Lineage)”。基于映射规范文档中描述的血缘称为“设计态血缘(Designed Lineage)”元数据管理系统通过可以提供数据血缘详情的工具导入“实现态血缘”,并从无法自动抽取的“设计态血缘”的文件中获取实施细节加以补充。发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息。许多元数据工具中存储着某个环境中数据现况的信息,并提供查看跨系统或应用程序接口的血缘功能。
应用于大数据采集的元数据
针对数据湖中的成功数据管理非常依赖于管好元数据。应在采集时给数据打上元数据标签,然后可以通过元数据来识别访问数据湖中的数据内容。大部分采集引擎采集数据后进行数据剖析。数据剖析可以识别出数据域、数据关系和数据质量问题,并打上标签。数据采集时,识别到敏感或隐私(如个人身份信息,PPI)数据时应该添加上元数据标签。例如,数据科学家会添加关于置信度、文本标识符和表示集群行为的代码。
实施指南
建议采用渐进的步骤建设实施受控的元数据管理环境,可减少组织的风险,并便于用户接受。使用开源的关系型数据库平台来实施元数据存储,可以应对项目开始时无法预料的各种控制和接口问题。在实施建设元数据管理能力时,建议做好如下两方面工作:
- 就绪评估/风险评估:拥有坚定的元数据战略有助于所有人更高效率地决策。首要的是,所有人都应意识到元数据管理缺失的风险。
- 组织和文化变革:与其他数据管理工作一样,元数据计划经常遇到文化阻力。企业数据治理战略的实现需要高级管理层的支持和参与,它要求业务人员和技术人员能够以跨职能的方式紧密合作。
元数据治理
组织应确定他们元数据生命周期管理的具体需求,并通过开展元数据治理工作以满足这些需求。要建立正式的角色和职责并分配专用资源,特别是在大型或业务关键领域。具体的治理工作可以通过如下几个方面展开:
- 过程控制:各个数据管理团队应负责定义标准,并管理元数据的状态变化(通常使用工作流或协作软件),同时可以负责组织内的质量提升活动、培训计划或实际培训活动。需要将元数据战略集成到软件开发的生命周期中,确保变更过的元数据及时得到收集。这样有助于确保元数据保持最新。
- 元数据解决方案的文档:元数据目录应包括当前环境中的各类元数据信息,包括面向技术及业务用户的元数据资源,可发布到用户社区作为“元数据在哪里”的指引,并告知用户能满足那些需求。
- 元数据标准和指南:在与内外部的业务伙伴交换数据时,数据标准是必不可少的。为了支持信息的共享和使用,需要共享的公共元数据,这催生了诸多专业领域的数据标准。元数据管理提供了一个可以集中管理这些标准是否落实的机会。
- 度量指标:可以从如下角度考虑制定元数据管理的指标:
- 元数据存储库完整性
- 元数据管理成熟度
- 专职人员配备情况
- 元数据使用情况
- 业务术语活动
- 主数据服务数据遵从性
- 元数据质量
- 元数据存储库可用性