数据集成和互操作
跳到导航
跳到搜索
数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。数据集成是将数据整合成物理的或虚拟的一致格式。数据互操作是多个系统之间进行通信的能力。
业务驱动因素
数据集成和互操作的主要目的是为了对数据移动进行有效管理。由于大多数组织都有数以百计的数据库和存储库,因此每个信息技术组织的主要责任就是管理数据在组织内部的存储库与其他组织之间的双向流动过程。如果管理不当,移动数据的过程可能会压垮IT资源和能力,并弱化对传统应用程序和数据管理领域需求的支持能力。
管理目标和原则
数据集成和互操作的管理目标是:
- 及时以数据消费者(人和系统)所需的格式提供数据。
- 将物理数据物理或虚拟地数据合并到数据中心。
- 通过开发共享模型和接口来降低管理解决方案的成本和复杂度。
- 识别有意义的事件(机会和威胁),自动触发警报并采取相应行动。
- 支持商务智能、分析、主数据管理、运营效率的提升。
在实施数据集成和互操作时,组织应遵循以下原则:
- 采用企业视角来确保未来的可扩展性设计,采用通过迭代和增量交付来实现。
- 平衡本地数据需求与企业数据需求,包括支撑与维护。
- 确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。
和其他管理领域的关系
数据集成和互操作与数据管理的其他领域关系密切:
- 数据治理。用于治理转换规则和消息结构。
- 数据架构。用于解决方案设计。
- 数据安全。无论数据是持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护。
- 元数据。用于跟踪数据的技术清单(持久的、虚拟的和动态的)、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘。
- 数据存储和操作。管理解决方案的物理实例化。
- 数据建模和设计。用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传送的消息结构。
基本概念
- ETL(抽取、转换、加载 )
- ELT(抽取、加载、转换)
- 时延(Latency)
- 批处理 Batch
- 变更数据捕获 CDC
- 异步和同步
- 准实时(Near-Real-Time)
- 流处理
- 复制
- 归档
- 企业消息格式/规范格式
- 交互模型
- 点到点
- 中心辐射型(Hub-and-Spoke)
- 企业服务总线(Enterprise Service Bus,ESB)
- 发布与订阅
- 应用耦合
- 编排(Orchestration)
- 应用集成模型(Enterprise Application Integration ,EAI)
- 面向服务的架构(Service-Oriented Architecture ,SOA)
- 复杂事件处理(Complex Event Processing ,CEP)
- 数据联邦(Data Federation)
- 数据虚拟化(Data Virtualization)
- 软件即服务(SaaS)
- 数据即服务(DaaS)
- 平台即服务或(IPaaS)
- 云化集成
- 数据交换标准
- 国家信息交换模型(NIEM)
管理活动
- 规划和分析
- 定义数据集成和生命周期需求
- 执行数据探索
- 记录数据血缘
- 剖析数据
- 收集业务规则
- 设计数据集成解决方案
- 设计数据集成解决方案
- 建模数据中心、接口、消息、数据服务
- 映射数据源到目标
- 设计数据编排
- 开发数据集成解决方案
- 开发数据服务
- 开发数据流编排
- 制定数据迁移方法
- 制定发布方式
- 开发复杂事件处理流
- 维护数据集成和互操作的元数据
- 实施和监测
工具和方法
工具
- 数据转换引擎/ETL工具
- 数据虚拟化服务器
- 企业服务总线
- 业务规则引擎
- 数据和流程建模工具
- 数据剖析工具
- 元数据存储库
方法
- 保持应用程序松散耦合
- 限制开发和管理接口的数量
- 使用中心辐射型方法
- 并创建标准规范的接口
实施指南
- 就绪评估/风险评估
- 组织和文化变革
数据集成和互操作的治理
数据消息、数据模型和数据转换规则设计的决策,直接影响到组织使用数据的能力。这些决策必须由商业因素驱动。虽然在实现业务规则时需要考虑很多技术因素,但是当数据流入、通过和流出组织时,单纯从技术角度考虑数据集成和共享的方法可能导致数据映射和转换的错误。
需要制定相应制度,以确保组织从企业数据整合和互操作方法中获益。例如,可以制定制度,要求确保遵循SOA原则,只有在审查现有服务之后才能创建新服务,并且系统之间的所有数据都须通过企业服务总线。
- 数据共享协议
- 数据集成和互操作与数据血缘
- 度量指标:要衡量实现数据集成解决方案的规模和收益,包括可用性、数量、速度、成本和使用方面的指标。
- 数据可用性:请求数据的可获得性。
- 数据量和速度:传送和转换的数据量;分析数据量;传输速度;数据的时延;事件与触发动作之间的时延;新数据源的可用时间等。
- 解决方案成本和复杂度:解决方案开发和管理成本;获取新数据的便利性;解决方案和运营的复杂度;使用数据集成解决方案的系统数量。