News And Information
-技术与支持-
微信公众号-关注紫金桥
了解软件最新资讯
销售热线:
400-678-6601
售后热线:
13304891586
0459-8151391
0459-8151518
紫金桥实时数据库——ETL数据抽取
紫金桥实时数据库——ETL数据抽取
产品概述
  在实际的应用中,需要采集的数据来源于其它系统(已经处理或加工过的)并存储在多个关系型数据库中。(例如:石油石化行业中,新原油价格及各种重要化工产品价格,原油、石脑油等源材料的进厂量累计,公司本年度的经营目标等,该部分数据分别来源于MES的生产数据库和计划系统的计划数据库)。基于此类情况,我们专门开发了一个数据抽取模块。数据抽取模块,将多个关系型数据库中的生产数据按预先配置的抽取策略实时抽取到紫金桥历史数据库。
  抽取模块组成:
  数据抽取模块由抽取配置和抽取执行程序两部分组成。
  第一部分数据抽取配置程序。
  第二部分数据抽取运行程序。
功能概述:
  1、可以与多种关系型数据库进行链接。
  2、集中抽取,可以把多个关系库数据抽取到同一个实时数据库中。
  3、对列的类型进行转换。
  • 列映射
  在将源端的表中内容复制到目标端时,可以通过配置条件将指定列(字段)映射到目标端的点参数上。
  • 增加列
  在将源端的表中内容复制到目标端时,通过配置条件可以增加一个数据列(字段),其值可以是固定值,也可以是表达式,然后映射到目标端的点参数上。
  • 删除列
  在将源端的表中内容复制到目标端时,通过配置条件可以在执行的结果集中删除某列(原始表中的列不会被删除),然后映射到目标端的点参数上。
  • 列转换
  在将源端的表中内容复制到目标端时,通过配置条件可以将源表中的某个列的类型、长度等等进行转换。如将Varchar2类型转换成Int类型等等。
  • 数据转换
  在将源端的表中内容复制到目标端时,根据配置条件将源表的某个列的数据进行转换。例如将“男”、“女”转换成“0”、“1”。这种转换不涉及第三张表,也就是说这种转换是固定的。

  4、自由指定“抽取频率”和“基准时间”。
  5、支持调用关系库的存储过程(必须有返回集)。
  6、提供清除噪声数据的功能。
产品架构
  数据抽取配置的实现方式采用4层架构:用户界面层、业务处理层、传输层和数据处理层。
用户界面层
  用户界面层为用户提供简洁友好的操作界面。通过用户界面层可以方便的实现数据查看、编辑和维护等操作。用户界面层将各项操作指令发送给业务处理层,在收到业务处理的响应后显示在界面中。
业务处理层
  业务处理层负责接收和处理用户界面层的各项操作指令,并将指令的执行结果发送回用户界面层。
  业务处理层接收到用户界面层的指令后,首先对指令进行解析,部分指令直接在业务处理层完成逻辑处理;部分操作需要将解析后的指令通过传输层发送给数据处理层,在收到执行结果后发送给用户界面层。业务处理层同时管理组织机构的各种内容。
传输层
  传输层负责将业务处理层解析后的指令发送给数据处理层,并将数据处理层的信息返回给业务处理层。
  传输层通过连接管理模块与指定数据源进行通讯,通过用户验证模块验证指定数据源用户信息的合法性。在通讯过程中,传输层通过消息队列模块和数据缓存模块提高通讯效率和增强系统稳定性。
数据处理层
  数据处理层负责最终执行操作指令。在接收到操作指令后,数据处理层与实时数据库或配置文件交互,最终将指令执行结果通过传输层返回给业务处理层。

  “ETL数据抽取”程序,抽取过程示意图
产品特点
  数据抽取的特点可以概括为:分布部署、快速实施、维护便捷。
  分布式配置:随着分布式技术和负载均衡技术的广泛应用,越来越多的情况需要远程配置抽取信息。为了适应这种变化,数据抽取从设计之初即采用分布式架构。通过选择数据源的方式,可以在本地数据库系统完成对指定数据源中抽取信息的配置。
  集中抽取:支持由多个不同种类或相同种类的关系型数据库数据向同一个实时数据库抽取。
  清除噪声数据:数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage out),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗。数据抽取可以通过“匹配项”来完成数据的映射,从而达到清除噪声数据的目的。
  灵活的组织管理:数据抽取可以按照需要任意组织层级关系。如果发现层级关系建立错误,或实际层级关系发生改变时,现有的层级并不需要删除,而是通过简单的剪切与粘贴即可完成。