kettle —— 从 oracle 到 oracle的坑

时间 2019-12-13

标签 kettle oracle 栏目 Oracle 繁體版

原文原文链接

　　公司有个项目，是使用kettle从oracle上统计，再将结果跟oracle中目标表进行对比更新。接手后，走了一些弯路，中间各类尝试都不尽如人意，也学了kettle的一些组件的用法。正好趁着机会记录一下。mysql

　　1、背景：sql

　　需求其实很简单，在源oracle中，有大批量的表，是使用定时调度从其余不一样的数据库(oracle,mysql,sybase,dameng,sqlserver)中将 “表信息”，“字段信息”，“注释信息”等元数据表，拉取过来，分别作好编号存储。数据库

　　而kettle要实现的功能：oracle

　　① 则是从这些源数据表中，将表名、字段名、字段注释、字段长度、字段类型等信息关联出来。sqlserver

　　② 并与以前已经作好的一张结果表作关联更新。优化

　　③ 将“元数据有变动”的表的四元素(type，length，primary，comment)信息进行update。spa

　　④ 若是该字段已经没有了被删除了，则有专用字段标记为"1"。server

　　⑤ 若是是新来的字段，则insert插入目标表。blog

　　2、历程：索引

　　1. 一开始，机敏的同事使用了一个SQL脚本，用了oracle中的 merge using() matched ....用法，——若是查询结果与目标结果的 table_name和 column_name关联上，则直接将四元素update到目标表中；若没关联上，则直接insert到目标表中。

　　2. 问题初现：初步的逻辑至关于：只要关联上，就必须update，这样来讲，没有任何变化的字段，也要update一次，形成大量的update实际上是能够避免的。并且已删除字段的标记也未实现。

　　3. 趟雷：

　　　　① 最开始，使用kettle的组件来实现SQL中的逻辑，就不贴图了，太长了，并且运行起来的效率低的可怕，后被pass。

　　　　② 后来尝试，将SQL优化：

　　　　　　创建临时表；

　　　　　　join的数据的列裁剪；

　　　　　　都用了一遍，可是毫无卵用....效率仍然低（在真实生产环境上直接都跑不动了）

　　　　③ 后来尝试了一个新的用法： kettle中有个组件叫“合并记录”：。这个小老弟看着不起眼，其实很厉害——它能够将两组数据流进行比对，一个原始的，一个“新来的”，用新来的流与原始的流作比对，并在新产生的流中作标记，标记出哪些是没变的，哪些是新加的（new），哪些是删除了的（deleted），哪些是改变了的（changed）。

　　　　当时一看，这不就是为这需求量身打造的组件，直接用起来！

　　　　改造逻辑：

　　　　查询的SQL保留，可是再从目标表查询出全量数据，将这两个流作比对，用“合并记录”的组件将各类状况的记录都标记出来，在后续的流程中可使用组件来筛选和进行后续的操做。

　　　　改造完成后的图以下：

　　　　这样，就将“须要更新”的，“须要插入的”，须要“标记为删除的”分别筛选出来，单独进行更细或者插入的操做了。
　　　　然而，仍是出现了新的问题，在“更新”和”同步“ 以后，速度仍然慢。

　　　　保存出问题了，中间写的没有了，如今精简的补充一下：

　　　　解决方案：

　　　　创建索引——> 目标表(table_name,column_name)。

　　　　update的速度——>大幅度提高。

　　　　3、总结：

　　　　① 对于不通的方式，最多2天，不要再深刻研究，问题必定不是在整个方向上。

　　　　② 解决问题要有逻辑性，哪怕在纸上写出来，将问题一个个的罗列，解决，梳理，能对问题有个明确的方向。

　　　　③ 多上cnblog看看大神的数据库笔记。。。