External Table

时间 2019-11-20

标签 external table 繁體版

原文原文链接

CREATE TABLE AS SELECT，使用Oracle9i的External Table

　　Oracle 9i 的一项新特性就是 External Table，它就象一般的数据库表同样，拥有字段和数据类型约束，而且能够查询，可是表中的数据却不存储在数据库中，而是在与数据库相关联的普通外部文件里。当你查询 External Table 时，Oracle 将解析该文件并返回符合条件的数据，就象该数据存储在数据库表中同样。

　　须要注意的是，你能够在查询语句中将 External Table 与数据库中其余表进行链接（Join），可是不能给 External Table 加上索引，而且不能插入/更新/删除数据，毕竟它不是真正的数据库表。另外，若是与数据库相关联的外部文件被改变或者被删除，这会影响到 External Table 返回查询结果，因此在变更前要先跟数据库打招呼。

　　这种方法为导入数据打开了新的一扇门。你能够很容易的将外部文件与数据库相关联，而且在数据库中建立对应的 External Table，而后就能够当即查询数据，就象外部数据已经导入到数据库表中同样。惟一的不足须要明确，数据并未真正导入到数据库中，当外部文件被删除或覆盖时，数据库将不能访问 External Table 里的数据，并且索引没有被建立，访问数据速度将有所缓慢。建立 CALLS_EXTERNAL（External Table表）以下，使之与外部数据文件关联：

CREATE TABLE calls_external
(call_id NUMBER,
call_date DATE,
emp_id NUMBER,
call_type VARCHAR2(12),
details VARCHAR2(25))
ORGANIZATION EXTERNAL
( TYPE oracle_loader
DEFAULT DIRECTORY extract_files_dir
ACCESS PARAMETERS
(
RECORDS DELIMITED BY NEWLINE
FIELDS TERMINATED BY ’,’
MISSING FIELD VALUES ARE NULL
(
call_id, call_date CHAR DATE_FORMAT DATE MASK
"yyyy-mm-dd:hh24:mi:ss",
emp_id, call_type, details
)
)
LOCATION (’calls.dat’)
);

　　而后将 External Table 与真正被使用的表 CALLS 关联同步，删除 CALLS 表并重建它：

CREATE TABLE calls
(
call_id NUMBER NOT NULL,
call_date DATE NOT NULL,
emp_id NUMBER NOT NULL,
call_type VARCHAR2(12) NOT NULL,
details VARCHAR2(25)
)
TABLESPACE tbs1 NOLOGGING
AS
SELECT call_id, call_date, emp_id, call_type, details
FROM calls_external;

　　由于 CALLS 表是真正的数据库表，能够建立索引来加快访问，表中的数据将被保留，即便外部数据文件被更新或被删除。在建表语句中NOLOGGING关键字用于加快索引重建。

　　运用这种方法导入数据，总的导入时间为 15 秒，进程占用 CPU 的时间为8秒，这比前一种方法稍微慢些，但不能就此认为使用 External Table 导入数据必定比 OCI 批量插入慢。

　　这种方法的优势是，未经进行大量的编写代码就取得了不错的结果，不象 OCI 批量插入存在编码错误风险，它还可使用 dbms_job 包调度数据导入进程，实现数据导入的自动化。其缺点是目标表必须先删除后重建，若是只须要导入增量数据时此方法就不合适了，另外用户在表的重建过程当中访问数据时会遇到 "table or view does not exist" 的错误，它仅适用于 Oracle 9i 以上版本的数据库。

　　 INSERT Append as SELECT，使用 Oracle9i 的 External Table

　　上一种方法演示了如何建立与外部数据文件关联的数据库表，其表的数据是由外部数据文件映射过来。缺点是数据库表须要被先删除再重建来保持与外部数据文件的一致和同步，对导入增量的数据而不须要删除已有数据的状况不合适。针对这种需求，Oracle 提供了 INSERT 语句外带 APPEND 提示来知足。

INSERT /*+ APPEND */ INTO calls
(call_id, call_date, emp_id, call_type, details)
SELECT call_id, call_date, emp_id, call_type, details
FROM calls_external;

　　该语句读取引用外部数据文件的 CALLS_EXTERNAL 表中内容，并将之增长到表 CALLS 中。Append 提示告诉 Oracle 使用快速机制来插入数据，同时能够配合使用表的 NOLOGGING 关键字。

　　能够预见这种方法与前一方法消耗了相同的时间，毕竟它们是使用 External Table 特性导入数据的不一样阶段解决方法。若是目标表不是空的，那将会消耗稍微长的时间（由于要重建更长的索引），而前一 CREATE TABLE as SELECT 方法是总体建立索引。

　　 SQL*Loader的强大功能

　　SQL*Loader 是 Oracle 提供的导入实用程序，特别针对从外部文件导入大批量数据进入数据库表。该工具已经有多年的历史，每一次版本升级都使其更增强大、灵活和快捷，但遗憾的是它的语法倒是神秘而不直观，而且只能从命令行窗口处进行调用。

　　尽管它有不直观的缺点，但倒是最快最有效的导入数据方法。缺省状况下它使用 "conventional path" 常规选项来批量导入数据，其性能提升度并不明显。我建议使用更快速的导入参数选项，在命令行添加"direct=true" 选项调用 "direct path" 导入选项。在 "direct path" 导入实现中，程序在数据库表的新数据块的 high water mark 处直接写入导入数据，缩短了数据插入的处理时间，同时优化使用了很是有效的B+二叉树方法来更新表的索引。

　　运用这种方法，若是使用缺省的 conventional path 导入选项，总的导入时间是 81 秒，进程占用 CPU 时间大约是 12 秒，这包括了更新表的索引时间。若是使用 direct path 导入选项，总的导入时间竟是 9 秒，进程占用 CPU 时间也仅仅是 3 秒，也包括了更新表的索引时间。

　　因而可知，尽管表中的索引在数据导入以前并无被删除，使用SQL*Loader的direct path 导入选项仍然是快速和有效的。固然它也有缺点，就像NOLOGGING关键字同样该方法不生成REDO日志数据，导入进程出错后将没法恢复到先前状态；在数据导入过程当中表的索引是不起做用的，用户此时访问该表时将出现迟缓，固然在数据导入的过程当中最好不要让用户访问表。

　　 分区交换 (Partition Exchange)

　　以上讨论的数据导入方法都有一个限制，就是要求用户在导入数据完成以后才能够访问数据库表。面对7×24不间断访问数据库来讲，若是咱们只是导入须要增加的数据时，这种限制将对用户的实时访问产生影响。Oracle在这方面提供了表分区功能，它能够减小导入数据操做对用户实时访问数据的影响，操做模式就象使用可热插拔的硬盘同样，只不过这里的硬盘换成了分区（Partition）而已。须要声明的是 Partitioning 分区功能只有在企业版数据库中才提供。

　　在一个被分区过的表中，呈现给用户的表是多个分区段（segments）的集合。分区能够在需要时被添加，在维护时被卸载或删除，分区表能够和数据库中的表交换数据，只要它们的表结构和字段类型是一致的，交换后的分区表将拥有与之互动的表的数据。须要注意的是，这种交换只是在Oracle数据库的数据字典层面上进行，并无数据被实际移动，因此分区表交换是极其快速的。

　　为了建立实验环境，先假设CALLS表是个分区表，要建立一个空的分区PART_01012004，用来保存2004年1月1日的呼叫数据。而后须要再建立一临时表为CALLS_TEMP，该表与CALLS表拥有相同的字段和数据类型。

　　咱们使用先前介绍的导入方法将十万条数据导入到CALLS_TEMP表中，能够耐心等待数据彻底导入到CALLS_TEMP表中，而且建立好索引和相关约束条件，全部这一切操做并不影响用户实时访问CALLS表，由于咱们只对CALLS_TEMP临时表进行了操做。一旦数据导入完成， CALLS_TEMP表就存有2004年1月1日的呼叫数据。同时利用CALLS表中名为PART_01012004的空分区，使用以下语句执行分区交换：

ALTER TABLE calls
EXCHANGE PARTITION part_01012004 WITH TABLE calls_temp
INCLUDING INDEXES WITHOUT VALIDATION;

　　分区交换操做将很是快速地只更新CALLS表的数据字典，PART_01012004分区表即刻拥有CALLS_TEMP表的全部数据，而 CALLS_TEMP表变为空表。假定CALLS表使用局部索引而非全局索引，上述语句中的INCLUDING INDEXES将保证分区交换包括索引的可用性，WITHOUT VALIDATION 指明不检查交替表中数据的匹配，加快了交换的速度。

　　结论

　　以上探讨了Oracle数据库的多种数据导入方法，每种方法都有其优缺点和适用环境，可以知足你不一样的导入需求，固然你须要在了解了这些方法后，在速度、简易性、灵活性、可恢复性和数据可用性之间寻求最佳导入方案。

　　为了对比各类方法的效果，咱们建立了一个实例来展现各类方法的导入效率和效果，从中你能够选择最适合的方法用于从此的数据导入工做。同时请记住，本文并未囊括全部的ORACLE数据导入技术（好比并行数据导入技术），这须要咱们继续不懈的探索和尝试。

数据导入方法	整体导入时间(秒)	导入进程占用CPU时间(秒)
逐条数据插入INSERT	172	52
逐条数据插入INSERT，表暂无索引	130	35
批量插入，表暂无索引	14	7
Create As Select，使用Oracle9i的External Table	15	8
INSERT Append as SELECT，使用Oracle9i的External Table	15	8
SQL*Loader conventional path 缺省导入选项	81	12
SQL*Loader direct path 导入选项	9	3