Smartbi数据分析工具处理大数据性能如何？

时间 2020-08-08

原文原文链接

为何须要跨库整合能力数据库

Smartbi支持多种数据源轻松接入，基本涵盖了市面上全部主流的数据库。无能否认多元的数据链接能力使Smartbi能快速链接现有数据源，构建统一的数据分析平台。但在项目实施过程当中，每每会遇到如下的问题：缓存

咱们企业数据存储在不一样甚至不一样类型的数据库里面，当用户查询数据的范围比较广，并不限于一个数据库时，须要跨多个数据库进行关联查询分析，若是按照传统的方式：先抽取到要经过ETL把数据都抽取到统一的库中，就会十分费力。或是对现有业务代码进行重构，分别从两个数据库查询数据，而后在业务代码中进行join关联。数据库多是分布在不一样实例和不一样的主机上，join关联将变得很是麻烦。ide

针对这种问题，smartbi提供跨库联合数据源（smartbiUnionDB)：是系统内置数据源，用于实现跨库查询的须要。应对不一样接口数据统一访问问题，无需再进行数据抽取。好比将Oracle和SQLServer两种数据源关联，让不一样接口数据统一访问，无需再进行数据抽取。工具

跨库整合的功能oop

跨库联合数据源（smartbiUnionDB)：是系统内置数据源，用于实现跨库查询的须要。系统自动将新建的关系数据源信息添加到该跨库联合数据源中，或经过数据库关联界面将须要的数据源手动添加，进行跨库查询时使用。性能

目前支持作跨库的数据源类型包括：高速缓存库、Hadoop_Hive、星环、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V九、MySQL、MS SQL Server、Spark SQL、Teradata_v十二、Informix、IMPALA、PostgreSQL。大数据

跨库整合的亮点3d

无需落地

Smartbi提供直接的跨库查询，而且内置了数据跨库查询引擎，在内存中进行关联，数据无需落地。省去了中间抽取环节，保证查询数据的实时性。orm

快速部署，开箱即用

系统内置跨库引擎，不需额外安装部署。blog

快速处理、良好扩展

对于海量大数据跨库查询，内置的跨库引擎能经过线性扩充，并行处理的方案，知足企业成长须要。

高性能的应用

跨库数据源支持应用在数据集定义中，一般在可视化数据集和自助数据集中应用比较普遍。咱们常规的这个数据分析底层结构是基于数据源直接连咱们的数据链接进行数据的分析展示，那这种状况若是咱们的数据量比较少的状况下通常是没有什么问题，可是咱们的数据一旦达到某个级别以后咱们的报表性能就会出现很大的一个瓶颈，甚至说致使咱们的这个报表长时间刷不出来，以致于咱们的系统崩溃，那这个时候就能够直接使用高速缓存库机制，以保证系统具备较长的生命力和扩展能力最重要保障。

将数据抽取到高速缓存库后，以后的查询直接从高速缓存库取数，来提升查询性能。如在体验中心的“体验式场景5”在分析某公司的emplyees数据状况时，其中的雇员表（300,024条记录）与薪资表（2,844,047条记录）进行跨库关联，使用前高速缓存以前刷新数据至少要20秒；当数据抽取到高速缓存库后，切换年份刷新仅需2秒，甚至更快。