过去十年间,全世界的数据量每两年大约增长10倍,已经远远超过计算领域的摩尔定律,所以人们须要有更高效的方式来处理数据。在如此强烈的需求推进下,大数据技术发展突飞猛进。
做为摩尔定律坚决的践行者,星环科技一直致力于实现大数据技术领域的摩尔定律:
近日,星环科技正式发布TDH 4.6版本,实现6个月内单位性能提高60%,并发布了一系列新产品组件,进一步下降了大数据技术从概念到落地的复杂度。
这次TDH 4.6发布两大特点组件:算法
SQL on Elastic Search:在海量数据中快速检索到精确信息的利器;数据库
Graphene:在超级复杂的关联网络中快速找到社区结构的图计算产品。编程
除此之外,TDH众多功能组件也都迎来了重大升级。安全
Transwarp Inceptor
性能提高
做为TDH家族的兄长,Inceptor努力践行着摩尔定律:单位计算资源的性能在6个月内提高了60%。同时,相同资源可以支持的数据量也有一样比例的增加,这意味着在半年内,使用TDH的用户能够在不作硬件扩充的状况下,只要升级至4.6版本,就可以多处理50%的业务量。下图为TDH最近三个版本在TPC-DS基准测试上的性能对比数据。

为了有更好的分析性能,Inceptor 4.6开发了全新的Inter-SQL-Optimizer,能够分析一个文件中多个业务SQL,并生成依赖图,在此基础上进一步对业务SQL优化,包括删除未使用的字段、消除非有效的SQL等,并结合Cost Based Optimizer来提高性能。
图计算
Inceptor 4.6另一个亮点是图计算产品Graphene的正式推出。Graphene提供基于SQL的扩展语言进行图计算编程,经过Inceptor引擎完成分布式计算,能够在海量数据中执行多达14种图算法。 Holodesk再升级
为了提供更好的检索和分析性能,Inceptor 4.6正式推出了Holodesk V2,包含存储层的一系列优化,更好的适配各类规格的SSD,并推出了全局索引,以及基于全局索引的各类优化。在咱们的基准测试中,Holodesk V2相对于V1的性能显著提高,对于一些精确检索类的业务SQL,查询延时降至毫秒级。
数据字典
为了更好的帮助用户查看和管理元数据,Inceptor 4.6正式推出了数据字典。在数据字典中,用户能够经过基于SQL的方式来查询各类元数据信息,从而更好的对数据进行监管,同时也能够知足各类第三方工具的对接需求。
SQL支持
Inceptor 4.6在 SQL支持程度获得进一步提高,包括正式支持SQL Sequence语法,全面兼容VARCHAR和CHAR数据类型,并经过方言控制与Oracle以及DB2保持一致行为。
Inceptor 4.6新发布的功能提高用户体验,包括支持使用中文字符做表名或者字段名,更好的知足国内客户的需求;规范化的报错,快速定位问题并构建知识库;PL/SQL支持在编译期对SQL作语义检查,帮助用户更早的发现问题;支持持久化的UDF,用户只要一次加载就能够持续使用。 Transwarp Hyperbase
全新面貌交付,产品矩阵、运维支撑以及架构方面均有重大的提高。
首先,为了更好的适应海量数据的检索需求,Hyperbase 4.6正式发布了SQL on Elastic Search功能,包含SQL Engine,ES-Drive组件以及Elastic Search 2.0。其中,SQL Engine主要用于解析SQL以及全文检索的语法,并经过ES-Drive最终生成对Elastic Search的API调用。相比较于直接用ES API,SQL编程在便利性、可管理性以及性能上都有更好的优点。
以以下场景为例,咱们能够看到使用SQL作全文检索的便利性。“查找出同时存在transwarp和outstand的文档,且两单词间距不超过10个单词的文本,而且要求transwarp必定出如今outstand以前。”SQL:网络
select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')
其次,Hyperbase抛弃了传统的InputFormat/OutputFormat的方式来操做HBase,而是经过HyperDrive组件来使用HBase。SQL操做会被直接翻译为对HBase的RDD操做,最终直接体现为HBase的API调用。使用这种全新的架构,大幅减小HBase原子操做的调用栈的复杂度,对HBase中错误的处理更方便。
此外,Hyperbase增强了对集群运维的支撑。咱们基于HTrace实现了一套RPC的监控工具,经过标准化的输出日志,快速定位;并对各个组件作关联分析,更方便的甄别系统问题。同时,HBase提供Performance Metrics日志收集、分析和展示框架,用户可将自定义的Metrics收集起来,经过第三方工具作报表展示,从而掌握集群的情况。
Transwarp Stream
StreamSQL在4.6版本中新增了多项重要功能,更有效的应对复杂的实时应用场景。新版本中支持动态流控,当任务出现积压时,经过限制数据接收的速度来保证系统的稳定性;针对一些实时应用中可能出现过多的小文件问题,Stream经过Batch Flush模式进行规避。
Stream SQL支持Socket以及Kafka的
数据源,此外因为数据格式的多样性,Stream SQL支持用户自定义的Decoder,并容许使用自定义的Decoder来解析经过Socket进入的数据。
此外,Stream SQL在处理数据的乱序问题上也作了加强。当Kafka中某一个时间段内有乱序的数据时,Stream正常接收数据并对相关的数据作重排序来恢复正常的数据流。
Transwarp Manager
Manager 4.6新增了磁盘问题管理。当某一个硬盘出现问题后,用户能够很方便的让全部的组件再也不使用该硬盘,无需屡次修改配置。新版本支持一键删除节点,而且支持Transwarp Manager HA的自动化配置,Manager自己的稳定性获得进一步完善。
为了让用户更好的了解集群情况,Transwarp Manager新增了报表页面。用户能够经过选取感兴趣的Metrics生成报表,经过对报表数据的阅读来掌握集群的运行情况。
在集群运维和检查方面,Manager增长了页面版本的环境检查工具,对当前系统的软件环境、网络情况等进行快速检查,找出潜在的环境问题。下图为环境检查工具在某个集群上的综合检查报告。
Transwarp Guardian
Guardian 4.6新增了列级数据权限控制,支持设置特定列对特定用户脱敏显示; 支持数据库级别的权限管理,支持按数据库批量赋予表的权限;能够经过SQL设置Inceptor表对应HDFS文件的ACL以及用户组;此外,在对Kafka的安全认证中,可使用IP或者Host name做为Principal ,使用更灵活。
Transwarp Discover
从有效的数据中找出数据的价值是数据挖掘的主要使命,数据的质量对挖掘的效果有着很是大的影响,所以数据预处理通常是数据挖掘项目的首个重要任务。为了让用户对数据预处理更容易,Discover 4.6 提供了一套新的预处理的方法,包括数据归一化txNormalization和对异常数据的修改txReplacingData。
除了在预处理部分的提高外,Discover 4.6加强了分布式算法和R算法的适配,
能够让同一套代码灵活的调用分布式算法或者本地R算法。目前经常使用的一些算法如决策树/ANN/SVD/PCA均可以在两个模型之间切换。 此外,Discover 4.6容许用户将已实现的Spark算法加入Discover算法库中,并能够经过Discover Data Frame接口来调用,无需将代码从新迁移。