产品 | TDH 4.6正式发布

时间 2021-08-13

原文原文链接

过去十年间，全世界的数据量每两年大约增长10倍，已经远远超过计算领域的摩尔定律，所以人们须要有更高效的方式来处理数据。在如此强烈的需求推进下，大数据技术发展突飞猛进。
做为摩尔定律坚决的践行者，星环科技一直致力于实现大数据技术领域的摩尔定律： 近日，星环科技正式发布TDH 4.6版本，实现6个月内单位性能提高60%，并发布了一系列新产品组件，进一步下降了大数据技术从概念到落地的复杂度。

这次TDH 4.6发布两大特点组件：算法

SQL on Elastic Search：在海量数据中快速检索到精确信息的利器；数据库

Graphene：在超级复杂的关联网络中快速找到社区结构的图计算产品。编程

除此之外，TDH众多功能组件也都迎来了重大升级。安全

Transwarp Inceptor
性能提高
做为TDH家族的兄长，Inceptor努力践行着摩尔定律：单位计算资源的性能在6个月内提高了60%。同时，相同资源可以支持的数据量也有一样比例的增加，这意味着在半年内，使用TDH的用户能够在不作硬件扩充的状况下，只要升级至4.6版本，就可以多处理50%的业务量。下图为TDH最近三个版本在TPC-DS基准测试上的性能对比数据。

为了有更好的分析性能，Inceptor 4.6开发了全新的Inter-SQL-Optimizer，能够分析一个文件中多个业务SQL，并生成依赖图，在此基础上进一步对业务SQL优化，包括删除未使用的字段、消除非有效的SQL等，并结合Cost Based Optimizer来提高性能。
图计算
Inceptor 4.6另一个亮点是图计算产品Graphene的正式推出。Graphene提供基于SQL的扩展语言进行图计算编程，经过Inceptor引擎完成分布式计算，能够在海量数据中执行多达14种图算法。 Holodesk再升级
为了提供更好的检索和分析性能，Inceptor 4.6正式推出了Holodesk V2，包含存储层的一系列优化，更好的适配各类规格的SSD，并推出了全局索引，以及基于全局索引的各类优化。在咱们的基准测试中，Holodesk V2相对于V1的性能显著提高，对于一些精确检索类的业务SQL，查询延时降至毫秒级。
数据字典
为了更好的帮助用户查看和管理元数据，Inceptor 4.6正式推出了数据字典。在数据字典中，用户能够经过基于SQL的方式来查询各类元数据信息，从而更好的对数据进行监管，同时也能够知足各类第三方工具的对接需求。
SQL支持
Inceptor 4.6在 SQL支持程度获得进一步提高，包括正式支持SQL Sequence语法，全面兼容VARCHAR和CHAR数据类型，并经过方言控制与Oracle以及DB2保持一致行为。
Inceptor 4.6新发布的功能提高用户体验，包括支持使用中文字符做表名或者字段名，更好的知足国内客户的需求；规范化的报错，快速定位问题并构建知识库；PL/SQL支持在编译期对SQL作语义检查，帮助用户更早的发现问题；支持持久化的UDF，用户只要一次加载就能够持续使用。 Transwarp Hyperbase
全新面貌交付，产品矩阵、运维支撑以及架构方面均有重大的提高。

首先，为了更好的适应海量数据的检索需求，Hyperbase 4.6正式发布了SQL on Elastic Search功能，包含SQL Engine，ES-Drive组件以及Elastic Search 2.0。其中，SQL Engine主要用于解析SQL以及全文检索的语法，并经过ES-Drive最终生成对Elastic Search的API调用。相比较于直接用ES API，SQL编程在便利性、可管理性以及性能上都有更好的优点。
以以下场景为例，咱们能够看到使用SQL作全文检索的便利性。“查找出同时存在transwarp和outstand的文档，且两单词间距不超过10个单词的文本，而且要求transwarp必定出如今outstand以前。”SQL：网络

select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')

其次，Hyperbase抛弃了传统的InputFormat/OutputFormat的方式来操做HBase，而是经过HyperDrive组件来使用HBase。SQL操做会被直接翻译为对HBase的RDD操做，最终直接体现为HBase的API调用。使用这种全新的架构，大幅减小HBase原子操做的调用栈的复杂度，对HBase中错误的处理更方便。此外，Hyperbase增强了对集群运维的支撑。咱们基于HTrace实现了一套RPC的监控工具，经过标准化的输出日志，快速定位；并对各个组件作关联分析，更方便的甄别系统问题。同时，HBase提供Performance Metrics日志收集、分析和展示框架，用户可将自定义的Metrics收集起来，经过第三方工具作报表展示，从而掌握集群的情况。 Transwarp Stream
StreamSQL在4.6版本中新增了多项重要功能，更有效的应对复杂的实时应用场景。新版本中支持动态流控，当任务出现积压时，经过限制数据接收的速度来保证系统的稳定性；针对一些实时应用中可能出现过多的小文件问题，Stream经过Batch Flush模式进行规避。
Stream SQL支持Socket以及Kafka的数据源，此外因为数据格式的多样性，Stream SQL支持用户自定义的Decoder，并容许使用自定义的Decoder来解析经过Socket进入的数据。
此外，Stream SQL在处理数据的乱序问题上也作了加强。当Kafka中某一个时间段内有乱序的数据时，Stream正常接收数据并对相关的数据作重排序来恢复正常的数据流。
Transwarp Manager
Manager 4.6新增了磁盘问题管理。当某一个硬盘出现问题后，用户能够很方便的让全部的组件再也不使用该硬盘，无需屡次修改配置。新版本支持一键删除节点，而且支持Transwarp Manager HA的自动化配置，Manager自己的稳定性获得进一步完善。
为了让用户更好的了解集群情况，Transwarp Manager新增了报表页面。用户能够经过选取感兴趣的Metrics生成报表，经过对报表数据的阅读来掌握集群的运行情况。

在集群运维和检查方面，Manager增长了页面版本的环境检查工具，对当前系统的软件环境、网络情况等进行快速检查，找出潜在的环境问题。下图为环境检查工具在某个集群上的综合检查报告。

Transwarp Guardian
Guardian 4.6新增了列级数据权限控制，支持设置特定列对特定用户脱敏显示；支持数据库级别的权限管理，支持按数据库批量赋予表的权限；能够经过SQL设置Inceptor表对应HDFS文件的ACL以及用户组；此外，在对Kafka的安全认证中，可使用IP或者Host name做为Principal ，使用更灵活。
Transwarp Discover
从有效的数据中找出数据的价值是数据挖掘的主要使命，数据的质量对挖掘的效果有着很是大的影响，所以数据预处理通常是数据挖掘项目的首个重要任务。为了让用户对数据预处理更容易，Discover 4.6 提供了一套新的预处理的方法，包括数据归一化txNormalization和对异常数据的修改txReplacingData。
除了在预处理部分的提高外，Discover 4.6加强了分布式算法和R算法的适配，能够让同一套代码灵活的调用分布式算法或者本地R算法。目前经常使用的一些算法如决策树/ANN/SVD/PCA均可以在两个模型之间切换。此外，Discover 4.6容许用户将已实现的Spark算法加入Discover算法库中，并能够经过Discover Data Frame接口来调用，无需将代码从新迁移。