MaxCompute问答整理之12月

时间 2020-02-07

标签 maxcompute 问答整理 12月繁體版

原文原文链接

问题1、MaxCompute内建日期函数，DATEPART函数命令格式为 bigint datepart(datetime date, string datepart)用于提取日期date中指定的时间单位datepart的值。DATETIME类型。若是输入为STRING类型会隐式转换为DATETIME类型后参与运算，其它类型抛异常。可是客户在使用函数的时候没有实现STRING类型隐式转换为DATETIME。报错信息：FAILED:ODPS-0130121:[1,50] Invalid type STRING of argument 1 for function datepart, expect DATETIME。如何解决？
打开新类型odps.sql.type.system.odps2=true时某些隐式类型转换会被禁用，包括STRING->BIGINT，STRING->DATETIME，DOUBLE->BIGINT，DECIMAL->DOUBLE，DECIMAL->BIGINT都是有精度损失或者报错的风险。这种状况能够经过cast函数作强制转换的方式来解决或者关掉新类型flag。 例如：select datepart(cast('2019-12-02 00:00:30' as datetime),'yyyy'); 
set odps.sql.type.system.odps2=falsehtml

问题二：MaxCompute中的数据通道Datahub 和 Tunnel 应用场景的区别是什么？
Datahub是阿里云上的实时消息队列服务，与MaxCompute紧密集成。用户能够将实时数据写入Datahub的topic，并经过Datahub的投递策略，按期将数据投递到MaxComptue表，知足实时数据准实时写入MaxCompute的须要。
Tunnel 用于批量上传数据到离线表里，适用于离线计算的场景。
可参考文档了解更多：https://help.aliyun.com/document_detail/51656.htmlsql

问题三：MaxCompute表如何设置自增序列？
可使用ROW_NUMBER函数去实现。例如：select ROW_NUMBER() OVER(),* from tablename;
可参考文档：https://help.aliyun.com/document_detail/34994.htmljson

问题四：如何使用MaxCompute Java SDK设置SQL的Flag？
使用DataWorks或MaxCompute Console提交SQL时，一般须要设置SQL的Flag。若是须要使用MaxCompute新数据类型，经过Session级别方式开启，则须要在涉及新数据类型的SQL前加Set Flag语句：set odps.sql.type.system.odps2=true;。使用SDK提交SQL时，不能简单地把Set Flag语句直接放到SQL Query中执行。以Java SDK为例，设置Flag的正确方式以下。 // 构造SQLTask对象。SQLTask task = new SQLTask();task.setName("foobar");task.setQuery("select ...");// 设置flag。Map settings = new HashMap<>();settings.put("odps.sql.type.system.odps2", "true");... // 设置其它flags。task.setProperty("settings", new JSONObject(settings).toString()); // 这里是关键：将flags对应的json string设置到settings property中。Instance instance = odps.instances().create(task); // 执行。函数

问题五：MaxCompute SQL中运行分区表全表扫描后，为何会费用增长？
全表扫描费用增长是由于输入量增长了，例若有一张表按时间（天）分区，存放了365个分区（365天）数据，全表扫描则输入量为365个分区的数据量，若是用分区裁剪只取某个分区（某天）数据，则输入量就只有那个分区的数据量。阿里云

问题六：MaxCompute中，select * from sale_detail order by region; 报错：Semantic analysis exception-ORDER BY must be used with a LIMET clause
ORDER BY 必须与limit共同使用。ORDER BY没有与limit共同使用时，报错返回。
可参考文档：https://help.aliyun.com/document_detail/73777.htmlhtm

问题七：在 MaxCompute 中，一张表的分区的数量是否越多越好？
在 MaxCompute 中，一张表最多容许有 60000 个分区，同时每一个分区的容量没有上限。可是分区数量过多，会致使统计和分析过程很是不方便。
MaxCompute 也会限制单个做业中最多不能超过必定数量的 instance，而做业中的 instance 和您输入的数据量和分区数量密切相关的。因此您须要根据业务须要，选择合适的分区策略。对象

问题八：若是一开始并无分区字段，是否能够增长或更改分区？
您不能够在源表上直接增长或更改分区键，分区键一旦建立就不能更改。但您能够从新建立一张分区表，使用动态分区SQL把源表数据导入到新分区表。
可参考文档：https://help.aliyun.com/document_detail/73779.html队列

问题九：如何查看MaxCompute数据量？
一、针对全表，查看物理空间，您可使用desc命令
二、若是要查看表的数据条数，须要使用SQL。例如select count() as cnt from iris;文档

问题十：在MaxCompute中，须要将一行转化为多行的时候，咱们该如何解决？
Lateral View和split，explode等UDTF一块儿使用，它可以将一行数据拆成多行数据，并在此基础上对拆分后的数据进行聚合。get

原文连接

本文为阿里云内容，未经容许不得转载。