属性名称 | 默认 | 含义 |
spark.sql.inMemoryColumnarStorage.compressed | true | 设置为true时,Spark SQL将根据数据的统计信息自动为每列选择压缩编解码器。 |
spark.sql.inMemoryColumnarStorage.batchSize | 10000 | 控制列式高速缓存的批量大小。较大的批量大小能够提升内存利用率和压缩率,可是在缓存数据时会面临OOM风险。 |
属性名称 | 默认 | 含义 |
spark.sql.files.maxPartitionBytes | 134217728(128 MB) | 读取文件时打包到单个分区的最大字节数。 |
spark.sql.files.openCostInBytes | 4194304(4 MB) | 能够同时扫描以字节数量度量的打开文件的估计成本。将多个文件放入分区时使用。 最好是高估,那么小文件的分区会比大文件的分区快(这是首先安排的)。 |
spark.sql.broadcastTimeout | 300 | 广播链接中的广播等待时间以秒为单位超时 |
spark.sql.autoBroadcastJoinThreshold | 10485760(10 MB) | 配置在执行链接时将广播到全部工做节点的表的最大大小(以字节为单位)。经过将 此值设置为-1,能够禁用广播。请注意,目前只有ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan运行命令的Hive Metastore表才支持统计信息 。 |
spark.sql.shuffle.partitions | 200 | 配置混洗链接或聚合数据时要使用的分区数。 |
这里实现的Thrift JDBC / ODBC服务器对应HiveServer2
于Hive 1.2.1。您可使用Spark或Hive 1.2.1附带的beeline脚本测试JDBC服务器。 要启动JDBC / ODBC服务器,请在Spark目录中运行如下命令:sql
./sbin/start-thriftserver.sh该脚本接受全部的
bin/spark-submit
命令行选项,还有一个
--hiveconf
选项来指定Hive属性。您能够运行
./sbin/start-thriftserver.sh --help
全部可用选项的完整列表。默认状况下,服务器侦听localhost:10000。你能够经过两个环境变量覆盖这个行为,即:
export HIVE_SERVER2_THRIFT_PORT=<listening-port> export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host> ./sbin/start-thriftserver.sh \ --master <master-uri> \ ...或系统属性:
./sbin/start-thriftserver.sh \ --hiveconf hive.server2.thrift.port=<listening-port> \ --hiveconf hive.server2.thrift.bind.host=<listening-host> \ --master <master-uri> ...如今,您可使用直线来测试Thrift JDBC / ODBC服务器:
./bin/beeline使用如下命令直接链接到JDBC / ODBC服务器:
beeline> !connect jdbc:hive2://localhost:10000
直线会问你一个用户名和密码。在非安全模式下,只需在您的机器上输入用户名和密码便可。对于安全模式,请按照直线文档中的 说明进行操做。apache
hive 的结构是经过将您作hive-site.xml
,core-site.xml
和hdfs-site.xml
文件conf/
。缓存
您也可使用Hive附带的直线脚本。安全
Thrift JDBC服务器还支持经过HTTP传输发送节俭的RPC消息。使用如下设置启用HTTP模式做为系统属性或在hive-site.xml
文件中conf/
:服务器
hive.server2.transport.mode - Set this to value: http hive.server2.thrift.http.port - HTTP port number to listen on; default is 10001 hive.server2.http.endpoint - HTTP endpoint; default is cliservice要测试,使用直线链接到HTTP模式下的JDBC / ODBC服务器:
beeline> !connect jdbc:hive2://<host>:<port>/<database>?hive.server2.transport.mode=http;hive.server2.thrift.http.path=<http_endpoint>5, 运行Spark SQL CLI
./bin/spark-sqlhive的结构是经过将您作
hive-site.xml
,
core-site.xml
和
hdfs-site.xml
文件
conf/
。您能够运行
./bin/spark-sql --help
全部可用选项的完整列表。