spark连接hive并查询数据

首先启动 hadoop,mysql,hive 服务python

{hadoop}/sbin/start-all.shmysql

service mysqld start sql

hive --service metastore&oop

hive --service hiveserver2  &测试

最后启动spark 我是以python方式启动的sparkspa

{spark_home}/bin/pysparkcode

若是没有报错就是没有什么问题。接下来咱们运行一段代码进行测试一下:server

>>>from pyspark.sql import HiveContext
>>>from pyspark import SparkConf,SparkContext 
>>>conf = SparkConf().setMaster("local").setAppName("My App") 
>>>sc= SparkContext(conf=conf)
>>> hiveCtx=HiveContext(sc) 
>>>hh=hiveCtx.sql("select * from test")
>>>hh.show()
>>> print hh.first()
Row(id=1)

一切ok,首先要注意下,spark连接hive的时候必定要把 hive/conf下面的hive-site.xml 拷贝到spark/conf 下面xml

在hive-site.xml 中要配置:主要指明hive的存储位置blog

<property>  
                <name>hive.metastore.uris</name>  
                <value>thrift://vm000:9083</value>  
                <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>  
        </property>  

我在配置完成以后仍是报错就重启了系统,就行了

相关文章
相关标签/搜索