主要是本身对数据挖掘和机器学习感兴趣,所以一些大数据相关的前沿技术固然要有所了解。这两天折腾了一下hive、hadoop、spark相关的东西。学会了如何搭建集群、如何用spark从hive加载数据,或者向hive中写数据。html
仍是在安装的过程当中,由于你的版本的选择,操做系统的选择等,都会有差别,所以安装的过程当中,问题多多。总之,要能经得起折腾。机器学习
一、Hive安装oop
http://blog.csdn.net/an342647823/article/details/46048403学习
二、Hadoop安装大数据
http://www.itnose.net/detail/6182168.html
spa
三、Spark安装操作系统
http://stark-summer.iteye.com/blog/2173219
.net
http://ju.outofmemory.cn/entry/177769
xml
四、以上环境安装好以后,还须要配置spark,与hive交互的相关的东西。htm
a:将hive-site.xml复制到spark的conf里面,主要包含这个配置项就行
<property>
<name>hive.metastore.uris</name>
<value>thrift://192.168.1.188:9083</value>
</property>
b:启动metastore服务 命令:hive --service metastore