spark读mysql数据

时间 2019-11-24

标签 spark mysql 数据栏目 Spark 繁體版

原文原文链接

最近在学习中，须要用spark读取mysql数据，查阅了不少资料大可能是java版本的，本身琢磨了半天，研究出python版本的，本人菜鸟，本博客只会记录学习过程，若有不妥请见谅。所用spark版本为1.4.1.
html

先上本身找到了一些相关资料，仅供参考~~~java

http://www.thebigdata.cn/QiTa/15471.htmlpython

http://www.iteblog.com/archives/1560mysql

官方文档中 http://spark.apache.org/docs/1.4.1/sql-programming-guide.htmlsql

有介绍Spark SQL与hive，json等数据的读写。而mysql等一些数据库可经过JDBC来读取。数据库

from pyspark import SparkContext
from pyspark.sql import SQLContext,Row
sqlContext=SQLContext(sc)
df=sqlContext.read.format('jdbc').options(url="jdbc:mysql://localhost/spider_db?user=spider_user&password=password",dbtable="allpapers").load()

或：apache

from pyspark import SparkContext
from pyspark.sql import SQLContext,Row
sqlContext=SQLContext(sc)
df=sqlContext.read.jdbc(url="jdbc:mysql://localhost?user=spider_user&password=password",table="spider_db.allpapers")

url含义：json

url=jdbc:mysql://MYSQL_HOST/MYSQL_DBNAME?user=MYSQL_USER&password=MYSQL_PASSWD”,dbtable=”MYSQL_TABLE”ide

MYSQL_HOST为mysql的地址，本机为localhost，MYSQL_DBNAME为数据库名，MYSQL_USER为用户名，MYSQL_PASSW为登录密码，MYSQL_TABLE为表名。MYSQL_DBNAME可放入url中，也可放入table中。oop

所遇到的错误状况有一下两种：

1.java.sql.SQLException: No suitable driver found for ...

解决办法：下载mysql-connector包，将其放到spark下，并指定jar包，即在spark-env.sh中添加

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/hadoop/spark/lib/mysql-connector-java-5.1.36-bin.jar

2.java.sql.SQLException: access denied for user'spider_user '@'**.**.**.**'(using password :Yes)

解决办法：mysql的密码输入错误，正确书写mysql密码。