Scrapy爬虫笔记【6-链接数据库(一)】

本博客地址【http://blog.csdn.net/xiantian7

数据库基本概念简介

MySQL 为关系型数据库(Relational Database Management System), 这种所谓的"关系型"能够理解为"表格"的概念, 一个关系型数据库由一个或数个表格组成, 如图所示的一个表格:html

  • 表头(header): 每一列的名称;
  • 列(row): 具备相同数据类型的数据的集合;
  • 行(col): 每一行用来描述某我的/物的具体信息;
  • 值(value): 行的具体信息, 每一个值必须与该列的数据类型相同;
  • 键(key): 表中用来识别某个特定的人\物的方法, 键的值在当前列中具备惟一性。

                就是数据表中的列或者列的组合。
主键          表中能够惟一肯定本表中某行记录的列或者列的组合。
                  例如或者身份证号码惟一肯定一我的;用户ID+发票号码惟一确认某次交易。
外键          表中的某列或者某些列的组合是其余表的主键。
                  其做用是为了创建和其余表的关联关系。
链接          将几个个有关联的表(其中一个表的主键是其余表的外键)创建链接关系,造成一个临时表以供它用。
                  创建链接的主键/外键是创建链接的依据。
内链接    将进行链接的表以创建链接的依据为中心,将这些表取交集,交集就是内链接的结果。
                  做用就是找出在两张表中都有的记录。
外链接    链接的动做和内链接同样,结果不一样。将表进行交集以后,取交集中的记录以及某表中除交集以外的全部记录。包括左链接和右链接。
                  例如A表左链接B表,实际上就是取交集在B表中全部字段的值+A表内容。
自链接    链接动做同上,只不过是在一张表中进行。
                  这样的状况适用于表中的2个字段互相有关联,而且要对这种关联进行处理时。
python

首先看看各类键的定义:mysql

超键(super key):在关系中能惟一标识元组的属性集称为关系模式的超键sql

候选键(candidate key):不含有多余属性的超键称为候选键数据库

主键(primary key):用户选做元组标识的一个候选键程序主键编程

外键(foreign key)若是关系模式R1中的某属性集不是R1的主键,而是另外一个关系R2的主键则该属性集是关系模式R1的外键。
函数


结合实例的具体解释:fetch

假设有以下两个表:url

学生(学号,姓名,性别,身份证号,教师编号)spa

教师(教师编号,姓名,工资)

超键:

由超键的定义可知,学生表中含有学号或者身份证号的任意组合都为此表的超键。如:(学号)、(学号,姓名)、(身份证号,性别)等。

候选键:

候选键属于超键,它是最小的超键,就是说若是再去掉候选键中的任何一个属性它就再也不是超键了。学生表中的候选键为:(学号)、(身份证号)。

主键:

主键就是候选键里面的一个,是人为规定的,例如学生表中,咱们一般会让“学号”作主键,教师表中让“教师编号”作主键。

外键:

外键比较简单,学生表中的外键就是“教师编号”。外键主要是用来描述两个表的关系。


python操做mysql数据库

下面以比较流行的Mysql数据库为栗子,介绍一下Python操做数据库的方法,后面再逐步深刻


python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。

你能够访问Python数据库接口及API查看详细的支持数据库列表。

不一样的数据库你须要下载不一样的DB API模块,例如你须要访问Oracle数据库和Mysql数据,你须要下载Oracle和MySQL数据库模块。

DB-API 是一个规范. 它定义了一系列必须的对象和数据库存取方式, 以便为各类各样的底层数据库系统和多种多样的数据库接口程序提供一致的访问接口 。

Python的DB-API,为大多数的数据库实现了接口,使用它链接各数据库后,就能够用相同的方式操做各数据库。

Python DB-API使用流程:

  • 引入 API 模块。
  • 获取与数据库的链接。
  • 执行SQL语句和存储过程。
  • 关闭数据库链接

安装MySQLdb的过程略,可以把Scrapy装上,那这个就是小菜一碟·· 


数据库链接

链接数据库前,请先确认如下事项:

  • 您已经建立了数据库 TESTDB.
  • 在TESTDB数据库中您已经建立了表 EMPLOYEE
  • EMPLOYEE表字段为 FIRST_NAME, LAST_NAME, AGE, SEX 和 INCOME。
  • 链接数据库TESTDB使用的用户名为 "testuser" ,密码为 "test123",你能够能够本身设定或者直接使用root用户名及其密码,Mysql数据库用户受权请使用Grant命令。
  • 在你的机子上已经安装了 Python MySQLdb 模块。

建立数据库

### #!/usr/bin/python import MySQLdb # 打开数据库链接 db = MySQLdb.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操做游标 cursor = db.cursor() # 若是数据表已经存在使用 execute() 方法删除表。 cursor.execute("DROP TABLE IF EXISTS EMPLOYEE") # 建立数据表SQL语句 sql = """CREATE TABLE EMPLOYEE ( FIRST_NAME CHAR(20) NOT NULL, LAST_NAME CHAR(20), AGE INT, SEX CHAR(1), INCOME FLOAT )""" cursor.execute(sql) # 关闭数据库链接 db.close() ###

数据库插入操做

### #!/usr/bin/python import MySQLdb # 打开数据库链接 db = MySQLdb.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操做游标 cursor = db.cursor() # SQL 插入语句 sql = """INSERT INTO EMPLOYEE(FIRST_NAME, LAST_NAME, AGE, SEX, INCOME) VALUES ('Mac', 'Mohan', 20, 'M', 2000)""" try: # 执行sql语句 cursor.execute(sql) # 提交到数据库执行 db.commit() except: # Rollback in case there is any error db.rollback() # 关闭数据库链接 db.close() ###

也能够写成

### #!/usr/bin/python import MySQLdb # 打开数据库链接 db = MySQLdb.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操做游标 cursor = db.cursor() # SQL 插入语句 sql = "INSERT INTO EMPLOYEE(FIRST_NAME, \ LAST_NAME, AGE, SEX, INCOME) \ VALUES ('%s', '%s', '%d', '%c', '%d' )" % \ ('Mac', 'Mohan', 20, 'M', 2000) try: # 执行sql语句 cursor.execute(sql) # 提交到数据库执行 db.commit() except: # 发生错误时回滚 db.rollback() # 关闭数据库链接 db.close() ###



数据库查询操做

Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据。

  • fetchone(): 该方法获取下一个查询结果集。结果集是一个对象
  • fetchall():接收所有的返回结果行.
  • rowcount: 这是一个只读属性,并返回执行execute()方法后影响的行数。

实例:

查询EMPLOYEE表中salary(工资)字段大于1000的全部数据:



###
#!/usr/bin/python

import MySQLdb

# 打开数据库链接
db = MySQLdb.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法获取操做游标 
cursor = db.cursor()

# SQL 查询语句
sql = "SELECT * FROM EMPLOYEE \
       WHERE INCOME > '%d'" % (1000)
try:
   # 执行SQL语句
   cursor.execute(sql)
   # 获取全部记录列表
   results = cursor.fetchall()
   for row in results:
      fname = row[0]
      lname = row[1]
      age = row[2]
      sex = row[3]
      income = row[4]
      # 打印结果
      print "fname=%s,lname=%s,age=%d,sex=%s,income=%d" % \
             (fname, lname, age, sex, income )
except:
   print "Error: unable to fecth data"

# 关闭数据库链接
db.close()
###

DB API中定义了一些数据库操做的错误及异常,下表列出了这些错误和异常:


异常 描述
Warning 当有严重警告时触发,例如插入数据是被截断等等。必须是 StandardError 的子类。
Error 警告之外全部其余错误类。必须是 StandardError 的子类。
InterfaceError 当有数据库接口模块自己的错误(而不是数据库的错误)发生时触发。 必须是Error的子类。
DatabaseError 和数据库有关的错误发生时触发。 必须是Error的子类。
DataError 当有数据处理时的错误发生时触发,例如:除零错误,数据超范围等等。 必须是DatabaseError的子类。
OperationalError 指非用户控制的,而是操做数据库时发生的错误。例如:链接意外断开、 数据库名未找到、事务处理失败、内存分配错误等等操做数据库是发生的错误。 必须是DatabaseError的子类。
IntegrityError 完整性相关的错误,例如外键检查失败等。必须是DatabaseError子类。
InternalError 数据库的内部错误,例如游标(cursor)失效了、事务同步失败等等。 必须是DatabaseError子类。
ProgrammingError 程序错误,例如数据表(table)没找到或已存在、SQL语句语法错误、 参数数量错误等等。必须是DatabaseError的子类。
NotSupportedError 不支持错误,指使用了数据库不支持的函数或API等。例如在链接对象上 使用.rollback()函数,然而数据库并不支持事务或者事务已关闭。 必须是DatabaseError的子类。

流程详解

0.引入MySQLdb库
import MySQLdb

1.和数据库创建链接
conn=MySQLdb.connect(host="localhost",user="root",passwd="sa",db="mytable")

提供的connect方法用来和数据库创建链接,接收数个参数,返回链接对象.,固然也能够隐式的传递参数,像下面这个样子:

conn=MySQLdb.connect("localhost","root","sa","mytable")


比较经常使用的参数包括


host:数据库主机名.默认是用本地主机.
user:数据库登录名.默认是当前用户.
passwd:数据库登录的秘密.默认为空.
db:要使用的数据库名.没有默认值.
port:MySQL服务使用的TCP端口.默认是3306.



而后,这个链接对象也提供了对事务操做的支持,标准的方法

commit() 提交
rollback() 回滚

2.执行sql语句和接收返回值
cursor=conn.cursor()
n=cursor.execute(sql,param)
首先,咱们用使用链接对象得到一个cursor对象,接下来,咱们会使用cursor提供的方法来进行工做.这些方法包括两大类:1.执行命令,2.接收返回值

cursor用来执行命令的方法:
callproc(self, procname, args):用来执行存储过程,接收的参数为存储过程名和参数列表,返回值为受影响的行数
execute(self, query, args):执行单条sql语句,接收的参数为sql语句自己和使用的参数列表,返回值为受影响的行数
executemany(self, query, args):执行单条sql语句,可是重复执行参数列表里的参数,返回值为受影响的行数
nextset(self):移动到下一个结果集

cursor用来接收返回值的方法:
fetchall(self):接收所有的返回结果行.
fetchmany(self, size=None):接收size条返回结果行.若是size的值大于返回的结果行的数量,则会返回cursor.arraysize条数据.
fetchone(self):返回一条结果行.
scroll(self, value, mode='relative'):移动指针到某一行.若是mode='relative',则表示从当前所在行移动value条,若是mode='absolute',则表示从结果集的第一行移动value条.

下面的代码是一个完整的例子.


### #使用sql语句,这里要接收的参数都用%s占位符.要注意的是,不管你要插入的数据是什么类型,占位符永远都要用%s sql="insert into cdinfo values(%s,%s,%s,%s,%s)" #param应该为tuple或者list param=(title,singer,imgurl,url,alpha) #执行,若是成功,n的值为1 n=cursor.execute(sql,param) #再来执行一个查询的操做 cursor.execute("select * from cdinfo") #咱们使用了fetchall这个方法.这样,cds里保存的将会是查询返回的所有结果.每条结果都是一个tuple类型的数据,这些tuple组成了一个tuple cds=cursor.fetchall() #由于是tuple,因此能够这样使用结果集 print cds[0][3] #或者直接显示出来,看看结果集的真实样子 print cds #若是须要批量的插入数据,就这样作 sql="insert into cdinfo values(0,%s,%s,%s,%s,%s)" #每一个值的集合为一个tuple,整个参数集组成一个tuple,或者list param=((title,singer,imgurl,url,alpha),(title2,singer2,imgurl2,url2,alpha2)) #使用executemany方法来批量的插入数据.这真是一个很酷的方法! n=cursor.executemany(sql,param) ###

须要注意的是(或者说是我感到奇怪的是),在执行完插入或删除或修改操做后,须要调用一下conn.commit()方法进行提交.这样,数据才会真正保 存在数据库中.我不清楚是不是个人mysql设置问题,总之,今天我在一开始使用的时候,若是不用commit,那数据就不会保留在数据库中,可是,数据 确实在数据库呆过.由于自动编号进行了累积,并且返回的受影响的行数并不为0.


3.关闭数据库链接
须要分别的关闭指针对象和链接对象.他们有名字相同的方法
cursor.close()
conn.close()



参考: 一、http://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html#d1

             二、http://www.cnblogs.com/kitty74jh/archive/2007/03/19/679823.html

             三、http://www.w3cschool.cc/python/python-mysql.html

             四、http://mysql-python.sourceforge.net/MySQLdb.html#using-and-extending