爬虫数据存储

时间 2019-12-09

原文原文链接

爬取的数据，须要保存，能够存储在文件中或者数据库中。html

存储在文件中，包括txt、csv、json；
存储在数据库中，包括MySQL关系数据库和MongoDB数据库。

python 字典操做参考：
http://jianwl.com/2017/08/22/%E9%AB%98%E6%95%88%E5%AE%9E%E7%94%A8Python%E5%AD%97%E5%85%B8%E7%9A%84%E6%B8%85%E5%8D%95/python

python 读写参考：
http://www.javashuo.com/article/p-dyjkekrw-cv.htmlmysql

一、基本存储：存储至txt、csv、json

（1）存入txt文件(saving_data.py)

all_house数据结构：all_house[{'house_area':dd,'price':dd,'build_year':dd},{},{}...]sql

f=open('net_saving_data.txt','w');
for item in all_house:
    # house_area=item['house_area'];
    # price=item['price'];
    output='\t'.join([str(item['house_area']),str(item['price']),str(item['build_year'])]);
    f.write(output);
    f.write('\n');
f.close();

效果如图：数据库

若须要将几个变量写入txt中，能够用'\t'.join(["house_area","price","build_year"]),注意join()内是个列表。

（2）存入CSV文件(saving_data.py)

CSV(Comma-Separated_values),以逗号分隔值的文件格式，文件以纯文本格式存储表格数据（数字和文本），每一行以换行符分隔，列与列之间用逗号分隔。与txt比较，可以存储的数据大小差很少，可是数据以逗号分隔较整齐，全部python网络爬虫常常用此来存储数据。json

从字典中写入csv文件

import csv;

f=open('net_saving_data.csv','w');
csv_write=csv.writer(f);
for item in all_house:
    csv_write.writerow([item.get('house_area',None),item.get('price',None),item.get('build_year',None)]);
    #f.write('\n');
f.close();

效果如图：api

如果想在csv中加入key值，操做以下：网络

csv_write.writerow(['house_area',item.get('house_area',None),'price',item.get('price',None),'build_year',item.get('build_year',None)]);

效果如图：数据结构

从列表中写入csv文件

houses=[['2edr','ser','sge'],['as','hi','hioh','aaajio']];
f=open('saving_data.csv','w');
csv_write=csv.writer(f);
for house in houses:
    csv_write.writerow([item for item in house]);
f.close();

效果如图：app

（3）写入json文件

##写入
with open("anjuke_salehouse.json","w",encoding='utf-8') as f:
    json.dump(all_house,f,ensure_ascii=False);
    print(u'加载入文件完成...');

二、csv、json、txt读取：

（1）csv读取

-参考：http://www.javashuo.com/article/p-dyjkekrw-cv.html

import csv;
houses=[];
with open('net_saving_data.csv','r') as openscv:
    csv_reader=csv.reader(openscv);
    for row in csv_reader:
       houses.append(row); 
    openscv.close();
print houses;

原数据界面：

读取数据界面以下：

（2）json读取

##读入
with open("anjuke_salehouse.json",'r',encoding='utf-8') as f:
    load_dict=json.load(f);
print (load_dict);

什么的不要想，直接load出来的就是json文件格式如出一辙的一个对象。 主要是防止乱码的等参数设置。

（3）txt读取

参考文章：https://blog.csdn.net/shandong_chu/article/details/70173952

with open('net_saving_data.txt','r') as opentxt:
    txt_reader=opentxt.readlines();
for lin in txt_reader:
    print (lin);

三、MySQL数据库操做

建库、更删改查，由于下面涉及一些对数据库的操做，如今这里复习一下基本的更删改查

（1）建数据库、建表

create table urls(id int NOT NULL auto_increment,url varchar(1000) NOT NULL,content varchar(4000) NOT NULL,created_time timestamp default current_timestamp,primary key(id));
*/

（2）查表结构或查database

describe urls;
show databases;

（3）表中插入数据

insert into urls(url,content)values("www.baidu.com","这是内容。")
select * from urls where id=1;

（4）从数据表中提取数据

insert into urls(url,content)values("www.blog.com","博客网址。");
select * from urls ;

（5）删除数据

delete from urls where url='www.baidu.com';
select * from urls ;

（6）修改数据
将id=2的content改为博客园

insert into urls(url,content)values("www.santostang.com","Santos blog");
update urls set url='www.blog.com',content="博客园" where id=2;
select * from urls ;

（7）语句参考地址：https://blog.csdn.net/ljxfblog/article/details/52066006

UNION

select * from a order by id) union (select * from b order by id);

若是不一样的语句中取出的行，有彻底相同(这里表示的是每一个列的值都相同)，那么union会将相同的行合并，最终只保留一行。也能够这样理解，union会去掉重复的行。若是不想去掉重复的行，可使用union all。若是子句中有order by,limit，需用括号()包起来。推荐放到全部子句以后，即对最终合并的结果来排序或筛选。两次查询的列数必须一致

JOIN

//使用连表查询
SELECT Persons.LastName, Persons.FirstName,Orders.OrderNo
FROM Persons, Orders
WHERE Persons.Id_P = Orders.Id_P 

//使用join查询(inner join)
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
INNER JOIN Orders
ON Persons.Id_P = Orders.Id_P
ORDER BY Persons.LastName

有时为了获得完整的结果，咱们须要从两个或更多的表中获取结果。咱们就须要执行 join。数据库中的表可经过键将彼此联系起来。主键（Primary Key）是一个列，在这个列中的每一行的值都是惟一的。在表中，每一个主键的值都是惟一的。这样作的目的是在不重复每一个表中的全部数据的状况下，把表间的数据交叉捆绑在一块儿。上面的例子中使用的 INNER JOIN（内链接），JOIN默认使用内链接，能够省略INNER。咱们还可使用其余几种链接。

LEFT JOIN

//使用left join查询,只要左表有匹配的条件，就会生成一行，右表的列值为空。
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
LEFT JOIN Orders
ON Persons.Id_P=Orders.Id_P
ORDER BY Persons.LastName

RIGHT JOIN

//使用right join查询,只要右表有匹配的条件，就会生成一行，左表的列值为空。
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
RIGHT JOIN Orders
ON Persons.Id_P=Orders.Id_P
ORDER BY Persons.LastName

FULL JOIN

//使用full join查询,只要其中一个表中存在匹配，就会生成一行，另外一个表的列值为空。
SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo
FROM Persons
FULL JOIN Orders
ON Persons.Id_P=Orders.Id_P
ORDER BY Persons.LastName

JOIN: 若是表中有至少一个匹配，则返回行（INNER JOIN 与 JOIN）
LEFT JOIN: 即便右表中没有匹配，也从左表返回全部的行
RIGHT JOIN: 即便左表中没有匹配，也从右表返回全部的行
FULL JOIN: 只要其中一个表中存在匹配，就返回行

ALTER

alter table urls add created_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP;
#增长一列
alter table test modify content char(10) 
#修改表列类型

四、python操做MySQL数据库

参考文献：http://www.javashuo.com/article/p-dnxfmvts-gb.html

在操做数据库的时候，python2中通常使用mysqldb，但在python3中已经不在支持mysqldb了，咱们能够用pymysql和mysql.connector。本文的全部操做都是在python3的pymysql下完成的。python -m pip install pymysql

mysql -u root -p
using mysql;
select host,user from mysql.user;

mysql的host、user、password等信息。

查询

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor();#获取方法，建立游标

sql='select * from urls';
recount=cur.execute(sql);#操做execute()方法写入sql语句
data=cur.fetchall(); # 返回数据,返回的是tuple类型
print data;

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping')用于建立数据库的链接，里面指定参数（用户名，密码，主机信息）。cur=conn.cursor()经过获取的数据库链接conn下的cursor()方法来建立游标，以后经过游标操做execute()方法写入纯SQL语句。完成MySQL数据库操做后，须要关闭游标cur和链接conn。

插入数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor();

sql1='insert into urls(url,content)values(%s,%s)';
params=('www.sinlang.com','新浪微博');
recount=cur.execute(sql1,params);
##executemany 批量插入
li=[('www.blogs.com','批量插入的第一个'),('www.sou.com','批量插入的第二个')];
sql2='insert into urls(url,content)values(%s,%s)';
recount=cur.executemany(sql2,li);

sql3=sql='select * from urls';
recount=cur.execute(sql3);
data=cur.fetchall();
conn.commit;
cur.close;
conn.close;

print data;
#返回的都是元组((1,'','',time),(2,'','',time)...(6,'','',time));

其中commit只要执行一次，以上都是返回元组。

插入数据，返回dict类型的数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);# 参数设置
sql='select * from urls';
recount=cur.execute(sql);

data=cur.fetchall();
cur.close();
conn.close();
print recount;
print data;
#返回的是列表含字典[{u'url': 'www.baidu.com', u'content': 'xxx', u'id': 1, u'created_time': datetime.datetime(2018, 8, 22, 22, 2, 23)}, {xxx}, {xxx}];

fechone来逐条获取数据或者for循环

for 循环获取数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from urls';
recount=cur.execute(sql);

data=cur.fetchall();
for i in range(len(data)):
    print data[i]
cur.close();
conn.close();
print recount;

fechone来逐条获取数据

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='scraping');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from urls';
recount=cur.execute(sql);

cur.close();
conn.close();
print recount;

for i in range(recount):
    data=cur.fetchone();
    print data;

两种方法获取结果都以下：

用户登陆的功能，可见
http://www.javashuo.com/article/p-dnxfmvts-gb.html

五、爬取网页数据存入MySQL数据库

（1）在cmd 数据库中先建立database 和相应表；

create database anjuke;
use anjuke;
create table anjuke (id int not null Auto_increment,house_title varchar(1000) not null,house_layout varchar(1000) not null,house_area int not null,house_levers int not null,brokername varchar (1000),address varchar(2000),price int not null,primary key(id));

（2）将数据插入数据库中，爬取的数据格式以下[{},{},{},{}]。for循环列表，提取每个字典中的信息，创建sql语义传参至execute中。

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='anjuke');
cur=conn.cursor();
for item in all_house:
    house_title=item['house_title'];
    house_layout=item['house_layout'];
    house_area=item['house_area'];
    house_levers=item['house_levers'];
    brokername=item['brokername'];
    house_address=item['house_address'];
    price=item['price'];
    sql='insert into anjuke(house_title,house_layout,house_area,house_levers,address,brokername,price) values (%s,%s,%s,%s,%s,%s,%s)';
    #parme=(house_title,house_layout,house_area,house_levers,house_address,brokername,price);
    #cur.execute(sql,parme);
    cur.execute(sql,(house_title,house_layout,house_area,house_levers,house_address,brokername,price));
conn.commit();
cur.close();
conn.close();

（3）读取存入MySQL数据库de网页爬取数据,能够[{},{},{}...{}]或者{}/n{}/n{}/n.../n{}形式输出。

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='anjuke');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from anjuke';
cur.execute(sql);
conn.close();
cur.close();
data=cur.fetchall();#[{},{},{}...{}]
print data;

conn=pymysql.connect(host='localhost',user='root',passwd='123456',db='anjuke');
cur=conn.cursor(cursor=pymysql.cursors.DictCursor);
sql='select * from anjuke';
recount=cur.execute(sql);
conn.close();
cur.close();
for i in range(recount):
    data=cur.fetchone();
    print data;

可close()后，再对cur进行data的输出。

总结 NOTE

数据存至txt csv有固定格式，记住就好
存到mysql，主要是链接数据库：conn=mysql.connect()、获取游标：cur=conn.cursor、对数据库操做：cur.execute(sql)、获取数据库：cur.fetchall()四个操做进行数据库操做。通常获取后，能够不用commit，存入数据等须要conn.commit()，但都要conn.close(),cur.close()。
另外深刻可参考：http://www.runoob.com/python/python-mysql.html