爬虫数据保存

时间 2019-11-16

标签爬虫数据保存栏目网络爬虫繁體版

原文原文链接

1、文本保存：python

　　一、文件保存方式：redis

2、保存为json格式：
mongodb

　　一、读取json:
数据库

　　　　.loads() 方法：读取字符串，而后返回json对象。json

　　　　但需注意：json数据的字符串须要使用双引号来包含，不能使用单引号。学习

　　二、json文件读取：spa

1 with open('json','r') as file:
2     str=file.read()
3 js=json.loads(str)

　　三、json文件保存：3d

1 with open('test.json','w') as file:
2     file.write(json.dumps(js，indent=2,))ensure_ascii=False

3、保存为csv文件：code

　　一、写入：对象

1 with open('data.csv', 'w') as csvfile:
2     fieldnames = ['id', 'name', 'age']
3     writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
4     writer.writeheader()
5     writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})
6     writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})
7     writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})

　　二、读出：

1 with open('data.csv','r',encoding='utf-8') as file:
2     reader=csv.reader(file)
3     for i in reader:
4         print(i)

4、mongodb学习：

　　一、链接MongoDB：

1 import pymongo
2 #端口号能够指定，不指定默认为27017
3 mongo=pymongo.MongoClient(host='localhost')

　　二、指定数据库和集合（至关于关系型数据库的表）：

1 #指定数据库
2 db=mongo.test
3 collection=db.students

　　三、插入数据：

 1 student = {
 2     'id': '20170101',
 3     'name': 'Jordan',
 4     'age': 20,
 5     'gender': 'male'
 6 }
 7 #插入一条数据
 8 result=collection.insert_one(student)
 9 #插入多条数据
10 result=collection.insert_many([student,student])
11 print(result.inserted_id)

　　四、数据查询：

　　插入数据后咱们能够利用 find_one() 或 find() 方法进行查询，find_one() 查询获得是单个结果，find() 则返回一个生成器对象。

1 #查询
2 result=collection.find({'name':'Jordan'})
3 print(result.count())

　　五、计数：

　六、排序：

　　七、偏移：

　　八、更新：

　　须要指定更新的条件和更新后的数据：

　　九、删除：

5、Redis存储：

　　一、链接：

1 from redis import StrictRedis
2 
3 
4 redis=StrictRedis(host='localhost',port=6379,db=0)
5 redis.set('name','bog')
6 redis.set('age',20)
7 print(redis.get('name'))

　　二、key操做：

　　四、string操做：