猫哥教你写爬虫 040--存储数据-做业

小做业:爬取猫眼电影top100, 保存 电影名, 排名, 评分, 主演, 封面图片, 上映时间到数据库

maoyan.com/board/4

代码

import requests, pymysql
from bs4 import BeautifulSoup
# 链接数据库
connection = pymysql.connect(host='localhost', user='root', password='root', port=3306)
# 建立游标
cursor = connection.cursor()
# 建库, 建表
def create_table():
    # 若是存在即删除数据库 maoyan
    cursor.execute('drop database if exists maoyan')
    # 建立maoyan数据库, 字符集utf8
    cursor.execute('create database maoyan character set utf8')
    # 使用数据库
    cursor.execute('use maoyan')
    # 建立数据表movie, id主键, title电影名, score评分, img图片路径, actors主演, release_date上映日期, ranking排名
    cursor.execute(''' create table movie( id int primary key auto_increment, title varchar(255) not null, score decimal(2,1) not null, img varchar(255) not null, actors varchar(255) not null, release_date varchar(20) not null, ranking int not null ) ''')
    # 提交sql语句, 增删改须要提交
    connection.commit()
# 获取电影信息
def get_movies():
    # https://maoyan.com/board/4?offset=0
    # 0,1,2,3,4,5,6,7,8,9
    for i in range(1):
        print(i)
        soup = BeautifulSoup(requests.get('https://maoyan.com/board/4?offset={}'.format(i*10)).text, 'html.parser')
        # 在dl里面找dd, 每一个dd都保存了一部电影的信息
        for dd in soup.find('dl', class_='board-wrapper').find_all('dd'):
            # 电影标题
            title = dd.find('a')['title']
            # 电影的图片连接
            img = dd.find('img', class_='board-img')['data-src'].split('jpg')[0]+'jpg'
            # 电影的主演
            actors = dd.find('p', class_='star').text.strip()
            # 电影的评分
            score = dd.find('p', class_='score').text
            # 电影的排行
            ranking = dd.find('i').text
            # 电影的上映日期
            release_date = dd.find('p',class_="releasetime").text[5:15]
            # 插入数据库
            add_movies(title, img, actors, score, ranking, release_date)
# 把电影信息写入数据库
def add_movies(title, img, actors, score, ranking, release_date):
    # 拼接sql语句
    sql = "insert into movie(title, img, actors, score, ranking, release_date) values({},{},{},{},{},{})".format(
        repr(title), repr(img), repr(actors), score, ranking, repr(release_date))
    print(sql)
    # 执行
    cursor.execute(sql)
    # 提交
    connection.commit()
def query_movie():
    sql = "select * from movie"
    # 执行sql
    cursor.execute(sql)
    # 获取全部数据
    res = cursor.fetchall()
    for i in res:
        print(i)
if __name__ == "__main__":
    create_table()
    get_movies()
    query_movie()
复制代码

快速跳转:

猫哥教你写爬虫 040--存储数据-做业

小做业:爬取猫眼电影top100, 保存 电影名, 排名, 评分, 主演, 封面图片, 上映时间到数据库

maoyan.com/board/4

代码

快速跳转:

小做业:爬取猫眼电影top100, 保存 `电影名`, `排名`, `评分`, `主演`, `封面图片`, `上映时间`到数据库