盘一盘十年数据库流行度，哪款是你的最爱

时间 2019-12-16

标签一盘数据库流行最爱栏目 SQL 繁體版

原文原文链接

准备写一个系列，在年终岁尾之际，盘一盘你们或者是本人比较关心的一些数据。文章内容会包括数据获取的过程和数据可视化结果。今天先来看看各大数据库在过去一年的表现吧！html

数据获取

全部的数据都来源自网站：db-engines.com/redis

一个数据库流行趋势统计网站。数据库

Method 1

咱们先来看获取数据方法一首先咱们能够在下面地址中看到一个包含全部数据库信息的表格bash

db-engines.com/en/rankingsession

而后能够进入到每一个数据库详情页面中，该数据库历年流行度数据都会在页面加载以后包含在 JavaScript 的变量中

db-engines.com/en/ranking_…app

因此咱们能够经过解析该 JavaScript 代码来获取每一个数据库的历年数据，同时为了加快抓取速度，使用了异步请求

先抓取全部数据库名称信息，经过 pandas 的 read_html 方法能够方便的读取 html 中的 table 数据异步

import pandas as pd


mystr = ' Detailed vendor-provided information available'


def set_column3(column3):
    if mystr in column3:
        column3 = column3.split(mystr)[0]
    return column3


url = 'https://db-engines.com/en/ranking'
tb = pd.read_html(url)
db_tb = tb[3].drop(index=[0, 1, 2])[[0, 1, 2, 3, 4, 5, 6, 7]]

# 处理数据
db_tb[3] = db_tb[3].apply(set_column3)

# 保存数据
db_tb.to_csv('db_tb.csv')
复制代码

异步抓取数据库详细信息async

async def fetch(session, url):
    async with session.get(url) as response:

        return await response.text()


async def get_db_data(db_name):
    url = 'https://db-engines.com/en/ranking_trend/system/%s' % db_name

    async with aiohttp.ClientSession() as session:
        res = await fetch(session, url)
        content = BeautifulSoup(res, "html.parser")
        content.find_all("script")
        db_data = content.find_all("script")[2].string
        src_text = js2xml.parse(db_data)
        src_tree = js2xml.pretty_print(src_text)
        data_tree = BeautifulSoup(src_tree, 'html.parser')
        data_tree.find_all('number')
        data = []
        for i in data_tree.find_all('number'):
            data.append(i['value'])

        date_list = gen_time('%s-%s' % (data[0], str(int(data[1]) + 1)))
        date_value = list(zip(date_list, data[3:]))
        d_data = zip([db_name for i in range(len(date_value))], date_value)

        await save_data(d_data)


def gen_time(datestart, dateend=None):
    if dateend is None:
        dateend = time.strftime('%Y-%m', time.localtime(time.time()))
    datestart=datetime.datetime.strptime(datestart, '%Y-%m')
    dateend=datetime.datetime.strptime(dateend, '%Y-%m')
    date_list = list(OrderedDict(((datestart + timedelta(_)).strftime(r"%Y-%m"), None) for _ in range((dateend - datestart).days)).keys())
    date_list.append('2019-12')
    return date_list


if __name__ == '__main__':
    db_tb = pd.read_csv('db_tb.csv')
    db_name = db_tb['3'].values.tolist()
    loop = asyncio.get_event_loop()
    tasks = [get_db_data(name) for name in db_name]
    loop.run_until_complete(asyncio.wait(tasks))
    loop.close()
复制代码

Method 2

下面再来介绍第二种方法，方法更简单，可是抓取时须要处理的地方更多些ide

咱们能够直接访问下面的地址，一样的，在页面加载完成后，会返回全部数据库的历年数据信息oop

db-engines.com/en/ranking_…

那么咱们就能够直接解析此处的 JavaScript 信息，获取对应数据库的数据便可

不过因为有些数据库的历史数据有缺失，因此须要作特殊处理

for i in data_tree.find_all('object'):
        date_list = gen_time('%s-%s' % (year_list[0], str(int(year_list[1]) + 1)))
        data = []
        tmp_list = []
        db_name = i.find('string')
        if i.find('null'):
            null_num = len(i.find_all('null'))
            tmp_list = list(zip(date_list[:null_num], ['0' for i in range(null_num + 1)]))
            date_list = date_list[null_num:]
        for j in i.find_all('number'):
            data.append(j['value'])
复制代码