工做中你是否碰见这样的问题:mysql
数据探查结果表sql
若是你遇到了以上的问题,恭喜你,本文能够帮助你解决!数据库
但有人会有疑问,Python进行数据探查不是很是简单的事吗,一个函数分分钟搞定,还有必要专门介绍吗。若是你这样想就too yong too simple了。app
你能够回想下,当咱们采用descirbe()函数时,默认的前提是已经将数据读入了Python之中。但你可曾想过,实际工做中数据读入也会成为一种问题。对的,当数据量级一旦达到百万以上甚至更多时,Python读取数据的效率就很低了。读取一张表可能就要半小时以上,几十张表的话差很少就得一天了。这样低效的方法,确定是不可取的。框架
本文就是来源于工做中的实际需求,在上述的方式行不通时,我转变思路寻找了另外一种方式。具体的逻辑思路以下:机器学习
也就是说,为了快速进行探查,咱们能够不用进行全表读入,只需对每一个表每一个字段进行分组查询就能够了。但如何将SQL查询语句进行循环呢?采用字符串的格式化输出!函数
首先咱们导入相关包学习
import pymysql import pandas as pd import datetime as dt start=dt.datetime.now() #为了计算程序执行时间
将数据库的链接和查询抽象成一个函数,在此我设置的是返回数据框格式数据fetch
#定义数据查询函数 def sql_inquiry(sql): conn= pymysql.connect(host="localhost",port=****,user='****', passwd='****',db="test_titanic",charset="utf8") cur=conn.cursor() cur.execute(sql) result=cur.fetchall() cols=[a[0] for a in cur.description] #得到字段名称信息 df=pd.DataFrame(result,columns=cols) conn.commit() cur.close() conn.close() return df
准备工做作好后,咱们能够输入咱们要进行探查的表名称。ui
table_name=['test','train']
若是咱们想得到这些表的字段名称、注释、类型和行数的话,能够经过数据框的信息表得到。这个地方要注意的就是:为了便于循环,根据每一个表创建了一条SQL语句,把全部的语句组合成了一个列表。
table_sql=[] for i in range(len(table_name)): table_sql.append('''select t1.table_name as table_name,t1.column_name as column_name,t1.column_type as column_type, t1.column_comment as column_comment ,t2.table_rows as table_rows from information_schema.columns as t1,information_schema.`tables` as t2 where t1.table_schema=t2.table_schema and t1.table_name=t2.table_name and t1.table_name='{}' and t1.table_schema='test_titanic' '''.format(table_name[i]))
接下来,就是根据这个SQL列表进行查询得到数据,而后继续对字段进行循环查询。
writer=pd.ExcelWriter("table_des.xlsx")#为了导出数据 table_col_name=[] row=0 for j in range(len(table_sql)): #对表SQL进行循环 table_col_name.append(sql_inquiry(table_sql[j])) #将每一个表查询获得的数据框组成列表 table_col_stat=[] col_sql=[] for s in range(len(table_col_name[j])): #对每一个表信息的字段进行循环 col_sql.append('''select min({1}) as value_min, max({1}) as value_max,sum(case when {1} is not null then 1 end ) as num_classification, sum(case when {1} is null then num else 0 end) as null_num,sum(num) as rows_num from (select {1} ,count(1) as num from {0} group by {1})t1'''.format(table_name[j],table_col_name[j].iloc[s,1])) # 根据字段的SQL语句进行查询并转换成列表 col=sql_inquiry(col_sql[s]).iloc[0,:].tolist() #将字段名称拼接进列表中 table_col_stat.append([table_col_name[j].iloc[s,1]]+col) #转换为数据框 table_des=pd.DataFrame(table_col_stat,columns=["name","value_min","value_max","num_classification","null_num","rows_num"]) #计算字段的空值率并以百分比形式显示 table_des["null_rate"]=table_des["null_num"]/table_des["rows_num"] table_des["null_rate"]=table_des["null_rate"].apply(lambda x :format(x,".2%")) #合并数据框 table_des=pd.merge(table_col_name[j],table_des,how="inner",left_on="column_name",right_on="name") table_des.drop(["table_rows","name"],axis=1,inplace=True) #写入Excel文档 table_des.to_excel(writer,startcol=1,startrow=row,index=False) row+=table_des.shape[0]+4 #保存文档并计算程序用时 writer.save() elapsed = (dt.datetime.now()- start) print("Time used:",elapsed) print ("\a")
完整执行完程序,最后你就能快速生成前文中的数据探查表了,即便表的量级很大。根据这些表,你能够快速地了解表结构。其实代码并不复杂,难的是咱们须要找到解决问题的有效思路。
本文仅供学习之用,版权归原做者全部,若有侵权请联系删除。在学习Python的道路上确定会碰见困难,别慌,我这里有一套学习资料,包含40+本电子书,800+个教学视频,涉及Python基础、爬虫、框架、数据分析、机器学习等,不怕你学不会!
https://shimo.im/docs/JWCghr8... 《Python学习资料》关注公众号【Python圈子】,优质文章每日送达。