pandas数据分析小知识点(一)

时间 2019-11-11

标签 pandas 数据分析知识繁體版

原文原文链接

　　最近工做上，小爬常常须要用python作一些关于excel数据分析的事情，显然，从性能和拓展性的角度出发，使用pandas、numpy是比vba更好的选择。由于pandas能提供诸如SQL的不少查找、过滤功能，性能要比用excel Vlookup之类的公式要快得多，暴力的多！html

万事开头难，咱们第一步就是要载入excel数据源到pandas的DataFrame中：python

技巧一：算法

当咱们的excel中只有某些字段是须要去处理的，这个时候，不建议一次性用read_excel载入默认的全部列，不然影响pandas的载入速度和后面的运算性能。好比：api

df = pd.read_excel("data.xlsx", usecols=[0, 5]) # 指定读取第1列和第6列 # 固然也能够用"A,F"代替[0,5]

#若是咱们要载入1-25列，上面的列表依次列举的写法就比较笨了，能够考虑这样写
df = pd.read_excel("data.xlsx", usecols=list(range(25) ))

实际上，read_excel的参数有不少，具体以下（详见：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html）：app

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)

这里面还有一个参数很重要，咱们读入的excel通常都有表头，可是表头不必定是在第一行，也就是咱们要指定header=0的具体值，好比咱们告诉panda 这个excel的表头在第五行，从第六行开始才是数据行，咱们只须要指定header=4 便可。函数

技巧二：性能

咱们在作dataFrame处理时，程序常常由于copy报警，好比咱们根据某一个字段运算后生成新的字段，或者经过某种算法对本字段的内容进行更新，都会触发以下报警：spa

SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copyexcel

假设咱们的运算比较复杂，不能简单用提示的 A.loc[3,4]=5这种,就很难避免这类报警，好比：code

data.loc[data.bidder == 'parakeet2004', 'bidderrate'] = 100

若是您能笃定该操做不会影响原DataFrame，能够考虑用下面的代码关掉报警（谨慎使用）：

pd.set_option('mode.chained_assignment', None)

技巧三：
　　善于用dropna方法来过滤数据！该方法支持传入列表，对列表元素对应的每一个字段同时使用dropna方法：

df=df.dropna(subset=["供应商代码（必填）",'供应商名称（必填）','本月计划支付金额（必填）',"款项性质（必填）","付款条件（必填）"])

技巧四：

善于使用map、apply方法来遍历元素结合自定义函数，好比小爬要处理的字段：先要判断该字段对应的元素是否为数字，要过滤掉那些不是数字的行，就能够先定义函数，而后用apply或者map来调用它：

def isNumber(x):
    if isinstance(x,float) or isinstance(x,int):
        return 1
    if isinstance(x,str):
        return 0

df["本月计划支付金额为数字"]=df["本月计划支付金额（必填）"].map(isNumber) #产生辅助字段
df=df[df["本月计划支付金额为数字"]==1]
df=df[df['本月计划支付金额（必填）']>0]

技巧五：

　　判断某个字段的值是否在某个列表，经常使用.isin(list)方法，好比：

error_df=original_df[original_df["供应商代码（必填）"].isin(common_supplier_list_final)]  #common_supplier_list_final为列表对象

若是咱们但愿取反，找不符合某个列表元素的那些数据集合，就要用到“~”，上面的语句能够改写为：

error_df=original_df[~original_df["供应商代码（必填）"].isin(common_supplier_list_final)] #对正常那部分行项目抛开，取反，关键符号~

技巧六：

擅于使用lambda表达式，尤为是功能很简单的函数，不必单独自定义，好比，对某个字段的每一个值都乘以10000，或者对某字段元素的全部字符串加上前缀“0000”，能够这样写：

result_df["承兑汇票金额"]=result_df["承兑汇票金额"].apply(lambda x:x*10000)
result_df["供应商代码（必填）"]=result_df["供应商代码（必填）"].map(lambda x:"0000"+x if len(x)==6 else x) 

result_df["供应商代码"]=result_df["供应商代码"].map(lambda x:x[4:])  #去掉供应商代码的前0000

技巧七：

利用drop_duplicates方法去重，有的时候，咱们根据几个字段对应的某行值同时相同时，判断这些行是重复的，仅保留第一行，能够这样写：

result_df=result_df.drop_duplicates(['公司代码','供应商代码','供应商名称','本月计划支付金额'],keep='first') #去重

　　小爬深知，咱们在实际的数据分析过程当中，用户提供的数据源每每有不少脏数据，不少空数据，咱们作数据处理前先要学会作数据清洗，这就须要用到pandas的不少方法和小知识，惟有逐渐积累，才能慢慢熟悉，为我所用！