数据不完整在数据分析的过程当中很常见。
pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据。
pandas使用isnull()和notnull()函数来判断缺失状况。
对于缺失数据通常处理方法为滤掉或者填充。
滤除缺失数据
对于一个Series,dropna()函数返回一个包含非空数据和索引值的Series,例如:
对于DataFrame,dropna()函数一样会丢掉全部含有空元素的数据,例如:
可是能够指定how='all',这表示只有行里的数据所有为空时才丢弃,例如:
若是想以一样的方式按列丢弃,能够传入axis=1,例如:
填充缺失数据
若是不想丢掉缺失的数据而是想用默认值填充这些空洞,能够使用fillna()函数:
若是不想只以某个标量填充,能够传入一个字典,对不一样的列填充不一样的值: