目录:python
1、数据预处理:机器学习
数据审核函数
筛选学习
排序spa
2、品质数据的整理与展现:code
分类数据的整理与展现对象
顺序数据的分类与展现blog
3、数值型数据的整理与展现:排序
数据分组token
数据展现
1、数据预处理:
数据的预处理的涵盖范围很普遍,涉及到数据相关行业的工做内容都离不开预处理,不论是作机器学习仍是须要作业务相关分析,数据预处理的效果好坏也表明了机器学习结果或业务分析的准确性。
一、数据审核
检查数据中的错误与异常是审核的主要内容。经过反复检查数据是否遗漏空缺,是否存在错误、异常,是否适用于项目场景,是否具备时效性等来核对数据源。
(数据异常并不必定表明该数据值为非法,异常值可能为错误值时应当筛出,异常值为正确值时应当保留)
二、数据筛选
根据需求找出符合条件的数据,以下python实现:
1 #筛选行 2 data.loc[:,['A']] #取'A'列全部行 3 4 data.iloc[:,[0]] #取第0列全部行 5 6 df[1:4]#使用切片操做选择特定的行 7 8 9 #筛选列 10 df[['a','c']]#传入列名选择特定的列 11 12 13 14 #筛选值 15 data.loc[['a','b'],['A','B']] #提取index为'a','b',列名为'A','B'中的数据 16 data.iloc[[0,1],[0,1]] #提取第0、1行,第0、1列中的数据 17 18 #条件筛选 19 data[data.A==100]#找出df中A列值为100的全部数据 20 21 num = [100, 200, 300] 22 df[df.A.isin(num)] #筛选出A列值在num列表的数据条 23 24 data.loc[data['A']==0] #提取data数据(筛选条件: A列中数字为0所在的行数据) 25 26 data.loc[(data['A']==0)&(data['B']==2)] #提取data数据(多个筛选条件) 27 28 data[(data['A'].isin([0]))&(data['B'].isin([2]))] #isin函数
三、数据排序
python中有sort函数用于数据排序
2、品质数据的整理与展现:
一、分类数据的整理与展现
分类数据自己是对事物的一种分类。相似频数分布:是落在某一特定类别或组中的数据个数,把各种别及落在其中的相应频数所有列出并用表格展现称为频数分布。方法如数据透视(pandas中有相应函数方法)、直方图(matplotlib中有相应方法hist)等。
对于定性的数据,除了可使用频数分布进行描述,也可使用比例、百分比、比率等统计量进行描述。
数据展现可以下集中图形:
条形图:
帕累托图:rcParams方法
饼图:pie方法
环形图:使用python可实现代码略
二、顺序数据的分类与展现
上述分类数据展现有些状况下也能够用于顺序数据,除此以外还能够利用累计频数、累计频率来展现。
3、数值型数据的整理与展现:
一、数据分组:
根据需求将数据按照相应标准分红不一样的组别。
步骤:一、肯定组数;二、肯定组距;三、根据分组编制频数分布表(采起组距分组需遵循“不重不漏”原则,上组限不在内结局不重问题)
组中值:组距分组掩盖了各组数据分布状况,组中值用来反应各组数据的通常水平。即(上限值+下限值)/2。
二、数据展现:(绘制图形都可使用python库,代码略)
分组数据:直方图
未分组数据:茎叶图、箱线图
时间序列数据:线图
多变量数据:散点图、气泡图、雷达图
这一篇简单介绍数据展现的方法,具体代码实现抽时间写一篇matplotlib的
纯属我的笔记。