#导入算法
直接将文本load成numpy.ndarray,若是类型不是默认类型(dtype=float)会致使部分数据nan,skip_footer world_alcohol = numpy.genfromtxt("world.txt", delimiter=",", #以“,”为列的分隔符 skip_header=1, #跳过第一行 usecols=(0, -1), #只读取的列 dtype="U75", #设定类型 names="A, B, C", #设定列名 missing_values={0:"N/A", 'b':" ", 2:"???"}, #某列缺失值定义 filling_values={0:0, 'b':0, 2:-999} #某列缺失值替换 )
#初始化数组
vector = numpy.array([5, 10, 15, 20]) matrix = numpy.array([[5, 10, 15], [20, 25, 30], [35, 40, 45]]) np.zeros ((3,4)) np.ones( (2,3,4), dtype=np.int32 ) np.arange( 0, 2, 0.3 ) #0-2,以0.3为步长 np.random.random((2,3)) #2行3列的0-1 array from numpy import pi np.linspace( 0, 2*pi, 100 ) #设置100个点 z = np.linspace(0,10,11,endpoint=True,retstep=True) #生成0~10之间均匀分布的11个数,包括0和10 help(np.linspace) a=[1,2,3] np.diag(a) 是生成1,2,3 为对角线的方阵
#经常使用方法属性dom
查看维度:vector.shape 查看类型:vector.dtype 更改类型:vector = vector.astype(float) type(d) 和 d.dtype 一个返回的是d 的数据类型 nd.array 另外一个返回的是数组中内容的数据类型 类型NumPy array必须全部数据是相同类型 a.ndim #查看维度坐标的数量,axes (dimensions)的数量 a.dtype.name a.size#总数
#索引函数
vector[1,4]第一行第四列的值,从0开始.vector[0:3]是0-2的数列 matrix[:,1],全部行的第2列,matrix[:,0:2],全部行的1,2列 matrix = numpy.array([ [5, 10, 15], [20, 25, 30], [35, 40, 45] ]) matrix[1:3,1:3] [[20 25]
[35 40]]ui
#比较编码
vector = numpy.array([5, 10, 15, 20]) vector == 10 -> array([False, True, False, False], dtype=bool) 比较每个元素 经过比较的bool结果索引 vector = numpy.array([5, 10, 15, 20]) equal_to_ten = (vector == 10) print equal_to_ten -> [False True False False] print(vector[equal_to_ten]) -> [10] matrix = numpy.array([ [5, 10, 15], [20, 25, 30], [35, 40, 45] ]) second_column_25 = (matrix[:,1] == 25) print second_column_25 -> [False True False] print(matrix[second_column_25, :]) -> [[20 25 30]] equal_to_ten_and_five = (vector == 10) & (vector == 5) #进行与或非操做 vector = numpy.array([5, 10, 15, 20]) equal_to_ten_or_five = (vector == 10) | (vector == 5) vector[equal_to_ten_or_five] = 50 print(vector) -> [50 50 15 20] matrix = numpy.array([ [5, 10, 15], [20, 25, 30], [35, 40, 45] ]) second_column_25 = matrix[:,1] == 25 print second_column_25 -> [False True False] matrix[second_column_25, 1] = 10 print matrix -> 中间25->10
#运算spa
vector = numpy.array([5, 10, 15, 20]) 求和:vector.sum() 求平均:vector.mean() numpy.exp():返回e的幂次方 matrix.sum(axis=1) # 1是按行相加,0是按列相加 is_value_empty = numpy.isnan(world_alcohol[:,4]) #判断是否是nan,各个位置是bool值 z = np.zeros((5,5)) z += np.arange(5) print np.arange(5) -> [0 1 2 3 4] print z [[0. 1. 2. 3. 4.] [0. 1. 2. 3. 4.] [0. 1. 2. 3. 4.] [0. 1. 2. 3. 4.] [0. 1. 2. 3. 4.]] a1=mat([1,1]); a2=mat([2,2]); a3=multiply(a1,a2) np.array的+/-/平方**2/开方np.sqrt(A)都是对应元素操做,<>也是对应元素,返回对应的bool值 两种点乘操做:A.dot(B) np.dot(A, B) A.T #转置 np.floor()#各个元素向下取整
#变形code
a = np.arange(15).reshape(3, 5)#更改形状 reshape:有返回值,所谓有返回值,即不对原始多维数组进行修改; resize:无返回值,所谓有返回值,即会对原始多维数组进行修改; 将多维数组降位一维: numpy.ravel() #返回的是视图(view,也很有几分C/C++引用reference的意味),会影响原始矩阵 numpy.flatten() #返回一份拷贝,对拷贝所作的修改不会影响(reflects)原始矩阵
#拼接对象
np.hstack((a,b))#列相拼接,多了列,行数不变 np.vstack((a,b))#行拼接,多了行,列数不变 np.vsplit(a,3)#将a从行切出3个array b = a #是一个对象 相等 变化牵连 c = a.view() #建立一个新对象 不相等 变化不牵连 d = a.copy() #彻底复制一个对象 不相等 变化不牵连 ind = data.argmax(axis=0) np.argmax(data,axis=0) #array每行上最大数的索引下标 (3,)#一维数组 (1,3)#二维 import numpy as np data = np.sin(np.arange(20)).reshape(5,4) print data [[ 0. 0.84147098 0.90929743 0.14112001] [-0.7568025 -0.95892427 -0.2794155 0.6569866 ] [ 0.98935825 0.41211849 -0.54402111 -0.99999021] [-0.53657292 0.42016704 0.99060736 0.65028784] [-0.28790332 -0.96139749 -0.75098725 0.14987721]] ind = data.argmax(axis=0) print ind - > [2 0 3 1] data_max = data[ind, xrange(data.shape[1])] print data_max ->[0.98935825 0.84147098 0.99060736 0.6569866 ] all(data_max == data.max(axis=0)) -> True
#numpy.tile(A,reps)排序
numpy.tile(A,reps) #tile共有2个参数,A指待输入数组,reps则决定A重复的次数。整个函数用于重复数组A来构建新的数组。 numpy.tile([1,2,3],2) -> array([1, 2, 3, 1, 2, 3]) numpy.tile([1,2,3],(1,2)) -> array([[1, 2, 3, 1, 2, 3]]) numpy.tile([1,2,3],(2,1)) ->array([[1, 2, 3],[1, 2, 3]]) 注意维度:一维数组shape为(3,),扩充至2维则shape值为(1,3),扩充至3维则shape值为(1,1,3) y = x.argsort() #argsort()函数是将x中的元素从小到大排列,提取其对应的index(索引),而后输出到y a = np.array([4, 3, 1, 2]) j = np.argsort(a) print j -> [2 3 1 0] print a -> [4 3 1 2] print a[j] -> [1 2 3 4]
#sort()
# 直接对对象进行排序,不会产生一个新数组,而是在原数组的基础上进行修改 # None : 若是待排序的对象是一个视图的话,则原始数据将会被修改 obj.sort() # 这种方式会为原数组建立一个已排序的副本,因此并不会对原数组进行修改 np.sort(obj) # 相同之处:两种排序均可以接受一个axis参数,用于对相应的行或者列进行排序 # Note : 两个排序方法都不能够被设置为降序,只能是升序, ndarray.sort(axis=-1, kind='quicksort', order=None) 或者:ndarray.sort(axis=-1, kind='quicksort', order=None) 参数 描述 axis 排序沿数组的(轴)方向,0表示按行,1表示按列,None表示展开来排序,默认值为-1,表示沿最后的轴排序 kind 排序的算法,提供了快排'quicksort'、混排'mergesort'、堆排'heapsort', 默认为‘quicksort' order 排序的字段名,可指定字段排序,默认为None
#meshgrid()
[X,Y]=meshgrid(x,y) [X,Y]=meshgrid(x)=[X,Y]=meshgrid(x,x) m, n = (5, 3) x = np.linspace(0, 1, m) y = np.linspace(0, 1, n) X, Y = np.meshgrid(x,y) X,Y:3行5列
#NumPy 用字符编码来表示数据类型
数据类型 字符编码 整数 i 无符号整数 u 单精度浮点数 f 双精度浮点数 d 布尔值 b 复数 D 字符串 S Unicode U Void V
#其余操做:
z[1::2,::2] = 1 z[::2,1::2] = 1 z = np.random.random((10,10)) zmin,zmax = z.min(),z.max() #归一化,将矩阵规格化到0~1,即最小的变成0,最大的变成1,最小与最大之间的等比缩放 z = 10*np.random.random((5,5)) print z zmin,zmax = z.min(),z.max() z = (z-zmin)/(zmax-zmin) print z 交换第0,1行:a[[0,1]] = a[[1,0]] #找出数组中与给定值最接近的数 z = np.array([[0,1,2,3],[4,5,6,7]]) a = 5.1 print np.abs(z-a).argmin() -> 5 #判断二维矩阵中有没有一整列数为0? z = np.random.randint(0,3,(2,10)) print z -> [[1 1 2 0 0 1 1 0 2 2],[0 0 2 1 0 2 1 0 1 0]] print z.any(axis=0) -> [ True True True True False True True False True True]