1. 把[[age1,money1,errror1],[age2, money2,error2],...]这样的二维数组,提取第一列,并转为横向的一维数组python
ages, net_worths, errors = zip(*cleaned_data) ages = numpy.reshape( numpy.array(ages), (len(ages), 1))
2.python数组转numpy.ndarray: np.array(list)数组
numpy.ndarray转python数组:myNpArray.tolist()ide
3. numpy多维数组ndarray 以第三列进行行排序函数
myNpArray = myNpArray[myNpArray[:,2].argsort()]
numpy 是使用python进行数据分析不可或缺的第三方库,很是多的科学计算工具都是基于 numpy 进行开发的。工具
下面是转帖:spa
ndarray对象是用于存放同类型元素的多维数组,是numpy中的基本对象之一,另外一个是func对象。本文主要内容是:1 、简单介绍ndarray对象;二、ndarray对象的经常使用属性;三、如何建立ndarray对象;四、ndarray元素访问。
它的维度以及个维度上的元素个数由shape
决定。指针
标题中的函数就是numpy的构造函数,咱们可使用这个函数建立一个ndarray对象。构造函数有以下几个可选参数:code
参数 | 类型 | 做用 |
---|---|---|
shape | int型tuple | 多维数组的形状 |
dtype | data-type | 数组中元素的类型 |
buffer | 用于初始化数组的buffer | |
offset | int | buffer中用于初始化数组的首个数据的偏移 |
strides | int型tuple | 每一个轴的下标增长1时,数据指针在内存中增长的字节数 |
order | ‘C’ 或者 ‘F’ | ‘C’:行优先;’F’:列优先 |
实例:对象
>>> np.ndarray(shape=(2,3), dtype=int, buffer=np.array([1,2,3,4,5,6,7]), offset=0, order="C") array([[1, 2, 3], [4, 5, 6]]) >>> np.ndarray(shape=(2,3), dtype=int, buffer=np.array([1,2,3,4,5,6,7]), offset=0, order="F") array([[1, 3, 5], [2, 4, 6]]) >>> np.ndarray(shape=(2,3), dtype=int, buffer=np.array([1,2,3,4,5,6,7]), offset=8, order="C") array([[2, 3, 4], [5, 6, 7]])
接下来介绍ndarray对象最经常使用的属性排序
属性 | 含义 |
---|---|
T | 转置,与self.transpose( )相同,若是维度小于2返回self |
size | 数组中元素个数 |
itemsize | 数组中单个元素的字节长度 |
dtype | 数组元素的数据类型对象 |
ndim | 数组的维度 |
shape | 数组的形状 |
data | 指向存放数组数据的python buffer对象 |
flat | 返回数组的一维迭代器 |
imag | 返回数组的虚部 |
real | 返回数组的实部 |
nbytes | 数组中全部元素的字节长度 |
实例:
>>> a = np.array(range(15)).reshape(3,5) >>> a array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]]) >>> a.T array([[ 0, 5, 10], [ 1, 6, 11], [ 2, 7, 12], [ 3, 8, 13], [ 4, 9, 14]]) >>> a.size 15 >>> a.itemsize 8 >>> a.ndim 2 >>> a.shape (3, 5) >>> a.dtype dtype('int64')
使用array
函数,从常规的python列表或者元组中建立数组,元素的类型由原序列中的元素类型肯定。
numpy.array(object, dtype=None, copy=True, order=None, subok=False, ndmin=0)
实例:
>>> np.array([1, 2, 3]) array([1, 2, 3]) >>> np.array([[1, 2],[3, 4]]) array([[1, 2], [3, 4]]) >>> c = array( [ [1,2], [3,4] ], dtype=complex ) >>> c array([[1.+0.j, 2.+0.j], [3.+0.j, 4.+0.j]]) >>> a = np.array([1, 2, 3], ndmin=2) >>> a array([[1, 2, 3]]) >>> a.shape (1, 3) >>> np.array(np.mat('1 2; 3 4')) array([[1, 2], [3, 4]]) >>> np.array(np.mat('1 2; 3 4'), subok=True) matrix([[1, 2], [3, 4]])
subok
为True
,而且object是ndarray子类时(好比矩阵类型),返回的数组保留子类类型
某些时候,咱们在建立数组以前已经肯定了数组的维度以及各维度的长度。这时咱们就可使用numpy内建的一些函数来建立ndarray。
例如:函数ones
建立一个全1的数组、函数zeros
建立一个全0的数组、函数empty
建立一个内容随机的数组,在默认状况下,用这些函数建立的数组的类型都是float64,若须要指定数据类型,只须要闲置dtype
参数便可:
>>> a = np.ones(shape = (2, 3)) #能够经过元组指定数组形状 >>> a array([[ 1., 1., 1.], [ 1., 1., 1.]]) >>> a.dtype dtype('float64') >>> b = np.zeros(shape = [3, 2], dtype=np.int64) #也能够经过列表来指定数组形状,同时这里指定了数组类型 >>> b array([[0, 0], [0, 0], [0, 0]]) >>> b.dtype dtype('int64') >>> c = np.empty((4,2)) >>> c array([[ 0.00000000e+000, 0.00000000e+000], [ 6.92806325e-310, 6.92806326e-310], [ 6.92806326e-310, 6.92806326e-310], [ 0.00000000e+000, 0.00000000e+000]])
上述三个函数还有三个从已知的数组中,建立shape
相同的多维数组:ones_like
、zeros_like
、empty_like
,用法以下:
>>> a = [[1,2,3], [3,4,5]] >>> b = np.zeros_like(a) >>> b array([[0, 0, 0], [0, 0, 0]]) #其余两个函数用法相似
除了上述几个用于建立数组的函数,还有以下几个特殊的函数:
函数名 | 用途 |
---|---|
eye | 生成对角线全1,其他位置全是0的二维数组 |
identity | 生成单位矩阵 |
full | 生成由固定值填充的数组 |
full_like | 生成由固定值填充的、形状与给定数组相同的数组 |
特别地,eye
函数的全1的对角线位置有参数k肯定
用法以下:
>>> np.eye(3, k = 0) #k=0时,全1对角线为主对角线 array([[ 1., 0., 0.], [ 0., 1., 0.], [ 0., 0., 1.]]) >>> np.eye(3, k = 1) #k>0时,全1对角线向上移动相应的位置 array([[ 0., 1., 0.], [ 0., 0., 1.], [ 0., 0., 0.]]) >>> np.eye(3, k = -1) #k<0时,全1对角线向下移动相应的位置 array([[ 0., 0., 0.], [ 1., 0., 0.], [ 0., 1., 0.]]) >>> np.identity(4) array([[ 1., 0., 0., 0.], [ 0., 1., 0., 0.], [ 0., 0., 1., 0.], [ 0., 0., 0., 1.]]) >>> np.full(shape = (2,2), fill_value = 2) array([[ 2., 2.], [ 2., 2.]]) >>> np.full_like([[1,2,3],[3,4,5]], 3) array([[3, 3, 3], [3, 3, 3]])
arange
函数相似python中的range
函数,经过指定初始值、终值以及步长(默认步长为1)来建立数组linspace
函数经过指定初始值、终值以及元素个数来建立一维数组logspace
函数与linspace
相似,只不过它建立的是一个等比数列,一样的也是一个一维数组 >>> np.arange(0,10,2) array([0, 2, 4, 6, 8]) >>> np.arange(0,10) array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> np.linspace(0,10, 20) array([ 0. , 0.52631579, 1.05263158, 1.57894737, 2.10526316, 2.63157895, 3.15789474, 3.68421053, 4.21052632, 4.73684211, 5.26315789, 5.78947368, 6.31578947, 6.84210526, 7.36842105, 7.89473684, 8.42105263, 8.94736842, 9.47368421, 10. ]) >>> np.logspace(0, 10, 10) array([ 1.00000000e+00, 1.29154967e+01, 1.66810054e+02, 2.15443469e+03, 2.78255940e+04, 3.59381366e+05, 4.64158883e+06, 5.99484250e+07, 7.74263683e+08, 1.00000000e+10])
fromstring
函数从字符串中读取数据并建立数组fromfunction
函数由第一个参数做为计算每一个数组元素的函数(函数对象或者lambda表达式都可),第二个参数为数组的形状 >>> s1 = "1,2,3,4,5" >>> np.fromstring(s1, dtype=np.int64, sep=",") array([1, 2, 3, 4, 5]) >>> s2 = "1.01 2.23 3.53 4.76" >>> np.fromstring(s2, dtype=np.float64, sep=" ") array([ 1.01, 2.23, 3.53, 4.76]) >>> def func(i, j): ... return (i+1)*(j+1) ... >>> np.fromfunction(func, (9,9)) array([[ 1., 2., 3., 4., 5., 6., 7., 8., 9.], [ 2., 4., 6., 8., 10., 12., 14., 16., 18.], [ 3., 6., 9., 12., 15., 18., 21., 24., 27.], [ 4., 8., 12., 16., 20., 24., 28., 32., 36.], [ 5., 10., 15., 20., 25., 30., 35., 40., 45.], [ 6., 12., 18., 24., 30., 36., 42., 48., 54.], [ 7., 14., 21., 28., 35., 42., 49., 56., 63.], [ 8., 16., 24., 32., 40., 48., 56., 64., 72.], [ 9., 18., 27., 36., 45., 54., 63., 72., 81.]]) >>> np.fromfunction(lambda i,j: i+j, (3,3), dtype = int) array([[0, 1, 2], [1, 2, 3], [2, 3, 4]])
除了上面两个函数还有其余几个相似的从外部获取数据并建立ndarray,好比:frombuffer
、fromfile
、fromiter
,还没用过,等用到了在详细记录
ndarray提供了一些建立二维数组的特殊函数。numpy中matrix是对二维数组ndarray进行了封装以后的子类。这里介绍的关于二维数组的建立,返回的依旧是一个ndarray对象,而不是matrix子类。关于matrix的建立和操做,待后续笔记详细描述。为了表述方便,下面依旧使用矩阵
这一次来表示建立的二维数组。
1. diag
函数返回一个矩阵的对角线元素、或者建立一个对角阵,对角线由参数k
控制
2. diagflat
函数以输入做为对角线元素,建立一个矩阵,对角线由参数k
控制
3. tri
函数生成一个矩阵,在某对角线如下元素全为1,其他全为0,对角线由参数k
控制
4. tril
函数输入一个矩阵,返回该矩阵的下三角矩阵,下三角的边界对角线由参数k
控制
5. triu
函数与tril
相似,返回的是矩阵的上三角矩阵
6. vander
函数输入一个一维数组,返回一个范德蒙德矩阵
#diag用法 >>> x = np.arange(9).reshape((3,3)) >>> x array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) >>> np.diag(x) array([0, 4, 8]) >>> np.diag(x, k=1) array([1, 5]) >>> np.diag(x, k=-1) array([3, 7]) >>> np.diag(np.diag(x)) array([[0, 0, 0], [0, 4, 0], [0, 0, 8]]) >>> np.diag(np.diag(x), k=1) array([[0, 0, 0, 0], [0, 0, 4, 0], [0, 0, 0, 8], [0, 0, 0, 0]]) #diagflat用法 >>> np.diagflat([[1,2],[3,4]]) array([[1, 0, 0, 0], [0, 2, 0, 0], [0, 0, 3, 0], [0, 0, 0, 4]]) >>> np.diagflat([1,2,3], k=-1) array([[0, 0, 0, 0], [1, 0, 0, 0], [0, 2, 0, 0], [0, 0, 3, 0]]) #tri >>> np.tri(3,4, k=1, dtype=int) array([[1, 1, 0, 0], [1, 1, 1, 0], [1, 1, 1, 1]]) >>> np.tri(3,4) array([[ 1., 0., 0., 0.], [ 1., 1., 0., 0.], [ 1., 1., 1., 0.]]) #tril与triu >>> x = np.arange(12).reshape((3,4)) >>> x array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]]) >>> np.tril(x, k=1) array([[ 0, 1, 0, 0], [ 4, 5, 6, 0], [ 8, 9, 10, 11]]) >>> np.triu(x, k=1) array([[ 0, 1, 2, 3], [ 0, 0, 6, 7], [ 0, 0, 0, 11]]) #vander >>> np.vander([2,3,4,5]) array([[ 8, 4, 2, 1], [ 27, 9, 3, 1], [ 64, 16, 4, 1], [125, 25, 5, 1]]) >>> np.vander([2,3,4,5], N=3) array([[ 4, 2, 1], [ 9, 3, 1], [16, 4, 1], [25, 5, 1]])
对于一维的ndarray可使用python访问内置list的方式进行访问:整数索引、切片、迭代等方式
关于ndarray切片
与内置list切片相似,形式:
array[beg:end:slice]
beg: 开始索引
end: 结束索引(不包含这个元素)
step: 间隔
须要注意的是:
1. beg能够为空,表示从索引0开始;
2. end也能够为空,表示达到索引结束(包含最后一个元素);
3. step为空,表示间隔为1;
4. 负值索引:倒数第一个元素的索引为-1,向前以此减1
5. 负值step:从后往前获取元素
>>> x = np.arange(16)*4 >>> x array([ 0, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60]) >>> x[11] 44 >>> x[4:9] array([16, 20, 24, 28, 32]) >>> x[:10:3] array([ 0, 12, 24, 36]) >>> x[0:13:2] array([ 0, 8, 16, 24, 32, 40, 48]) >>> x[::-1] #逆置数组 array([60, 56, 52, 48, 44, 40, 36, 32, 28, 24, 20, 16, 12, 8, 4, 0]) >>> print [val for val in x] #迭代元素 [0, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60]
特别注意的是,ndarray中的切片返回的数组中的元素是原数组元素的索引,对返回数组元素进行修改会影响原数组的值
>>> x[:-1] array([ 0, 5, 10, 15, 20, 25, 30, 35, 40]) >>> y = x[::-1] >>> y array([45, 40, 35, 30, 25, 20, 15, 10, 5, 0]) >>> y[0] = 100 #修改y的首个元素的值 >>> y array([100, 40, 35, 30, 25, 20, 15, 10, 5, 0]) >>> x #x[-1]也被修改(本质上是一个元素) array([ 0, 5, 10, 15, 20, 25, 30, 35, 40, 100])
除了上述与list类似的访问元素的方式,ndarray有一种经过列表来指定要从ndarray中获取元素的索引,例如:
>>> x = np.arange(10)*5 >>> x array([ 0, 5, 10, 15, 20, 25, 30, 35, 40, 45]) >>> x[[0, 2, 4, 5, 9]] #指定获取索引为0、二、四、五、9的元素 array([ 0, 10, 20, 25, 45])
多维ndarray中,每一维都叫一个轴axis。在ndarray中轴axis是很是重要的,有不少对于ndarray对象的运算都是基于axis进行,好比sum、mean等都会有一个axis参数(针对对这个轴axis进行某些运算操做),后续将会详细介绍。
对于多维数组,由于每个轴都有一个索引,因此这些索引由逗号进行分割,例如:
>>> x = np.arange(0, 100, 5).reshape(4, 5) >>> x array([[ 0, 5, 10, 15, 20], [25, 30, 35, 40, 45], [50, 55, 60, 65, 70], [75, 80, 85, 90, 95]]) >>> x[1,2] #第1行,第2列 35 >>> x[1:4, 3] #第1行到第3行中全部第3列的元素 array([40, 65, 90]) >>> x[:, 4] #全部行中的全部第4列的元素 array([20, 45, 70, 95]) >>> x[0:3, :] #第0行到第三行中全部列的元素 array([[ 0, 5, 10, 15, 20], [25, 30, 35, 40, 45], [50, 55, 60, 65, 70]])
须要注意的是:
1. 当提供的索引比轴数少时,缺失的索引表示整个切片(只能缺失后边的轴)
2. 当提供的索引为:
时,也表示整个切片
3. 可使用...
代替几个连续的:
索引
>>> x[1:3] #缺失第二个轴 array([[25, 30, 35, 40, 45], [50, 55, 60, 65, 70]]) >>> x[:, 0:4] #第一个轴是 : array([[ 0, 5, 10, 15], [25, 30, 35, 40], [50, 55, 60, 65], [75, 80, 85, 90]]) >>> x[..., 0:4] #...表明了第一个轴的 : 索引 array([[ 0, 5, 10, 15], [25, 30, 35, 40], [50, 55, 60, 65], [75, 80, 85, 90]])
多维数组的迭代
可使用ndarray的flat
属性迭代数组中每个元素
>>> for item in x.flat: ... print item, ... 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95