NumPy库总包含两种基本的数据类型:矩阵和数组,矩阵的使用相似Matlab,本实例用得多的是数组array。python
shape()
shape是numpy函数库中的方法,用于查看矩阵或者数组的维素
>>>shape(array) 若矩阵有m行n列,则返回(m,n)
>>>array.shape[0] 返回矩阵的行数m,参数为1的话返回列数n数组
tile()
tile是numpy函数库中的方法,用法以下:
>>>tile(A,(m,n)) 将数组A做为元素构造出m行n列的数组函数
sum()
sum()是numpy函数库中的方法
>>>array.sum(axis=1)按行累加,axis=0为按列累加测试
argsort()
argsort()是numpy中的方法,获得矩阵中每一个元素的排序序号
>>>A=array.argsort() A[0]表示排序后 排在第一个的那个数在原来数组中的下标大数据
dict.get(key,x)
Python中字典的方法,get(key,x)从字典中获取key对应的value,字典中没有key的话返回0code
sorted()
python中的方法排序
min()、max()
numpy中有min()、max()方法,用法以下
>>>array.min(0) 返回一个数组,数组中每一个数都是它所在列的全部数的最小值
>>>array.min(1) 返回一个数组,数组中每一个数都是它所在行的全部数的最小值内存
listdir('str')
python的operator中的方法
>>>strlist=listdir('str') 读取目录str下的全部文件名,返回一个字符串列表字符串
split()
python中的方法,切片函数
>>>string.split('str')以字符str为分隔符切片,返回listget
numpy中读取.csbv文件
>>>(1)第一种方法使用loadtxt
# load the CSV file as a numpy matrix
dataset = np.loadtxt('./../DataAir/testdata.csv',delimiter=',')
# separate the data from the target attributes
X_test = dataset[:,0:6]
y_test = dataset[:,6]
>>>(2)第二种方法使用csv.read
csvfile = open('./../testData/testdata.csv')
reader1 = csv.reader(csvfile)
mTest = 0
vectorUnderTest = zeros((1,6)) #1*6
for lineT in reader1: #每一行对应一个测试数据
classNumStr = int(lineT[6])
for k in range(6):
lineT[k] = float(lineT[k]) #将.csv文件读取出来的字符列表转为float类型
vectorUnderTest[:,k] = lineT[k] #将样本加入大数据集矩阵中
>>>(3)第三种方法使用readline,readlines,read
fh = open('c:\\autoexec.bat') for line in fh.readlines(): print line .readline() 和 .readlines() 之间的差别是后者一次读取整个文件,象 .read() 同样。 .readlines() 自动将文件内容分析成一个行的列表,该列表能够由 Python 的 for ... in ... 结构进行处理。 另外一方面,.readline() 每次只读取一行,一般比 .readlines() 慢得多。仅当没有足够内存能够一次读取整个文件时,才应该使用 .readline()。