1.经常使用操做符算法
算术操做符,赋值操做符,比较操做符和逻辑操做符shell
2.数字数据数据结构
变量与赋值、 数字数据类型函数
3.流程控制spa
条件语句、While语句、break语句和continue语句、for循环指针
4.数据结构ip
标量、序列、映射、集合 字符串
列表、列表函数、字符串、字符串函数、元组、字典、集合get
5.文件读写镀金string
文件访问是一门语言重要的一环,适当地进行文本读写可以保存一次程序
运行下来的结果。
在数据挖掘的工做中,数据量很大,整个挖掘程序能够分为几部分,咱们
应该把每一部分运行的结果都保存下来,若是后面的程序出现错误,咱们
也没必要再从头开始。
要进行文件的读写,首先要设置工做目录。若是使用脚本运行,那么默认
的工做目录为脚本所在的目录。
要改变工做目录,首先要引入os模块,语句为:import os。查看当前工
做目录的方法是os.getwd(),改变工做目录的方法是os.chdir(string)。
Python进行文件读写的函数是open或file。其格式以下:
file_handler = open(filename,mode=’r’)
其中filename是咱们但愿打开的文件的字符串名字,mode表示咱们的读
写模式,默认为read模式。若是此语句执行成功,那么一个文件句柄就
会返回,后面的文件操做需依赖文件句柄的方法进行。
咱们经常使用的文件读入函数是readline()和readlines()。
首先咱们假设在咱们脚本目录下有这样一个data.txt,其数据以下:
1,2 3,4
注意第一行中有一个换行符。若是咱们采用readline()语句读取,执行
f=open(‘data.txt’,’r’)和 a =f. readline(),那么就会将第一行以字
符串的形式返回,此时a=’1,2\n’ 。
同时文件指针指向第一行末尾,若是再执行语句b = f.readline(),那么
b=’3,4’ ,此时文件指针就指向文件末尾,文件已读取完毕。可使
用下面的while循环读取全部语句:L=2#文件的行数
for i in range(L):
a = readline()# 对该行的处理
若是咱们想去掉第一行的读取的换行符,可使用语a=a.strip(),strip()
是一个能够去掉一个字符串开头和末尾的空白字符,包括换行符。
而readlines则返回一个列表,列表的包含了每一行的字符串数据。如执
行a=f.readlines(),那么此时a=[‘1,2\n’,’3,4’]。最终保存的形式是
一个二维列表,在后面的数据处理能够很容易的变换为numpy.array,
大部分数据挖掘的算法都须要numpy.array做为数据存储的格式。
:
csv文件读取:
文件输出:
咱们把数据成功读入到程序中,如今咱们考虑,假设咱们的程序中得出
了一个二维列表,咱们从新输出到文件。
咱们可使用方法f.write(string),而且借助字符串的join方法输出到文
件中。
若是二维列表的元素不是字符类型而是整数类型,咱们不能使用join方
法,使用f.write(string)输出比较麻烦,这里介绍另外一中更灵活的输出到
文件的方式:print>>>f,…。这样就会把本来print函数输出到shell的内
容改成输出到文件中。
JSON处理数据: