pandas是一个很是优秀,强大以及灵活的python数据处理包,使用pandas能够很是方便的读取,整理以及存储数据,同时搭配numpy和matplotlib,更显强大。html
用好pandas能够很是节省时间。python
import pandas as pd data = pd.read_csv(path_to_dataset, delimiter=',')
delimiter:识别csv文件分隔符
api说明api
data.head(n)
data[column_name] data[column_name].drop_duplicates() course_time = date[date["course_id"]==course_id]
dorp_duplicates()的做用是去除重复
第三行代码按照course_id去查询数据(条件查询)code
for index, row in data.iterrows(): id = row[0] username = row[1] course_id = row[2] time = row[3] source = row[4] event = row[5] object = row[6]
其实pandas中都是以列的方式查询数据,若是须要按行的方式查询也不是不能够。pandas中提供了迭代的方式查询,其中index指行数,row指每一行的内容,以list的形式存储。若是须要找到具体的数据,须要对list进行解析。component
course_from = pd.to_datetime(course_from) time_from_value = time_from.components.days * 12 * 3600 + time_from.components.hours * 3600 + time_from.components.minutes * 60 + time_from.components.seconds
在计算时间差的时候,time_from_value的形式为timeObject类型,有components方法能够解析。htm