tips for pandas

pandas是一个很是优秀,强大以及灵活的python数据处理包,使用pandas能够很是方便的读取,整理以及存储数据,同时搭配numpy和matplotlib,更显强大。html

用好pandas能够很是节省时间。python

  • 读取csv文件
import pandas as pd
data = pd.read_csv(path_to_dataset, delimiter=',')

delimiter:识别csv文件分隔符
api说明api

  • 显示数据前n行
data.head(n)
  • 按列查询数据
data[column_name]
data[column_name].drop_duplicates()
course_time = date[date["course_id"]==course_id]

dorp_duplicates()的做用是去除重复
第三行代码按照course_id去查询数据(条件查询)code

  • 按行查询数据
for index, row in data.iterrows():
        id = row[0]
        username = row[1]
        course_id = row[2]
        time = row[3]
        source = row[4]
        event = row[5]
        object = row[6]

其实pandas中都是以列的方式查询数据,若是须要按行的方式查询也不是不能够。pandas中提供了迭代的方式查询,其中index指行数,row指每一行的内容,以list的形式存储。若是须要找到具体的数据,须要对list进行解析。component

  • 时间数据转换
course_from = pd.to_datetime(course_from)
time_from_value = time_from.components.days * 12 * 3600 + time_from.components.hours * 3600 + time_from.components.minutes * 60 + time_from.components.seconds

在计算时间差的时候,time_from_value的形式为timeObject类型,有components方法能够解析。htm

详细说明查看pandas: powerful Python data analysis toolkitget

相关文章
相关标签/搜索