pandas，对dataFrame中某一个列的数据进行处理

时间 2019-11-06

标签 pandas dataframe 某一个数据进行处理栏目 Spark 繁體版

原文原文链接

背景：dataFrame的数据，想对某一个列作逻辑处理，生成新的列，或覆盖原有列的值

下面例子中的df均为pandas.DataFrame()的数据

一、增长新列，或更改某列的值

df["列名"]=值

若是值为固定的一个值，则dataFrame中该列全部值均为这个数据

二、处理某列

df["列名"]=df.apply(lambda x:方法名(x,入参2),axis=1)

说明：

一、方法名为单独的方法名，能够处理传入的x数据

二、x为每一行的数据，作为方法的入参1；x中的数据能够用【x.列名】来获取

三、入参2等为方法须要的其余参数，不须要能够不写

四、axis=1，表示每次取一行数据进行处理，按行处理

例子以下：

根据列title的是否包含特定词，来赋值给新的列1或0的值

bugInfo['IntegrationTest'] = bugInfo.apply(lambda x: self.bug_rule(x, "IntegrationTest"), axis = 1)
 
def bug_rule(self, frame, type):  # 处理列表中的数据，更新到sql数据库中
    result = "0"
    if type == "SmokeTest":  # 冒烟测试
        if re.search("^\[冒烟\]|\[冒烟测试\]|【冒烟】|【冒烟测试】", frame["title"]):
            result = "1"
    elif type == "InterfaceTest":  # 接口测试
        if re.search("^\[接口\]|\[接口测试\]|【接口】|【接口测试】", frame["title"]):
            result = "1"
    elif type == "IntegrationTest":  # 集成测试
        if self.IntegrationTime != "" and self.IntegrationTime == frame["created_time"]:
            result = "1"
    return result