利用 Pandas 将数据集中的某列文本拆分为多行

时间 2019-12-16

标签利用 pandas 数据集中文本拆分繁體版

原文原文链接

背景

手头的项目要求用 Tableau 建立一个 story，数据集是摩拜上海城区用户使用数据。其中有一个维度的数据处理起来有点棘手。python

数据格式

注意 track 这个维度的数据，它表示的是在订单时间内的行车轨迹，里面包含了大量坐标点。git

按照 tidydata 的要求：github

Each variable forms a column.
Each observation forms a row.
Each type of observational unit forms a table.

我须要将 track 的坐标拆分为多行。数组

神来之笔

Google 了问题的解决方式，代码是函数

mobike.drop("track",axis = 1).join(mobike["track"].str.split("#",expand = True).stack().reset_index(level = 1,drop = True).rename("track"))
复制代码

工做原理

解决问题不能光知其然，不知其因此然。因此我将这行代码逐语句进行了拆分，一探代码内部的工做原理。spa

最外层代码是：code

mobike.join({dataset})
复制代码

这里调用了 dataframe 的 join 方法，很基础。orm

{dataset} 这部分作的工做比较多，首先是 split 方法。Python 的 split 方法能够将字符串按照指定的字符进行分割，这个例子中指定的字符是「#」。若是不加参数 expand = True，split()会返回拆分后的字符串数组。cdn

mobike["track"].str.split("#")
# ["121.372,31.118","121.372,31.119","121.373,31.117","1...]
# ["121.419,31.200","121.419,31.201","121.420,31.199","1...]
# ...
复制代码

加了 expand = True 会将数组拆开，数组中的每个元素都会单独保存。blog

mobike["track"].str.split("#",expand = True)
# "121.372,31.118" "121.372,31.119" "121.373,31.117" "1... 
# "121.419,31.200" "121.419,31.201" "121.420,31.199" "1...
# ...
复制代码

到这里至关于将列中全部文本拆成了一个巨大的表，表中每一个单元格有一个值。有些行拆分后的元素比较少，没有值能够填充的单元格补充 None

stack() 会把整个表逐行堆叠成一列。

这样就成功的将一列中的全部文本拆分红了多行，并且它是一个 dataframe 。不过到这里尚未结束，咱们还须要将拆出来的这个 dataframe 与原数据集合并。

注意到拆分出来的 dataframe 是多重索引的，须要用 reset_index() 将多重索引重置掉。在 split() 的时候，咱们引入了超级多的 None。这时候就能够经过 reset_index(..., drop =True)将值为 None 的行删除。

与原数据集经过 join() 合并的时候，A.join(B),A、B两个 DataFrame 都须要有名字，所以须要 rename("track")。

至此，咱们的任务算作完了。

彩蛋

我在列拆分为多行的基础上，还将 track 拆分红了两个变量——track_x,track_y。这里用到了 pandas 的函数映射进行数据转换。

mobike["track" = mobike["track"].split(",")
mobike["track_x"] = mobike["track"].map(lambda x:x[0])
mobike["track_y"] = mobike["track"].map(lambda x:x[1])
复制代码

经过 map 进行列的扩展速度很是很是快。

本文用到的摩拜数据及演示 notebook 都可在 DataWranglingMethod下载。