特征工程之处理时间序列数据

维基百科对于特征工程的定义是：利用相关领域知识，经过数据挖掘技术从原始数据中提取特征的过程。这些特征能够用来提升机器学习算法的性能。python

不过，特征工程不必定非得很花哨。特征工程的一个简单但广泛的处理对象是时间序列数据。特征工程在这个领域的重要性是由于（原始）时间序列数据一般只包含一个表示时间属性的列，即日期时间（或时间戳）。算法

对于日期时间数据，特征工程能够看做是从独立的（不一样的）特征数据中提取有用的信息。例如，从“2020–07–01 10:21:05”这日期时间数据中，咱们可能须要从中提取如下特征：微信

月份：7app
本月第几日：1机器学习
周几：周三（经过2020-07-01判断获得）ide
时刻：10：21：05函数

从日期时间数据中提取这类特征正是本文的目标。以后，咱们将结合咱们的工程实际中的特征数据，将其做为预测因子，而且创建一个gradient boosting 回归预测模型。具体来讲，咱们将预测地铁州际交通量。工具

本文目录

本文主要包含如下内容：性能

详细阐述如何从时间日期数据中提取如下特征数据：学习

月份
时间数据处于每个月第几日
周几
时间
时段分类（早上、下午等）
周末标记（若是是周末则添加标记1，不然添加标记0）

如何将上述特种数据用于搭建Gradient Boosting 回归模型，而且实现对于地铁州际交通量的预测

数据状况

在本文中，咱们使用地铁州际交通量数据集，它能够在UCI机器学习库中找到（https://archive.ics.uci.edu/ml/datasets/Metro+Interstate+Traffic+Volume）。该数据集是明尼苏达州圣保罗州明尼阿波利斯市I-94的每小时交通量，其中包括2012-2018年的天气和假日数据。这48204行数据包含如下属性：

holiday：类型数据，包含美国国家法定假日、区域假日、明尼苏达州博览会等
temp：数值型数据，平均温度（开尔文）
rain_1h：数值型数据，每小时降雨（毫米）
snow_1h：数值型数据，每小时降雪（毫米）
clouds_all：数值型数据，云层状况（百分比）
weather_main：类型数据，当前天气的分类描述（简要）
weather_description：类型数据，当前天气的分类描述（详细）
data_time：时间序列数据
traffic_volume：数值型数据，每小时I-94 ATR 301记录的西行交通量（本文预测目标）

接下来，咱们首先载入数据：

# import libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# load the data
raw = pd.read_csv('Metro_Interstate_Traffic_Volume.csv')
# display first five rows
raw.head()
# display details for each column
raw.info()

raw.head()

raw.info()

查看info信息，咱们发现data_time这一类目是object类型，因此咱们须要将其转化为datetime类型：

# convert date_time column to datetime type
raw.date_time = pd.to_datetime(raw.date_time)

特征工程

从上面的info方法的输出中，咱们知道除了date_time列以外还有其余的分类特征。可是因为本文的主要主题是处理时间序列数据，咱们将重点关注针对date_time的特性工程。

Month

Pandas自身有许多易于使用的方法来处理datetime类型的数据。要提取时间/日期信息，咱们只需调用pd.Series.dt。pd.Series.dt.month是提取month信息所需的函数。这将产生一系列int64格式的月份数字（例如1表明1月，10表明10月）。

# extract month feature
months = raw.date_time.dt.month

Day of month

和Month相似，咱们只须要调用pd.Series.dt.day函数。以2012-10-27 09:00:00为例，调用该函数提取结果为27。

# extract day of month feature
day_of_months = raw.date_time.dt.day

Hour

相似地，pd.Series.dt.hour将生产对应的小时信息数据（范围为0-23的整数）。

# extract hour feature
hours = raw.date_time.dt.hour

Day name

获取Day name的方式和上面几个数据有所不一样。咱们想要肯定raw.date_time序列中关于星期几的信息，须要如下两个步骤。首先，经过pd.Series.dt.day_name()生成day name序列。而后，咱们须要经过pd.get_dummies()进行独热编码（one-hot encode）。

# first: extract the day name literal
to_one_hot = raw.date_time.dt.day_name()
# second: one hot encode to 7 columns
days = pd.get_dummies(to_one_hot)
#display data
days

独热编码后的Day name信息

Daypart

在本部分中，咱们将基于Hour数据建立一个分组。咱们但愿有六个小组表明每一天的各个部分。它们是黎明（02.00-05.59）、上午（06.00-09.59）、中午（10.00-13.59）、下午（14.00-17.59）、晚上（18.00-21.59）和午夜（22.00-第二天01.59）。

为此，咱们建立了一个标识函数，稍后将使用该函数来做为数据系列的apply方法。而后，咱们对获得的dayparts执行一个热编码。

# daypart function
def daypart(hour):
    if hour in [2,3,4,5]:
        return "dawn"
    elif hour in [6,7,8,9]:
        return "morning"
    elif hour in [10,11,12,13]:
        return "noon"
    elif hour in [14,15,16,17]:
        return "afternoon"
    elif hour in [18,19,20,21]:
        return "evening"
    else: return "midnight"
# utilize it along with apply method
raw_dayparts = hours.apply(daypart)
# one hot encoding
dayparts = pd.get_dummies(raw_dayparts)
# re-arrange columns for convenience
dayparts = dayparts[['dawn','morning','noon','afternoon','evening','midnight']]
#display data
dayparts

独热编码后的Day parts信息

Weekend flag

咱们从date_time时间序列数据中提取的最后一个特征是is_weekend。这一特征指示给定的日期时间是否在周末（星期六或星期日）。为了实现这一目标，咱们将利用pd.Series.dt.day_name()方法以及lambda函数。

# is_weekend flag
day_names = raw.date_time.dt.day_name()
is_weekend = day_names.apply(lambda x : 1 if x in ['Saturday','Sunday'] else 0)

Holiday flag 以及 weather

幸运的是，这些数据还包含公共假日信息。信息是细粒度的，由于它提到每一个公共假日的名称。尽管如此，本文假设对每一个假期进行编码并无显著的好处。所以，让咱们建立一个二进制特性来指示对应的日期是不是假日。

# is_holiday flag
is_holiday = raw.holiday.apply(lambda x : 0 if x == "None" else 1)

咱们须要考虑的最后一个分类特征是天气。咱们只对该特征进行以下独热编码。

# one-hot encode weather
weathers = pd.get_dummies(raw.weather_main)
#display data
weathers

独热编码后的Weather信息

特征处理后的数据

如今，咱们终于有了最终的可用于训练的数据！让咱们建立一个名为features的全新数据集，它包含全部的特征，包括数值型特征（咱们从原始数据中按原样放置）和类型特征（咱们设计的特性）。

# features table
#first step: include features with single column nature
features = pd.DataFrame({
    'temp' : raw.temp,
    'rain_1h' : raw.rain_1h,
    'snow_1h' : raw.snow_1h,
    'clouds_all' : raw.clouds_all,
    'month' : months,
    'day_of_month' : day_of_months,
    'hour' : hours,
    'is_holiday' : is_holiday,
    'is_weekend' : is_weekend
})
#second step: concat with one-hot encode typed features
features = pd.concat([features, days, dayparts, weathers], axis = 1)
# target column
target = raw.traffic_volume

在咱们将数据输入模型以前，咱们须要分割数据（训练集和测试集）。请注意，下面咱们不随机化咱们的数据，这是因为咱们的数据具备时间序列特征。

#split data into training and test data
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.1, shuffle = False)

创建回归预测模型

如今咱们准备创建咱们的模型来预测地铁州际交通量。在这项工做中，咱们将使用Gradient Boosting回归模型。

该模型的理论和具体细节超出了本文的讨论范围。可是简单来讲，gradient-boosting模型属于集成模型，它使用梯度降低算法来下降弱学习模型（决策树）中的预测损失。

训练模型

让咱们在训练数据上实例化模型并训练模型！

from sklearn import datasets, ensemble
# define the model parameters
params = {'n_estimators': 500,
          'max_depth': 4,
          'min_samples_split': 5,
          'learning_rate': 0.01,
          'loss': 'ls'}
# instantiate and train the model
gb_reg = ensemble.GradientBoostingRegressor(**params)
gb_reg.fit(X_train, y_train)

评价模型

咱们选择两个指标来评价模型：MAPE 和 R2得分。在测试集上使用训练完成的模型进行预测，而后计算这两个指标。

# define MAPE function
def mape(true, predicted):        
    inside_sum = np.abs(predicted - true) / true
    return round(100 * np.sum(inside_sum ) / inside_sum.size,2)
# import r2 score
from sklearn.metrics import r2_score
# evaluate the metrics
y_true = y_test
y_pred = gb_reg.predict(X_test)
#print(f"GB model MSE is {round(mean_squared_error(y_true, y_pred),2)}")
print(f"GB model MAPE is {mape(y_true, y_pred)} %")
print(f"GB model R2 is {round(r2_score(y_true, y_pred)* 100 , 2)} %")

测试集上的评价指标结果

咱们能够看出咱们的模型性能至关不错。咱们的MAPE低于15%，而R2得分略高于95%。

结果可视化

为了直观理解模型性能，结果可视化颇有必要。

因为咱们的测试数据（4820个数据点）的长度，咱们只绘制了最后100个数据点上的实际值和模型预测值。此外，咱们还包括另外一个模型（在下面的绘图代码中称为gb_reg_lite），它不包含日期时间特征做为其预测因子（它只包含非日期时间列做为特征，包括temp、weather等）。

fig, ax = plt.subplots(figsize = (12,6))
index_ordered = raw.date_time.astype('str').tolist()[-len(X_test):][-100:]
ax.set_xlabel('Date')
ax.set_ylabel('Traffic Volume')
# the actual values
ax.plot(index_ordered, y_test[-100:].to_numpy(), color='k', ls='-', label = 'actual')
# predictions of model with engineered features
ax.plot(index_ordered, gb_reg.predict(X_test)[-100:], color='b', ls='--', label = 'predicted; with date-time features')
# predictions of model without engineered features
ax.plot(index_ordered, gb_reg_lite.predict(X_test_lite)[-100:], color='r', ls='--', label = 'predicted; w/o date-time features')
every_nth = 5
for n, label in enumerate(ax.xaxis.get_ticklabels()):
    if n % every_nth != 0:
        label.set_visible(False)
ax.tick_params(axis='x', labelrotation= 90)
plt.legend()
plt.title('Actual vs predicted on the last 100 data points')
plt.draw()

后100个点的预测结果

该图中蓝色虚线与黑色实线十分接近。也就是说，咱们提出的gradient-boosting模型能够很好地预测地铁交通量。

同时，咱们看到不使用日期时间特征的模型在性能上出现了差别（红色虚线）。为何会这样？只是由于咱们会依赖交通工具，交通流量在周末趋于减小，但在高峰时段出现高峰。所以，若是咱们不对日期时间数据进行特征工程处理，咱们将错过这些重要的预测因子！

做者:Pararawendy Indarjo

deephub翻译组 OliverLee

本文分享自微信公众号 - DeepHub IMBA（deephub-imba）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。