这是机器学习系列的第一篇文章。html
本文将使用Python
及scikit-learn
的线性回归预测Google的股票走势。请千万别指望这个示例可以让你成为股票高手。下面按逐步介绍如何进行实践。机器学习
准备数据
本文使用的数据来自www.quandl.com
网站。使用Python
相应的quandl
库就能够经过简单的几行代码获取到咱们想要的数据。本文使用的是其中的免费数据。利用下面代码就能够拿到数据:函数
import quandl df = quandl.get('WIKI/GOOGL')
其中WIKI/GOOGL
是数据集的ID,能够在网站查询到。不过我发现新版本的Quandl
要求用户在其网站注册获取身份信息,而后利用身份信息才能读取数据。这里用到的WIKI/GOOGL
数据集属于旧版本接口提供的数据,不须要提供身份信息。post
经过上面代码,咱们把数据获取到,并存放在df
变量中。默认地,Quandl
获取到的数据以Pandas
的DataFrame
存储。所以你能够经过DataFrame
的相关函数查看数据内容。以下图,使用print(df.head())
能够打印表格数据的头几行内容。学习

预处理数据
从上面图片咱们看到数据集提供了不少列字段,例如Open
记录了股票开盘价、Close
记录了收盘价、Volumn
记录了当天的成交量。带Adj.
前缀的数据应该是除权后的数据。测试
咱们并不须要用到全部的字段,由于咱们的目标是预测股票的走势,所以须要研究的对象是某一时刻的股票价格,这样的有比较性。因此咱们以除权后的收盘价Adj. Close
为研究对象来描述股票价格,也就是咱们选择它做为将要被预测的变量。网站
接下来须要考虑关于什么变量跟股票价格有关。下面代码选取了几个可能影响Adj. Close
变化的字段做为回归预测的特征,并对这些特征进行处理。详细步骤请阅读注释。url
import math import numpy as np # 定义预测列变量,它存放研究对象的标签名 forecast_col = 'Adj. Close' # 定义预测天数,这里设置为全部数据量长度的1% forecast_out = int(math.ceil(0.01*len(df))) # 只用到df中下面的几个字段 df = df[['Adj. Open', 'Adj. High', 'Adj. Low', 'Adj. Close', 'Adj. Volume']] # 构造两个新的列 # HL_PCT为股票最高价与最低价的变化百分比 df['HL_PCT'] = (df['Adj. High'] - df['Adj. Close']) / df['Adj. Close'] * 100.0 # HL_PCT为股票收盘价与开盘价的变化百分比 df['PCT_change'] = (df['Adj. Close'] - df['Adj. Open']) / df['Adj. Open'] * 100.0 # 下面为真正用到的特征字段 df = df[['Adj. Close', 'HL_PCT', 'PCT_change', 'Adj. Volume']] # 由于scikit-learn并不会处理空数据,须要把为空的数据都设置为一个比较难出现的值,这里取-9999, df.fillna(-99999, inplace=True) # 用label表明该字段,是预测结果 # 经过让与Adj. Close列的数据往前移动1%行来表示 df['label'] = df[forecast_col].shift(-forecast_out) # 最后生成真正在模型中使用的数据X和y和预测时用到的数据数据X_lately X = np.array(df.drop(['label'], 1)) # TODO 此处尚有疑问 X = preprocessing.scale(X) # 上面生成label列时留下的最后1%行的数据,这些行并无label数据,所以咱们能够拿他们做为预测时用到的输入数据 X_lately = X[-forecast_out:] X = X[:-forecast_out] # 抛弃label列中为空的那些行 df.dropna(inplace=True) y = np.array(df['label'])
上面代码难点在理解label
列的是如何生成的以及有什么用。实际上这一列的第i
个元素都是Adj. Close
列的第i + forecast_out
个元素。我想尝试用简单文字描述:这列的每一个数据是真实统计中的将来forecast_out
天的收盘价。利用这一列的数据做为线性回归模型的监督标准,让模型学习出规律,而后咱们才能用之预测结果。spa
另外X = preprocessing.scale(X)
这行代码对X的数据进行规范化处理,让X的数据服从正态分布。(PS. 可是,我发现这种处理让X的数据都发生了变化,所以没法理解这样作的缘由,以及为何不会影响模型学习的结果。有知道答案的麻烦留言告告知。)unix
线性回归
上面咱们已经准备好了数据。能够开始构建线性回归模型,并让用数据训练它。
# scikit-learn从0.2版本开始废弃cross_validation,改用model_selection from sklearn import preprocessing, model_selection, svm from sklearn.linear_model import LinearRegression # 开始前,先X和y把数据分红两部分,一部分用来训练,一部分用来测试 X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.2) # 生成scikit-learn的线性回归对象 clf = LinearRegression(n_jobs=-1) # 开始训练 clf.fit(X_train, y_train) # 用测试数据评估准确性 accuracy = clf.score(X_test, y_test) # 进行预测 forecast_set = clf.predict(X_lately) print(forecast_set, accuracy)
上述几行代码就是使用scikit-learn
进行线性回归的训练和预测过程。咱们能够经过测试数据计算模型的准确性accuracy
,而且经过向模型提供X_lately
计算预测结果forecast_set
。
我运行获得的结果以下:

须要注意到的这个准确性accuracy
并不表示模型预测100天的数据有97天是正确的。它表示的是线性模型可以描述统计数据的信息的一个统计概念。在后续的文章我可能会对这个变量进行一些讨论。
绘制走势
最后咱们使用matplotlib
让数据可视化话。详细步骤看代码注释。
import matplotlib.pyplot as plt from matplotlib import style import datetime # 修改matplotlib样式 style.use('ggplot') one_day = 86400 # 在df中新建Forecast列,用于存放预测结果的数据 df['Forecast'] = np.nan # 取df最后一行的时间索引 last_date = df.iloc[-1].name last_unix = last_date.timestamp() next_unix = last_unix + one_day # 遍历预测结果,用它往df追加行 # 这些行除了Forecast字段,其余都设为np.nan for i in forecast_set: next_date = datetime.datetime.fromtimestamp(next_unix) next_unix += one_day # [np.nan for _ in range(len(df.columns) - 1)]生成不包含Forecast字段的列表 # 而[i]是只包含Forecast值的列表 # 上述两个列表拼接在一块儿就组成了新行,按日期追加到df的下面 df.loc[next_date] = [np.nan for _ in range(len(df.columns) - 1)] + [i] # 开始绘图 df['Adj. Close'].plot() df['Forecast'].plot() plt.legend(loc=4) plt.xlabel('Date') plt.ylabel('Price') plt.show()
运行代码能够获得下图。

上图红色部分为采集到的已有数据,蓝色部分为预测数据。
点击这里查看完整代码。
本文来自同步博客