「数据游戏」:使用 LSTM 模型预测三天后单股收盘价

做者:疯猫子,「数据游戏」优胜队伍成员算法

摘要

LSTM模型是RNN的一种,其特色是在单一循环神经网络的基础上,构建出了长短记忆门,也就是能够长时间发现和记忆长依赖关系。本次比赛将使用LSTM模型来预测招商银行三天后的收盘价,也就是利用5月10日前的数据,来预测5月15日的收盘价。数组

1、模型选择

股价价格的预测实际上是一件极其不靠谱的事情。不少专业机构和量化交易的我的都是极力在规避价格预测这种作法的。微信

缘由有二:一是股市(不管哪一个国家,哪一种性质)随机突发事件太多,且突发事件对股市的影响力也是高度随机和不可预测的,也就是所谓的噪音多到让你怀疑人生。二是,连续变量做为预测目标是个糟糕的设计,由于这会使得预测空间太大,而致使所搜空间无限大。这个看法来自于强化学习,强化学习的一个技术要点就是把预测空间有限化,即使客观世界是连续而无限的,也须要采用相似于Tile coding的技术使其离散化,有限化。本着迎难而上,不成功也能够提升本身的初衷,尝试开始着手解决这一难题。网络

选择LSTM模型做为主算法来采用,是参考了kaggle上一个长期项目,预测美股收盘价的一个项目,其中第三名就是采用LSTM的。拿来测试以后,具备必定预测做用,可是预测精度不高,且性能不稳定。而后小组讨论后,是否就采用这个基本模型为核心,开展算法升级,获得一致赞成后,因而肯定了LSTM算法为核心算法,并作再次开发。数据结构

2、模型升级

LSTM模型之全部可以具备预测股价的能力,主要的仍是模型自己捕捉了价格序列中的时序要素中所透射出来的信息。对于模型进行预测自己是彻底没有问题的,而此次模型升级的根本目标是提高预测精度。app

关于模型升级主要来自于两方面的,一是经过对模型的优化,二是优化数据。dom

(一)升级LSTM

LSTM模型大概有6种变形形式,主要的特色就是针对不一样数据输入的类型。这里我选用了Multiple Input模型,也就是多序列输入,单序列输出。选择这个模型,对数据的构建也有很是好的促进做用,能够构建一个张量(多维数组),这个张量是一个5维张量,每一个维度是一个特征数据,同时还能够按照N天的方式造成数据切片,这种设计基于两个缘由:函数

一是数据中包含了大量信息,而越多的特征数据,提供的信息越多,多因子的雏形。工具

二是在保持多特征数据的基础上,保留的时间序列的特色。也就是在不增长特征的状况,将特征信息成倍增长。性能

这种数据处理模式极大的优于ML的诸多算法。ML的诸多算法仍是以单同样本为切片输入全部维度的数据,在时序构建方面是有所欠缺的。

(二)升级数据集

数据是从大智慧中取出的数据,数据时间段是2010年1月1日—2019年5月10日,数据包含open(开盘价)、close(收盘价)、volume(成交量)、turnover(成交额度)、return(日收益率)。特征选择了5个,缘由是增长特征必然增长数据的获取难度,多因子模型的构建是基于丰富的数据供应基础上,在目前的这个比赛中,是不具有这个条件,因此只用4个基本特征数据加一个收益率的衍生变量。

按照N个交易日的模式,将数据变成一个(M,N,5)的张量表。

3、代码解析

# 引入各类工具包
import pandas as pd
import numpy as np
np.set_printoptions(threshold=np.inf) #设置np数据在打印时可以完整输出,方便观察
from keras.models import Sequential
from keras.layers import LSTM,Dense
import keras
import matplotlib.pyplot as plt

# 全局参数,全部要调整的参数都在这里
dim=300 #输出维度数,也是LSTM的网络节点数
epochs=400 #训练代数(能够理解为训练次数)
days=20 #读取多少天的数据做为一次预测。例如读取20天的历史数据来预测将来1天的状况
batch_size = 535 #训练批次大小,就是一次性读取多少个样本进行一次运算,越大运算速度越快,可是占用内存和显存越大,根据本身的机器性能设置。同时该参数还决定梯度降低算法的降低步长数。

开始构建网络,
n_steps = days #输入张量的维度数 
n_features = 5 #输入张量的维度
model_2 = Sequential()
# 激活函数用relu
model_2.add(LSTM(dim, activation='relu',input_shape=(n_steps, n_features)))
# 输出层使用全链接层,只要一个输出节点
model_2.add(Dense(1))
#选择优化器和损失函数,优化器为线性规划算法,损失函数用的是高维空间测定距离的函数
model_2.compile(optimizer='rmsprop', loss='mse')

接下来开始构建数据,主要分为三个步骤完成
第一步导入数据
第二步生成数据切片,以及监督学习的标签,也就是三天后的收盘价。拆分训练序列训练集、测试集、标签
第三步载入模型进行训练

数据导入的基本操做,顺便观察下数据集的状况。

data = pd.read_csv('600036.csv')
data.head()
 
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2250 entries, 0 to 2249
Data columns (total 5 columns):
open        2250 non-null float64
close       2250 non-null float64
volume      2250 non-null int64
turnover    2250 non-null int64
return      2250 non-null float64
dtypes: float64(3), int64(2)
memory usage: 88.0 KB

构建两个处理数据生成张量表的函数,一个用带标签输出,另一个只处理输入数据集,生成20x5的切片数据。

def processData(data,lb):
    X,Y = [],[]
    for i in range(len(data)-lb-1):
        X.append(data[i:(i+lb),0])
        try:
            Y.append(data[(i+2+lb),0])
        except:
            Y.append(data[(i+lb),0])
    return np.array(X),np.array(Y)

def pData(data,lb):
    X,Y = [],[]
    for i in range(len(data)-lb-1):
        X.append(data[i:(i+lb)])
return np.array(X)

开始处理数据,同时对数据进行特征缩放处理,由于后面须要对特征缩放的数据进行逆运算,因此,要定义两个不一样的特征缩放函数,不然后面针对输出标签逆运算会没法进行。
对数据进行特征缩放处理,将数据缩放到0-1区间内,这样能够加快训练结果的快速收敛。

from sklearn.preprocessing import MinMaxScaler
close = data['close']
cl = np.array(close)
cl = cl.reshape(cl.shape[0],1)
scl = MinMaxScaler()
sc2 = MinMaxScaler()
cl = scl.fit_transform(cl)


# 生成标签
_,y = processData(cl,days)
X = data.values
X = sc2.fit_transform(X)
X = pData(X,days)

对数据集进行训练集和测试集的拆分,我在这里偷了个懒,只生成了两组数据集。

y_train,y_test = y[:int(y.shape[0]*0.80)],y[int(y.shape[0]*0.80):]
X_train,X_test = X[:int(X.shape[0]*0.80)],X[int(X.shape[0]*0.80):]

拆分出来的数据是这个样子的

  • y_train的数据结构为: (1783,)
  • y_test的数据结构为: (446,)
  • X_train的数据结构为: (1783, 20, 5) # 1783个20x5的数据切片
  • X_test的数据结构为: (446, 20, 5) # 446个20x5的数据切片
  • 张量表的结构为:(一个切片)
#执行模型训练
History = model_2.fit(
X_train,y_train,batch_size=batch_size, epochs=epochs,validation_data=(X_test,y_test),shuffle=False)


# 显示训练过程
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])

模型训练过程当中的loss值,一个真实值的loss,一个是预测值的loss,能够明显的看到,两个loss已经快速收敛,可是预测值的loss并不稳定。在这种状况下,若是模型使用精确度来进行评估,明显已经不符合实际要求。故须要从新找到模型性能评估的方法。

模型训练完毕以后,须要对训练模型进行效果评估,大概的评估思路分为三步:

第一步单值预测检验
第二步序列预测检验
第三步用统计检验方法中的T检验对预测性能进行评估

#随机从测试集中抽取一个单一数据切片进行预测
act = []
pred = []
import random
i=random.randint(0,250)
Xt = model_2.predict(X_test[i].reshape(1,days,5))
print('预测值:{0}, 实际值:{1}'.format(Xt,y_test[i].reshape(-1,1)))
pred.append(Xt)
act.append(y_test[i])

预测值:[[0.7393236]], 实际值:[[0.74340618]]

# 将测试集中的全部切片以序列的方式进行预测,查看预测结果与真实值的拟合状况。
Xt = model_2.predict(X_test)
fig = plt.gcf()
plt.plot(y_test.reshape(-1,1),label='y_test')
plt.plot(Xt,label='Forecast')
plt.legend()

 
# T检验中的差值统计,查看差值序列在统计挺行上的综合表现
a = y_test.reshape(-1,1)
b = Xt
c = a - b #实际值减去预测值
c = pd.DataFrame(c)
c.describe()

统计指标说明:

  • mean:表明测试集验证后的结果与真实状况的差值序列的平均值,也就是总体差别水平。正负无所谓,越趋近0越好。经过上述的结果来看,此次训练的模型预测结果于真实状况的总体偏差已经小于1%,
  • std:标准差,表明均值在正负两个方向的分散程度,越小越好,说明结果比较集中,偏差比较小,经过以上结果来看分散度仅有4.33%,在95%的置信度下。

模型保存

由于在训练模型时,确保可以产生最大的随机数,并未设置随机数种子。若是遇到性能较好的结果就运行下面的代码,以便将模型保存在本地。方便评估模型训练的最优参数。

path='my_model_2' # 请自行设置存储路径及文件名,例如:D:\\股票\\my_model
model_2.save(path+'.h5',include_optimizer=True) # 保存模型本体
model_2.save_weights(path + '_weights.h5') # 保存模型权重

模型载入执行预测

说明:
因为神经网络依靠随机数,未设置随机数种子,因此每次训练结果均不相同。因此将性能较好的模型进行存储。
在实际使用时进行模型载入,分别查看预测结果。取最佳模型。
载入数据预测5月15日的close数值

filepath = 'my_model_1'
my_model = keras.models.load_model(filepath+'.h5')
p_1 = my_model.predict(X_test)
p_1 = scl.inverse_transform(p_1)
print('5月15日的close为:',p_1[-1])

5月15日的close为: [33.819942]

总结

该模型最优参数组合,是经过几十次的反复训练所的获得的。在这个过程当中还作了大量的调整和比对试验,就不作赘述,只将总结到的要点进行概括阐述:

  1. 由于构建的张量维度数并非十分大,因此在网络的设计上,一个LSTM层加一个全链接层就已经足够了。若是咱们的维度数能够增长到上百个,这个状况就能够继续增长隐藏层的数量,同时使用dropout层,丢弃部分冗余。
  2. 对于LSTM模型,在作预测的时候,不能只给一个切片(单值)数据,这个预测的结果很大几率会产生误差。正确的作法,应该是给一个切片序列,而你要预测的内容必须放置到最后一个。由于实验发现,LSTM模型的运行原理中,会根据上下链接的数据切片修正本身的长短记忆内容,也就是具有必定的推理能力,在使用这个模型时,须要给与足够的数据,让模型可以进行推理。
  3. Y值(标签)的构建一样须要和X值(输入)的设计进行关联,由于这关系到你的训练数据是离散化,仍是序列化,也关系到你的训练方式是能够离散化,仍是序列化(时序化)。很是重要。这也是针对预测目标反推须要选择哪些数据组成数组的宗旨。

Ad Time

了解更多「数据游戏」能够关注微信公众号数据科学与技术(read_csv) 或加入 QQ 群 759677734

相关文章
相关标签/搜索