Microsoft神经网络是迄今为止最强大、最复杂的算法。要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法经过创建多层感知神经元网络,创建分类和回归挖掘模型。与Microsoft决策树算法相似,在给定了可预测属性的每一个状态时, Microsoft神经网络算法计算输入属性每一个可能状态的几率。而后能够用这些几率根据输入属性预测被预测属性的输出。”
何时用这个算法呢?推荐在其余算法没法得出有意义的结果时再用,如提高图输出的结果。咱们常常把Microsoft神经网络做为“压箱底”的最后一招,在其余算法处理巨大而复杂的数据集没法获得有意义的结果时才使用它。这个算法能够接受Discrete或Continuous数据类型做为输入。在大型数据源上使用Microsoft神经网络以前,必定要用生产级别的负载好好测试,由于处理这类模型的开支太大了。同其余算法同样,在“算法参数”对话框中也有多个参数能够配置。同其余一些开支比较大的算法同样,只有在业务理由很是充分的状况下才有必要修改默认值。
Microsoft神经网络算法的一个变体是Microsoft逻辑回归算法。算法
下面咱们进入主题,一样咱们继续利用上次的解决方案,依次步骤以下:
数据源视图:sql
键:序列
输入:统率、武力、智力、政治、魅力
可预测:身分网络
数据内容类型:
Continuous(连续型):统率、武力、智力、政治、魅力
Discrete(离散型):身分测试
建模完成,产生数据挖掘结构接口包含Mining Structure(挖掘结构)、Mining Models(挖掘模型)、Mining Model Viewer(挖掘模型查看器)、Mining Accuracy Chart(挖掘精确度图表)以及Mining Model Prediction(挖掘模型预测);其中在Mining Structure(挖掘结构)中,主要是呈现数据间的关联性以及分析的变量。blog
挖掘模型:
在Mining Models(挖掘模型)中,主要是列出所创建的挖掘模型,也能够新增挖掘模型,并调整变量,变量使用情况包含Ignore(忽略)、Input(输入变量)、Predict(预测变量、输入变量)以及Predict Only(预测变量),如图所示。
在挖掘模型上点击鼠标右键,选择“设置算法参数...”可修改模型参数设置,如图所示接口
其中包含:
HIDDEN_NODE_RATIO:指定用于判断隐藏层中的节点数目。隐藏层内的节点数计算公式为:HIDDEN_NODE_RATIO *sqrt({输入节点的数目} * {输出节点的数目})。
HOLDOUT_PERCENTAGE:指定用于计算测试组预测错误的百分比,做为中止准则的一部分。
HOLDOUT_SEED:指定用于随机产生测试组的种子数据。若是未指定,算法会依据模型名称产生随机种子,以保证在从新处理模型时保持测试组相同。
MAXIMUM_INPUT_ATTRIBUTES:指定算法可处理的最大输入变量数目。将此值设置为0,会停用输入变量。
MAXIMUM_OUTPUT_ATTRIBUTES:指定算法可处理的最大输出变量数目。将此值设置为0,会停用输出变量。
MAXIMUM_STATES:指定算法所支持变量取值状态的最大数目。若是属性状态数大于该值,算法会截取最经常使用的状态,并将超过最大值的其他状态视为遗漏。
SAMPLE_SIZE:指定用来训练模型的案例数目。算法会取小于如下二者:SAMPLE_SIZE或total_cases *(1-HOLDOUT_PERCENTAGE/100)。get
挖掘模型查看器:
“挖掘模型查看器”展现该挖掘模型的结果,经过经过柱状图表示某一变量的取值状态对预测变量影响的方向和大小。
提高图:
分类矩阵:数据挖掘
参考文献:
Microsoft 神经网络算法
http://msdn.microsoft.com/zh-cn/library/ms174941(v=sql.105).aspxio