randomForest R 学习笔记

时间 2019-12-04

标签 randomforest 学习笔记繁體版

原文原文链接

object type

randomForest 会根据变量的类型来决定regression或classification。class(iris$Species)是 factor，因此是classification。dom

iris.rf$type
[1] "classification"

iris example

data(iris)
set.seed(111)
ind <- sample(2, nrow(iris), replace = TRUE, prob=c(0.8, 0.2))
iris.rf <- randomForest(formula = Species ~ ., data=iris[ind == 1,])
iris.pred <- predict(object = iris.rf, newdata = iris[ind == 2,])
table(observed = iris[ind==2, "Species"], predicted = iris.pred)

formula: Species ~ 意味着 Species 是response，data中的其余变量都是predictor
newdata: 能够不用指明 predictor 和 response

test

xtest = subset(test_data, select=-y)
ytest = test_data$yrest

ytest= subset(test_data, select=y) 会报错code

注意：一旦提供了xtest，keep.forest默认会被设置为FALSE，trees不会保存，模型中包含xtest的预测值，可是模型不能用来predict。orm

local importance

localImp 计算的是，针对每一个case，不一样变量的importance。
importance统计的是总体而言，不一样变量的importance。ci