植被类型预测

clipboard.png

参加佛山互联网协会建模大赛,主题为植被类型预测,数据量分3个阶段,10/15/15万左右的放出,暨大教授在里面加了噪音,但我EDA没作得很好;所以只拿到26名;算法

训练环境:WIN7,16G内存,Rstudio,xgboost,CV交叉验证;耗时比较久,由于用for语句;
最高成绩加权F1值只有0.69,Kaggle实测成绩0.72;
脚本和训练过程见下面notebook;网络

连接描述机器学习

去听前11名理论赛演讲,其实你们用的都差很少,还有人会用并行结构;用spss作更多eda;学习

大赛规则:
“数创岭南”职工技能赛赛题介绍与数据下载下载数据
1
赛题介绍测试

随着计算能力、存储空间、网络的高速发展,人类所积累的数据量正在快速增加,而对特定数据的分类算法就显得尤其重要。分类是一项很是有应用价值的技术之一,它的应用遍布了社会中的各个领域,尤为是对多标签分类问题的解决方法,是机器学习中一个重要的研究领域。

2
数据集描述优化

本次大赛提供数据集反映的是不一样地块的植被类型状况。经过海拔、坡度、到水源的距离、地块位置等特征项,对地块植被的类型进行预测(7个类型)。数据集中共有 13个特征,由 55 列数据组成。

以下图所示:spa

字段名称 数据类型 量度单位 描述
Elevation 定量数据 米 海拔高度
Aspect 定量数据 度 方位角
Slope 定量数据 度 坡度
Horizontal_Distance_To_Hydrology 定量数据 米 与最近水文特征的水平距离
Vertical_Distance_To_Hydrology 定量数据 米 与最近水文特征的垂直距离
Horizontal_Distance_To_Roadways 定量数据 米 与最近道路的水平距离
Ground position 定性数据 a-l 地块位置
Hillshade_9am 定量数据 0至255的索引 早上9:00光的投射度(夏至)
Hillshade_Noon 定量数据 0至255的索引 正午光的投射度(夏至)
Hillshade_3pm 定量数据 0至255的索引 下午3:00光的投射度(夏至)
Horizontal_Distance_To_Fire_Points 定量数据 米 与最近燃火点的距离
Wilderness_Area (4个二元列) 定性数据 0或1(缺失/存在) 荒野地区等级
Soil_Type (40个二元列) 定性数据 0或1(缺失/存在) 土壤类型等级
Cover_Type (7种) 整数 0至7 地表覆盖类型
3
数据集提供方式3d

这是一个模拟真实状况的过程,数据是分阶段提供的,而且包含约1‰~2‰的噪声值。每一个阶段,会提供不等数量的训练和预测数据集,选手经过训练数据进行建模、优化算法,并在测试集进行预测,每一个阶段的预测准确率都将计入第一轮实操赛的总成绩。

· 第一阶段提供10万条训练数据,预测2万条。时间:8月20日00:00—9月5日23:59;
· 第二阶段提供12~15万条训练数据,预测3万条。时间:9月6日00:00—9月21日23:59;
· 第三阶段提供12~15万条训练数据,预测3万条。时间:9月22日00:00—10月8日23:59。code

建议选手在考虑准确率的同时,须要考虑计算效率(运算时间),计算效率将做为第三轮答辩赛的其中一个评分指标。最终总决赛评委会根据实操赛、理论赛成绩以及现场答辩的表现对选手进行综合评分。

4
评分标准blog

大赛平台将自动计算每个阶段测试数据集中预测分类的准确率。

  本次采用宏平均值(Macro-averaging)做为各阶段的评价指标。

  宏平均(Macro-averaging),是先对每个类统计指标值(F1-Score),而后再对全部类求加权(Qi=各种型样本量占比)平均值。


  在第一轮实操赛的三个阶段,将依据参赛队伍的预测准确率(宏平均值)进行排名,准确率越高,则排名越靠前。参赛选手能够不断优化模型,经过平台提交结果,天天最多提交3次。

· 第一轮实操赛最终总得分规则以下:
实操赛总排名按照以下公式计算:

(第一阶段预测准确率30%+第二阶段预测准确率35%+第三阶段预测准确率*35%)

实操赛标准分 = 100-(100*P1-50)/N1,P1为选手在实操赛的综合排名,N1为参加实操赛的选手人数。

5
竞赛结果提交
请选手利用创建的模型对每阶段提供的预测数据集中的地块植被类型(BD列)

进行预测(7类),预测结果按以下格式保存成CSV格式提交。

预测结果(1/2/3/4/5/6/7)

预测结果(1/2/3/4/5/6/7)

预测结果(1/2/3/4/5/6/7)

......

预测结果(1/2/3/4/5/6/7)

相关文章
相关标签/搜索