分布式建树(MapReduce)

    公司做广告业务, 为了对流量切分,提升广告效益,结合自身业务用C++写了一个类决策树模型(决策树变种简化版),开发完成后该模型在提升广告效果上取得不错成效,但随着feature不断增加, 建树原始记录快速增长,单机内存建树遇到瓶颈,因建树及分枝裁剪都在内存进行,当数据量超过5000W行后出现内存不足,同时建树时间也急剧延长。      公司本身有hadoop集群, 在仔细分析c++建树代码
相关文章
相关标签/搜索