如何解决机器学习中的数据不平衡问题

越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难,数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 一  数据不平衡 在学术研究和教学中,很多算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。 可以看到大部分微博的总互动数(被转发,评论和点赞数量)在0-5
相关文章
相关标签/搜索