1.项目的方向很重要,在项目开始之初就应该作好设计,而不是将但愿寄托于别人已经作好的开源项目上,要本身作好系统设计,不能老想着直接用外部成型的项目,最多看看他人的逻辑,而不是说所有拿来。这点最为重要。前期应该多作background reading,本身作好系统架构。架构
2.作项目的时候,开始启动项目的时候要肯定好架构的应用场景,好比spark,hadoop确实很火,可是用它们来跑deeplearning真的很慢,在最开始作的时候,就要发现这个问题,及时调整方向就行了,而不能等到最后还在死扛着,整个项目就毁了。因此应该考虑使用spark和hadoop来进行个性化推荐或者舆情分析的。工具
3.队友的选择很重要,本身在项目之初高估了本身的能力,也没有用上队友的能力,致使最后这个项目只能死扛了,当时其实没有必要,你们都没有得到到东西这样。而本身一我的也不想作了。oop
在作项目过程当中的感悟:性能
1.不是什么东西都是能够改改就能够用的,或者虽然能够跑了,可是性能并很差,但这反应的是个人基本工很差,好比我没有彻底弄清楚spark怎么调优,虽然deeplearn4j是能够在spark上使用的, 可是它们的example就不合适,也许对于模型训练最好的仍是在一台性能强大的机器上 去完成,而且虽然deeplearn也许须要大量的数据集,可是我选择的数据只是很小的数据,更加不该该放在集群上跑了。不过我本身也有一个疑惑,deeplearning通常的训练数据集是有多大了?spa
2.对于spark,我发现仍是大量数据才能有用,也许是流数据才行了。好比,其余组主要作的是streaming的推荐以及舆情分析。或者商品推荐也是一个应用方向。据说还有的是图像处理方向,好比类似图片的推荐等。scala
目前本身想要立的flag:设计
1.作一个系统,涉及到舆情分析的:初步设想子系统分布:获取tweet数据,处理数据,----使用deeplearning或者NLP模型进行预测结果,将这一段时间的结果进行统计而且展现。图片
---- 这里也可使用数据进行云图,将关键字列出来。hadoop
这个系统还有一个模型训练的问题,我目前的想法是使用现有的论文进行参考,而后实现一个。spark
2.在作一个新闻推荐系统,若是新闻推荐系统没有数据源,那仍是参考tweet数据,根据我的的tweet来classification,而后进行tweet的消息推送,这个也能够扩展到微博的使用上。
但愿,后面能够用两个星期来完成这两个项目,我的项目,因此还涉及到网页的展现。dashboard上。
另外就是这些项目是否是能够考虑使用scala来完成。不过工具的使用仍是要考虑性能,个人能力,而不是为了使用而使用。