最近作项目做业的一点点感触

时间 2019-12-11

标签近作项目一点点感触繁體版

原文原文链接

1.项目的方向很重要，在项目开始之初就应该作好设计，而不是将但愿寄托于别人已经作好的开源项目上，要本身作好系统设计，不能老想着直接用外部成型的项目，最多看看他人的逻辑，而不是说所有拿来。这点最为重要。前期应该多作background reading，本身作好系统架构。架构

2.作项目的时候，开始启动项目的时候要肯定好架构的应用场景，好比spark，hadoop确实很火，可是用它们来跑deeplearning真的很慢，在最开始作的时候，就要发现这个问题，及时调整方向就行了，而不能等到最后还在死扛着，整个项目就毁了。因此应该考虑使用spark和hadoop来进行个性化推荐或者舆情分析的。工具

3.队友的选择很重要，本身在项目之初高估了本身的能力，也没有用上队友的能力，致使最后这个项目只能死扛了，当时其实没有必要，你们都没有得到到东西这样。而本身一我的也不想作了。oop

在作项目过程当中的感悟：性能

1.不是什么东西都是能够改改就能够用的，或者虽然能够跑了，可是性能并很差，但这反应的是个人基本工很差，好比我没有彻底弄清楚spark怎么调优，虽然deeplearn4j是能够在spark上使用的，可是它们的example就不合适，也许对于模型训练最好的仍是在一台性能强大的机器上去完成，而且虽然deeplearn也许须要大量的数据集，可是我选择的数据只是很小的数据，更加不该该放在集群上跑了。不过我本身也有一个疑惑，deeplearning通常的训练数据集是有多大了？spa

2.对于spark，我发现仍是大量数据才能有用，也许是流数据才行了。好比，其余组主要作的是streaming的推荐以及舆情分析。或者商品推荐也是一个应用方向。据说还有的是图像处理方向，好比类似图片的推荐等。scala

目前本身想要立的flag：设计

1.作一个系统，涉及到舆情分析的：初步设想子系统分布：获取tweet数据，处理数据，----使用deeplearning或者NLP模型进行预测结果，将这一段时间的结果进行统计而且展现。图片

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　---- 这里也可使用数据进行云图，将关键字列出来。hadoop

　这个系统还有一个模型训练的问题，我目前的想法是使用现有的论文进行参考，而后实现一个。spark

2.在作一个新闻推荐系统，若是新闻推荐系统没有数据源，那仍是参考tweet数据，根据我的的tweet来classification，而后进行tweet的消息推送，这个也能够扩展到微博的使用上。

但愿，后面能够用两个星期来完成这两个项目，我的项目，因此还涉及到网页的展现。dashboard上。

另外就是这些项目是否是能够考虑使用scala来完成。不过工具的使用仍是要考虑性能，个人能力，而不是为了使用而使用。