小生今年研二,目前主要从事软件工程数据挖掘与分析。以前一直苦于找不到一个从数据预处理、数据分析、数据可视化和软件建模的统一平台。所以,小生展转反辙学习了java,R语言,python,scala等等。最后突然发现python正是小生苦苦寻觅的“稀世珍宝”。在这里主要总结利用python分析数据的一些工具包和相关资料,还望各位指正共同进步。html
主要的工具包:java
numpy: http://www.numpy.org/ 数组和矢量计算库python
scipy: www.scipy.org 数学计算库linux
pandas: http://pandas.pydata.org/ 数据处理与挖掘库git
matplotlib: matplotlib.org 数据可视化工具库github
scikit-learn: http://scikit-learn.org/stable/ 机器学习库web
snownlp: https://pypi.python.org/pypi/snownlp/0.11.1 中文文本处理库apache
nltk: http://www.nltk.org/ 英文文本处理flask
flask:http://flask.pocoo.org/ python web轻便的开发框架windows
networkx: http://networkx.github.io/ python网络关系画图
这些库安装起来比较麻烦,它们的依赖库有不少,须要一一安装。所以,小生建议直接安装一个python解决方案包:https://www.enthought.com/。它支持各类操做系统(windows,linux,Mac OS等等),安装起来特别简单,此处再也不累赘。
pyspark: http://spark.apache.org/docs/latest/api/python/pyspark.html 此外若是数据量真的特别大,单机没法知足您的需求的话,小生推荐使用pyspark工具包替您解忧。
固然除了上面的一些用得比较多的工具包以外,python大数据分析的相关软件包还有不少,请看下面这张脑图:
更多信息请参考网页:http://www.xmind.net/m/WvfC
相关书籍:
《数学之美与浪潮之巅》
《python cookbook》
《Building Machine Learning Systems with Python, 2nd Edition》
《Machine Learning in Python》
《Python For Data Analysis》
《Python Data Analysis》
《python天然语言处理》
欢迎你们补充资料,共同进步!谢谢~