工具&符号

持续更新中......java

一、RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种经过网络从远程计算机程序上请求服务,而不须要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通讯程序之间携带信息数据。在OSI网络通讯模型中,RPC跨越了传输层应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。linux

 

二、AWK是一个优良的文本处理工具,LinuxUnix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操做语言(其名称得自于它的创始人阿尔佛雷德·艾侯、彼得·温伯格和布莱恩·柯林汉姓氏的首个字母)的最大功能取决于一我的所拥有的知识。awk通过改进生成的新的版本nawk,gawk,如今默认linux系统下平常使用的是gawk,用命令能够查看正在应用的awk的来源(ls -l /bin/awk )算法

 

三、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。编程

  用户能够在不了解分布式底层细节的状况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个 分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高 容错性的特色,而且设计用来部署在低廉的(low-cost)硬件上;并且它提供高吞吐量(high throughput)来访问 应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,能够以流的形式访(streaming access)文件系统中的数据。
  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
 
四、 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具备的优势;但不一样于MapReduce的是Job中间输出结果能够保存在内存中,从而再也不须要读写HDFS,所以Spark能更好地适用于数据挖掘与机器学习等须要迭代的MapReduce的算法。
 
五、 JNI是Java Native Interface的缩写,它提供了若干的 API实现了Java和其余语言的通讯(主要是 C& C++)。从Java1.1开始,JNI标准成为java平台的一部分,它容许Java代码和其余语言写的代码进行交互。JNI一开始是为了本地已 编译语言,尤为是C和C++而设计的,可是它并不妨碍你使用其余编程语言,只要调用约定受支持就能够了。使用java与本地已编译的代码 交互,一般会丧失平台 可移植性。可是,有些状况下这样作是能够接受的,甚至是必须的。例如,使用一些旧的库,与硬件、操做系统进行交互,或者为了提升程序的性能。JNI标准至少要保证 本地代码能工做在任何Java  虚拟机环境下。
 
六、 SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS、CVS,它采用了分支管理系统,它的设计目标就是取代CVS。互联网上不少版本控制服务已从CVS迁移到Subversion。
 
七、 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层 贝叶斯几率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,咱们认为一篇文章的每一个词都是经过“以必定几率选择了某个主题,并从这个主题中以必定几率选择某个词语”这样一个过程获得。
  LDA是一种非监督机器学习技术,能够用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。可是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档表明了一些主题所构成的一个几率分布,而每个主题又表明了不少单词所构成的一个几率分布。
 
八、eclipse 官网下载各类eclipse版本地址
相关文章
相关标签/搜索