工具&符号

时间 2019-11-29

标签工具符号繁體版

原文原文链接

持续更新中......java

一、RPC（Remote Procedure Call Protocol）——远程过程调用协议，它是一种经过网络从远程计算机程序上请求服务，而不须要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通讯程序之间携带信息数据。在OSI网络通讯模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。linux

二、AWK是一个优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操做语言（其名称得自于它的创始人阿尔佛雷德·艾侯、彼得·温伯格和布莱恩·柯林汉姓氏的首个字母）的最大功能取决于一我的所拥有的知识。awk通过改进生成的新的版本nawk,gawk，如今默认linux系统下平常使用的是gawk，用命令能够查看正在应用的awk的来源（ls -l /bin/awk ）算法

三、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。编程

　　用户能够在不了解分布式底层细节的状况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特色，而且设计用来部署在低廉的（low-cost）硬件上；并且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，能够以流的形式访（streaming access）文件系统中的数据。

　　Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

四、 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具备的优势；但不一样于MapReduce的是Job中间输出结果能够保存在内存中，从而再也不须要读写HDFS，所以Spark能更好地适用于数据挖掘与机器学习等须要迭代的MapReduce的算法。

五、 JNI是Java Native Interface的缩写，它提供了若干的 API实现了Java和其余语言的通讯（主要是 C& C++）。从Java1.1开始，JNI标准成为java平台的一部分，它容许Java代码和其余语言写的代码进行交互。JNI一开始是为了本地已编译语言，尤为是C和C++而设计的，可是它并不妨碍你使用其余编程语言，只要调用约定受支持就能够了。使用java与本地已编译的代码交互，一般会丧失平台可移植性。可是，有些状况下这样作是能够接受的，甚至是必须的。例如，使用一些旧的库，与硬件、操做系统进行交互，或者为了提升程序的性能。JNI标准至少要保证本地代码能工做在任何Java 虚拟机环境下。

六、 SVN是Subversion的简称，是一个开放源代码的版本控制系统，相较于RCS、CVS，它采用了分支管理系统，它的设计目标就是取代CVS。互联网上不少版本控制服务已从CVS迁移到Subversion。

七、 LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯几率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，咱们认为一篇文章的每一个词都是经过“以必定几率选择了某个主题，并从这个主题中以必定几率选择某个词语”这样一个过程获得。

　　LDA是一种非监督机器学习技术，能够用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。可是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档表明了一些主题所构成的一个几率分布，而每个主题又表明了不少单词所构成的一个几率分布。

八、eclipse 官网下载各类eclipse版本地址

http://www.eclipse.org/downloads/packages/