大数据等最核心的关键技术：32个算法

时间 2019-11-13

标签数据核心关键技术算法繁體版

原文原文链接

大数据等最核心的关键技术：32个算法

奥地利符号计算研究所（Research Institute for Symbolic Computation，简称RISC）的Christoph Koutschan博士在本身的页面上发布了一篇文章，提到他作了一个调查，参与者大多数是计算机科学家，他请这些科学家投票选出最重要的算法，如下是此次调查的结果，按照英文名称字母顺序排序。算法

一、A* 搜索算法——图形搜索算法，从给定起点到给定终点计算出路径。其中使用了一种启发式的估算，为每一个节点估算经过该节点的最佳路径，并以之为各个地点排定次序。算法以获得的次序访问这些节点。所以，A*搜索算法是最佳优先搜索的范例。数组

二、集束搜索（又名定向搜索，Beam Search）——最佳优先搜索算法的优化。使用启发式函数评估它检查的每一个节点的能力。不过，集束搜索只能在每一个深度中发现最前面的m个最符合条件的节点，m是固定数字——集束的宽度。安全

三、二分查找（Binary Search）——在线性数组中找特定值的算法，每一个步骤去掉一半不符合要求的数据。网络

四、分支界定算法（Branch and Bound）——在多种最优化问题中寻找特定最优化解决方案的算法，特别是针对离散、组合的最优化。数据结构

五、Buchberger算法——一种数学算法，可将其视为针对单变量最大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。架构

六、数据压缩——采起特定编码方案，使用更少的字节数（或是其余信息承载单元）对信息编码的过程，又叫来源编码。dom

七、Diffie-Hellman密钥交换算法——一种加密协议，容许双方在事先不了解对方的状况下，在不安全的通讯信道中，共同创建共享密钥。该密钥之后可与一个对称密码一块儿，加密后续通信。ide

八、Dijkstra算法——针对没有负值权重边的有向图，计算其中的单一块儿点最短算法。函数

九、离散微分算法（Discrete differentiation）。post

十、动态规划算法（Dynamic Programming）——展现互相覆盖的子问题和最优子架构算法

十一、欧几里得算法（Euclidean algorithm）——计算两个整数的最大公约数。最古老的算法之一，出如今公元前300前欧几里得的《几何本来》。

十二、指望-最大算法（Expectation-maximization algorithm，又名EM-Training）——在统计计算中，指望-最大算法在几率模型中寻找可能性最大的参数估算值，其中模型依赖于未发现的潜在变量。EM在两个步骤中交替计算，第一步是计算指望，利用对隐藏变量的现有估计值，计算其最大可能估计值；第二步是最大化，最大化在第一步上求得的最大可能值来计算参数的值。

1三、快速傅里叶变换（Fast Fourier transform，FFT）——计算离散的傅里叶变换（DFT）及其反转。该算法应用范围很广，从数字信号处理到解决偏微分方程，到快速计算大整数乘积。

1四、梯度降低（Gradient descent）——一种数学上的最优化算法。

1五、哈希算法（Hashing）。

1六、堆排序（Heaps）。

1七、Karatsuba乘法——须要完成上千位整数的乘法的系统中使用，好比计算机代数系统和大数程序库，若是使用长乘法，速度太慢。该算法发现于1962年。

1八、LLL算法（Lenstra-Lenstra-Lovasz lattice reduction）——以格规约（lattice）基数为输入，输出短正交向量基数。LLL算法在如下公共密钥加密方法中有大量使用：背包加密系统（knapsack）、有特定设置的RSA加密等等。

1九、最大流量算法（Maximum flow）——该算法试图从一个流量网络中找到最大的流。它优点被定义为找到这样一个流的值。最大流问题能够看做更复杂的网络流问题的特定状况。最大流与网络中的界面有关，这就是最大流-最小截定理（Max-flow min-cut theorem）。Ford-Fulkerson 能找到一个流网络中的最大流。

20、合并排序（Merge Sort）。

2一、牛顿法（Newton's method）——求非线性方程（组）零点的一种重要的迭代法。

2二、Q-learning学习算法——这是一种经过学习动做值函数（action-value function）完成的强化学习算法，函数采起在给定状态的给定动做，并计算出指望的效用价值，在此后遵循固定的策略。Q-leanring的优点是，在不须要环境模型的状况下，能够对比可采纳行动的指望效用。

2三、两次筛法（Quadratic Sieve）——现代整数因子分解算法，在实践中，是目前已知第二快的此类算法（仅次于数域筛法Number Field Sieve）。对于110位如下的十位整数，它还是最快的，并且都认为它比数域筛法更简单。

2四、RANSAC——是“RANdom SAmple Consensus”的缩写。该算法根据一系列观察获得的数据，数据中包含异常值，估算一个数学模型的参数值。其基本假设是：数据包含非异化值，也就是可以经过某些模型参数解释的值，异化值就是那些不符合模型的数据点。

2五、RSA——公钥加密算法。首个适用于以签名做为加密的算法。RSA在电商行业中仍大规模使用，你们也相信它有足够安全长度的公钥。

2六、Schönhage-Strassen算法——在数学中，Schönhage-Strassen算法是用来完成大整数的乘法的快速渐近算法。其算法复杂度为：O(N log(N) log(log(N)))，该算法使用了傅里叶变换。

2七、单纯型算法（Simplex Algorithm）——在数学的优化理论中，单纯型算法是经常使用的技术，用来找到线性规划问题的数值解。线性规划问题包括在一组实变量上的一系列线性不等式组，以及一个等待最大化（或最小化）的固定线性函数。

2八、奇异值分解（Singular value decomposition，简称SVD）——在线性代数中，SVD是重要的实数或复数矩阵的分解方法，在信号处理和统计中有多种应用，好比计算矩阵的伪逆矩阵（以求解最小二乘法问题）、解决超定线性系统（overdetermined linear systems）、矩阵逼近、数值天气预报等等。

2九、求解线性方程组（Solving a system of linear equations）——线性方程组是数学中最古老的问题，它们有不少应用，好比在数字信号处理、线性规划中的估算和预测、数值分析中的非线性问题逼近等等。求解线性方程组，可使用高斯—约当消去法（Gauss-Jordan elimination），或是柯列斯基分解（ Cholesky decomposition）。

30、Strukturtensor算法——应用于模式识别领域，为全部像素找出一种计算方法，看看该像素是否处于同质区域（ homogenous region），看看它是否属于边缘，仍是是一个顶点。

3一、合并查找算法（Union-find）——给定一组元素，该算法经常用来把这些元素分为多个分离的、彼此不重合的组。不相交集（disjoint-set）的数据结构能够跟踪这样的切分方法。合并查找算法能够在此种数据结构上完成两个有用的操做：

查找：判断某特定元素属于哪一个组。
合并：联合或合并两个组为一个组。

3二、维特比算法（Viterbi algorithm）——寻找隐藏状态最有可能序列的动态规划算法，这种序列被称为维特比路径，其结果是一系列能够观察到的事件，特别是在隐藏的Markov模型中。

以上就是Christoph博士对于最重要的算法的调查结果。大家熟悉哪些算法？又有哪些算法是大家常用的？