Java之Normalizer(归一化)

文章目录

什么是归一化？
归一化的数学方法
Java归一化类Normalizer

什么是归一化？

归一化的概念在人工智能领域会普通看到，好比使用TensorFlow框架编码时，就会出现数据归一化的步骤或函数。
简单来讲，归一化就是对一组数据进行转换，使这组数据具有相同的格式或特性。举例来讲：一组任意的整数数组：1，2，400，5000，若是每一个数都除以这组元素中的最大值的话（这里是5000），则这个数组元素的值位于0-1之间，知足数学上几率的值的区间。
html

在AI中，对培训数据进行归一化的好处有：
１、保持合适的样本间距
以上面的示例来讲，　１和5000相差甚远，若是以坐标图绘制，则相差的太远，归一化以后就好多了。
二、平等对待多个特征向量。
有个例子示房子面积和房子的数量对房价的影响。面积的体量明显大于房子的数目，面积的因素很容易掩盖数量的影响。因此，归一化以后，更容易找到问题的解。

java

归一化的数学方法

归一化常见的数学方法有：api

线性归一化
也称做(0,1)标准化线性归一化， Min-Max标准化和离差标准化。是对原始数据进行线性变换，变换后的结果值在0到1之间。
公式是： X = (x-Min)/(Max-Min)

数组
均值标准差归一化
使用均值和标准差进行数据的标准化。转换后的数据符合正态分布，即均值为0，标准差为1。
公式是：X= x-均值/标准差

oracle
Sigmoid函数归一化框架

Java归一化类Normalizer

JDK中提供了一个归一化类：java.text.Normalizer ，和传统的归一化有点区别，这个类主要是对字符串编码的转换。从该类的包名也能够看出，这个类处理的是文本的数据。
为何会有编码的问题呢？这个还要从计算机的原理提及，计算机中使用1表示高电平，使用0表示低电平，简单点理解就是电源要么开，要么关。
ASCII码应该是最先熟悉的字符编码了，(American Standard Code for Information Interchange): 美国信息交换标准代码，其实用的是8个比特位（1）个字节来表示拉丁字母以及一些特殊字符，可是8个比特位最多能有256种表示方式（好比0100 0001 表示大写的A，换算成十进制是65，十六进制表示是0x41），可是汉字等有成千上百个，因而出现了 GB23十二、GBK、Unicode等编码。
Unicode(统一码、万国码、单一码)，是业界统一的标准，该标准更多两个字节来表示字符（最多能够表示65536个字符）。但这个标准又有不一样的版本，好比UTF-八、UTF-16和UTF-32。同一个字符可能出现不一样的编码方式。
好比 á （小写a上面有一个第四声），就有两种编码方式：

函数

编码方式1：00C1 ，一个字符表示
编码方式2：0041+0301 ，两个字符表示

虽然同是á ，可是在Java中进行字符串匹配是不相同的，因此须要进行归一化处理。示例代码以下：编码

public class NormalizerTest {
	// á
	@Test
	public void base() {
		// 归一化前
		String str1 = "\u00C1";
		System.out.println(str1);

		String str2 = "\u0041" + "\u0301";
		System.out.println(str2);

		// Assert.assertTrue(str1.equals(str2)); //失败

		// 归一化后
		str1 = Normalizer.normalize(str1, Normalizer.Form.NFC);
		str2 = Normalizer.normalize(str2, Normalizer.Form.NFC);
		System.out.println(str1);
		System.out.println(str2);
		Assert.assertTrue(str1.equals(str2)); // 成功
	}
}

normalize()方法有两个参数：人工智能

第一个参数是须要归一化的字符串spa
第二个参数是Unicode规范化的类型，该类型参数有四种：
1. NFD 典型分解
2. NFC 兼容性分解
3. NFKD 规范分解，规范组成
4. NFKC 兼容性分解，规范组成
NF 是normalization-type的简写。
类型细节参考：
http://www.unicode.org/reports/tr15/tr15-23.html

Java的Normalizer类的说明参考： https://docs.oracle.com/javase/7/docs/api/java/text/Normalizer.html