Java之Normalizer(归一化)

什么是归一化?

归一化的概念在人工智能领域会普通看到, 好比使用TensorFlow框架编码时,就会出现数据归一化的步骤或函数。
简单来讲, 归一化就是对一组数据进行转换,使这组数据具有相同的格式或特性。举例来讲: 一组任意的整数数组:1,2,400,5000, 若是每一个数都除以这组元素中的最大值的话(这里是5000),则这个数组元素的值位于0-1之间,知足数学上几率的值的区间。
html

在AI中,对培训数据进行归一化的好处有:
1、保持合适的样本间距
以上面的示例来讲, 1和5000相差甚远,若是以坐标图绘制,则相差的太远, 归一化以后就好多了。
二、平等对待多个特征向量。
有个例子示房子面积和房子的数量对房价的影响。面积的体量明显大于房子的数目,面积的因素很容易掩盖数量的影响。因此,归一化以后,更容易找到问题的解。



java

归一化的数学方法

归一化常见的数学方法有:api

  • 线性归一化
    也称做(0,1)标准化 线性归一化 , Min-Max标准化和离差标准化。是对原始数据进行线性变换,变换后的结果值在0到1之间。
    公式是: X = (x-Min)/(Max-Min)

    数组

  • 均值标准差归一化
    使用均值和标准差进行数据的标准化。转换后的数据符合正态分布, 即均值为0, 标准差为1。
    公式是:X= x-均值/标准差

    oracle

  • Sigmoid函数归一化框架

Java归一化类Normalizer

JDK中提供了一个归一化类:java.text.Normalizer , 和传统的归一化有点区别, 这个类主要是对字符串编码的转换。从该类的包名也能够看出,这个类处理的是文本的数据。
为何会有编码的问题呢? 这个还要从计算机的原理提及, 计算机中使用1表示高电平,使用0表示低电平,简单点理解就是电源要么开,要么关。
ASCII码应该是最先熟悉的字符编码了,(American Standard Code for Information Interchange): 美国信息交换标准代码,其实用的是8个比特位(1)个字节来表示拉丁字母以及一些特殊字符,可是8个比特位最多能有256种表示方式(好比0100 0001 表示大写的A, 换算成十进制是65,十六进制表示是0x41),可是汉字等有成千上百个,因而出现了 GB23十二、GBK、Unicode等编码。
Unicode(统一码、万国码、单一码),是业界统一的标准,该标准更多两个字节来表示字符(最多能够表示65536个字符)。 但这个标准又有不一样的版本,好比UTF-八、UTF-16和UTF-32。同一个字符可能出现不一样的编码方式。
好比 á (小写a上面有一个第四声),就有两种编码方式:



函数

  • 编码方式1:00C1 , 一个字符表示
  • 编码方式2:0041+0301 , 两个字符表示

虽然同是á , 可是在Java中进行字符串匹配是不相同的, 因此须要进行归一化处理。 示例代码以下:编码

public class NormalizerTest {
	// á
	@Test
	public void base() {
		// 归一化前
		String str1 = "\u00C1";
		System.out.println(str1);

		String str2 = "\u0041" + "\u0301";
		System.out.println(str2);

		// Assert.assertTrue(str1.equals(str2)); //失败

		// 归一化后
		str1 = Normalizer.normalize(str1, Normalizer.Form.NFC);
		str2 = Normalizer.normalize(str2, Normalizer.Form.NFC);
		System.out.println(str1);
		System.out.println(str2);
		Assert.assertTrue(str1.equals(str2)); // 成功
	}
}

normalize()方法有两个参数:人工智能

  • 第一个参数是须要归一化的字符串spa

  • 第二个参数是Unicode规范化的类型,该类型参数有四种:

    1. NFD 典型分解
    2. NFC 兼容性分解
    3. NFKD 规范分解,规范组成
    4. NFKC 兼容性分解,规范组成

    NF 是normalization-type的简写。
    类型细节参考:
    http://www.unicode.org/reports/tr15/tr15-23.html

Java的Normalizer类的说明参考: https://docs.oracle.com/javase/7/docs/api/java/text/Normalizer.html

相关文章
相关标签/搜索