深刻理解Java：String

时间 2019-11-05

标签深刻理解 java string 栏目 Java 繁體版

原文原文链接

在讲解String以前，咱们先了解一下Java的内存结构。java

1、Java内存模型sql

按照官方的说法：Java 虚拟机具备一个堆，堆是运行时数据区域，全部类实例和数组的内存均今后处分配。数组

JVM主要管理两种类型内存：堆和非堆，堆内存（Heap Memory）是在 Java 虚拟机启动时建立，非堆内存(Non-heap Memory)是在JVM堆以外的内存。

简单来讲，非堆包含方法区、JVM内部处理或优化所需的内存（如 JITCompiler，Just-in-time Compiler，即时编译后的代码缓存）、每一个类结构（如运行时常数池、字段和方法数据）以及方法和构造方法的代码。缓存

Java的堆是一个运行时数据区,类的(对象从中分配空间。这些对象经过new、newarray、 anewarray和multianewarray等指令创建，它们不须要程序代码来显式的释放。堆是由垃圾回收来负责的，堆的优点是能够动态地分配内存大小，生存期也没必要事先告诉编译器，由于它是在运行时动态分配内存的，Java的垃圾收集器会自动收走这些再也不使用的数据。但缺点是，因为要在运行时动态分配内存，存取速度较慢。

　　栈的优点是，存取速度比堆要快，仅次于寄存器，栈数据能够共享。但缺点是，存在栈中的数据大小与生存期必须是肯定的，缺少灵活性。栈中主要存放一些基本类型的变量数据（int, short, long, byte, float, double, boolean, char）和对象句柄(引用)。安全

虚拟机必须为每一个被装载的类型维护一个常量池。常量池就是该类型所用到常量的一个有序集合，包括直接常量（string,integer和 floating point常量）和对其余类型，字段和方法的符号引用。

　　对于String常量，它的值是在常量池中的。而JVM中的常量池在内存当中是以表的形式存在的，对于String类型，有一张固定长度的CONSTANT_String_info表用来存储文字字符串值，注意：该表只存储文字字符串值，不存储符号引用。说到这里，对常量池中的字符串值的存储位置应该有一个比较明了的理解了。在程序执行的时候,常量池会储存在Method Area,而不是堆中。常量池中保存着不少String对象; 而且能够被共享使用，所以它提升了效率多线程

具体关于JVM和内存等知识请参考：架构

JVM 基础知识并发

Java 内存模型及GC原理app

2、案例解析jvm

复制代码
复制代码
public static void main(String[] args) {
/**

情景一：字符串池
JAVA虚拟机(JVM)中存在着一个字符串池，其中保存着不少String对象;
而且能够被共享使用，所以它提升了效率。
因为String类是final的，它的值一经建立就不可改变。
字符串池由String类维护，咱们能够调用intern()方法来访问字符串池。
*/
String s1 = "abc";
//↑ 在字符串池建立了一个对象
String s2 = "abc";
//↑ 字符串pool已经存在对象“abc”(共享),因此建立0个对象，累计建立一个对象
System.out.println("s1 == s2 : "+(s1==s2));
//↑ true 指向同一个对象，
System.out.println("s1.equals(s2) : " + (s1.equals(s2)));
//↑ true 值相等
//↑------------------------------------------------------over
/**
情景二：关于new String("")

*/  
String s3 = new String("abc");  
//↑ 建立了两个对象，一个存放在字符串池中，一个存在与堆区中；  
//↑ 还有一个对象引用s3存放在栈中  
String s4 = new String("abc");  
//↑ 字符串池中已经存在“abc”对象，因此只在堆中建立了一个对象  
System.out.println("s3 == s4 : "+(s3==s4));  
//↑false   s3和s4栈区的地址不一样，指向堆区的不一样地址；  
System.out.println("s3.equals(s4) : "+(s3.equals(s4)));  
//↑true  s3和s4的值相同  
System.out.println("s1 == s3 : "+(s1==s3));  
//↑false 存放的地区多不一样，一个栈区，一个堆区  
System.out.println("s1.equals(s3) : "+(s1.equals(s3)));  
//↑true  值相同  
//↑------------------------------------------------------over  
/**

情景三：
因为常量的值在编译的时候就被肯定(优化)了。
在这里，"ab"和"cd"都是常量，所以变量str3的值在编译时就能够肯定。
这行代码编译后的效果等同于： String str3 = "abcd";
*/
String str1 = "ab" + "cd"; //1个对象
String str11 = "abcd";
System.out.println("str1 = str11 : "+ (str1 == str11));
//↑------------------------------------------------------over
/**
情景四：
局部变量str2,str3存储的是存储两个拘留字符串对象(intern字符串对象)的地址。
第三行代码原理(str2+str3)：
运行期JVM首先会在堆中建立一个StringBuilder类，
同时用str2指向的拘留字符串对象完成初始化，
而后调用append方法完成对str3所指向的拘留字符串的合并，
接着调用StringBuilder的toString()方法在堆中建立一个String对象，
最后将刚生成的String对象的堆地址存放在局部变量str3中。
而str5存储的是字符串池中"abcd"所对应的拘留字符串对象的地址。
str4与str5地址固然不同了。
内存中实际上有五个字符串对象：
三个拘留字符串对象、一个String对象和一个StringBuilder对象。
*/
String str2 = "ab"; //1个对象
String str3 = "cd"; //1个对象
String str4 = str2+str3;
String str5 = "abcd";
System.out.println("str4 = str5 : " + (str4==str5)); // false
//↑------------------------------------------------------over
/**
情景五：
JAVA编译器对string + 基本类型/常量是当成常量表达式直接求值来优化的。
运行期的两个string相加，会产生新的对象的，存储在堆(heap)中
*/
String str6 = "b";
String str7 = "a" + str6;
String str67 = "ab";
System.out.println("str7 = str67 : "+ (str7 == str67));
//↑str6为变量，在运行期才会被解析。
final String str8 = "b";
String str9 = "a" + str8;
String str89 = "ab";
System.out.println("str9 = str89 : "+ (str9 == str89));
//↑str8为常量变量，编译期会被优化
//↑------------------------------------------------------over
}
复制代码
复制代码

总结：

1.String类初始化后是不可变的(immutable)

这一说又要说不少，你们只要知道String的实例一旦生成就不会再改变了，好比说：String str=”kv”+”ill”+” “+”ans”; 就是有4个字符串常量，首先”kv”和”ill”生成了”kvill”存在内存中，而后”kvill”又和” ” 生成 “kvill “存在内存中，最后又和生成了”kvill ans”;并把这个字符串的地址赋给了str,就是由于String的”不可变”产生了不少临时变量，这也就是为何建议用StringBuffer的原因了，由于StringBuffer是可改变的。

　　下面是一些String相关的常见问题：

　　String中的final用法和理解
　　final StringBuffer a = new StringBuffer("111");
　　final StringBuffer b = new StringBuffer("222");
　　a=b;//此句编译不经过 final StringBuffer a = new StringBuffer("111");
　　a.append("222");// 编译经过

　　可见，final只对引用的"值"(即内存地址)有效，它迫使引用只能指向初始指向的那个对象，改变它的指向会致使编译期错误。至于它所指向的对象的变化，final是不负责的。

2.代码中的字符串常量在编译的过程当中收集并放在class文件的常量区中，如"123"、"123"+"456"等，含有变量的表达式不会收录，如"123"+a。

3.JVM在加载类的时候，根据常量区中的字符串生成常量池，每一个字符序列如"123"会生成一个实例放在常量池里，这个实例是不在堆里的，也不会被GC，这个实例的value属性从源码的构造函数看应该是用new建立数组置入123的，因此按个人理解此时value存放的字符数组地址是在堆里，若是有误的话欢迎你们指正。

4.使用String不必定建立对象

在执行到双引号包含字符串的语句时，如String a = "123"，JVM会先到常量池里查找，若是有的话返回常量池里的这个实例的引用，不然的话建立一个新实例并置入常量池里。若是是 String a = "123" + b (假设b是"456")，前半部分"123"仍是走常量池的路线，可是这个+操做符实际上是转换成[SringBuffer].Appad()来实现的，因此最终a获得是一个新的实例引用，并且a的value存放的是一个新申请的字符数组内存空间的地址(存放着"123456")，而此时"123456"在常量池中是未必存在的。

要注意: 咱们在使用诸如String str = "abc"；的格式定义类时，老是想固然地认为，建立了String类的对象str。担忧陷阱！对象可能并无被建立！而可能只是指向一个先前已经建立的对象。只有经过new()方法才能保证每次都建立一个新的对象

5.使用new String，必定建立对象

在执行String a = new String("123")的时候，首先走常量池的路线取到一个实例的引用，而后在堆上建立一个新的String实例，走如下构造函数给value属性赋值，而后把实例引用赋值给a：

复制代码
复制代码
public String(String original) {
int size = original.count;
char[] originalValue = original.value;
char[] v;
if (originalValue.length > size) {
// The array representing the String is bigger than the new
// String itself. Perhaps this constructor is being called
// in order to trim the baggage, so make a copy of the array.
int off = original.offset;
v = Arrays.copyOfRange(originalValue, off, off+size);
} else {
// The array representing the String is the same
// size as the String, so no point in making a copy.
v = originalValue;
}
this.offset = 0;
this.count = size;
this.value = v;
}
复制代码
复制代码
从中咱们能够看到，虽然是新建立了一个String的实例，可是value是等于常量池中的实例的value，便是说没有new一个新的字符数组来存放"123"。

若是是String a = new String("123"+b)的状况，首先看回第4点，"123"+b获得一个实例后，再按上面的构造函数执行。

6.String.intern()

String对象的实例调用intern方法后，可让JVM检查常量池，若是没有实例的value属性对应的字符串序列好比"123"(注意是检查字符串序列而不是检查实例自己)，就将本实例放入常量池，若是有当前实例的value属性对应的字符串序列"123"在常量池中存在，则返回常量池中"123"对应的实例的引用而不是当前实例的引用，即便当前实例的value也是"123"。

public native String intern();
存在于.class文件中的常量池，在运行期被JVM装载，而且能够扩充。String的 intern()方法就是扩充常量池的一个方法；当一个String实例str调用intern()方法时，Java 查找常量池中是否有相同Unicode的字符串常量，若是有，则返回其的引用，若是没有，则在常量池中增长一个Unicode等于str的字符串并返回它的引用；看示例就清楚了

复制代码
复制代码
public static void main(String[] args) {
String s0 = "kvill";
String s1 = new String("kvill");
String s2 = new String("kvill");
System.out.println( s0 == s1 ); //false
System.out.println( "**" );
s1.intern(); //虽然执行了s1.intern(),但它的返回值没有赋给s1
s2 = s2.intern(); //把常量池中"kvill"的引用赋给s2
System.out.println( s0 == s1); //flase
System.out.println( s0 == s1.intern() ); //true//说明s1.intern()返回的是常量池中"kvill"的引用
System.out.println( s0 == s2 ); //true
}
复制代码
复制代码
最后我再破除一个错误的理解：有人说，“使用 String.intern() 方法则能够将一个 String 类的保存到一个全局 String 表中，若是具备相同值的 Unicode 字符串已经在这个表中，那么该方法返回表中已有字符串的地址，若是在表中没有相同值的字符串，则将本身的地址注册到表中”若是我把他说的这个全局的 String 表理解为常量池的话，他的最后一句话，”若是在表中没有相同值的字符串，则将本身的地址注册到表中”是错的：

复制代码
复制代码
public static void main(String[] args) {
String s1 = new String("kvill");
String s2 = s1.intern();
System.out.println( s1 == s1.intern() ); //false
System.out.println( s1 + " " + s2 ); //kvill kvill
System.out.println( s2 == s1.intern() ); //true
}
复制代码
复制代码
在这个类中咱们没有声名一个”kvill”常量，因此常量池中一开始是没有”kvill”的，当咱们调用s1.intern()后就在常量池中新添加了一个”kvill”常量，原来的不在常量池中的”kvill”仍然存在，也就不是“将本身的地址注册到常量池中”了。

　　s1==s1.intern() 为false说明原来的”kvill”仍然存在；s2如今为常量池中”kvill”的地址，因此有s2==s1.intern()为true。

StringBuffer与StringBuilder的区别，它们的应用场景是什么？

jdk的实现中StringBuffer与StringBuilder都继承自AbstractStringBuilder，对于多线程的安全与非安全看到StringBuffer中方法前面的一堆synchronized就大概了解了。
这里随便讲讲AbstractStringBuilder的实现原理：咱们知道使用StringBuffer等无非就是为了提升java中字符串链接的效率，由于直接使用+进行字符串链接的话，jvm会建立多个String对象，所以形成必定的开销。AbstractStringBuilder中采用一个char数组来保存须要append的字符串，char数组有一个初始大小，当append的字符串长度超过当前char数组容量时，则对char数组进行动态扩展，也即从新申请一段更大的内存空间，而后将当前char数组拷贝到新的位置，由于从新分配内存并拷贝的开销比较大，因此每次从新申请内存空间都是采用申请大于当前须要的内存空间的方式，这里是2倍

【
StringBuffer 始于 JDK 1.0
StringBuilder 始于 JDK 1.5

从 JDK 1.5 开始，带有字符串变量的链接操做（+），JVM 内部采用的是 
StringBuilder 来实现的，而以前这个操做是采用 StringBuffer 实现的。

】

咱们经过一个简单的程序来看其执行的流程：
复制代码
复制代码
public class Buffer {
public static void main(String[] args) {
String s1 = "aaaaa";
String s2 = "bbbbb";
String r = null;
int i = 3694;
r = s1 + i + s2;

for(int j=0;i<10;j++){  
            r+="23124";  
        }  
 }

}
复制代码
复制代码
使用命令javap -c Buffer查看其字节码实现：

将清单1和清单2对应起来看，清单2的字节码中ldc指令即从常量池中加载“aaaaa”字符串到栈顶，istore_1将“aaaaa”存到变量1中，后面的同样，sipush是将一个短整型常量值(-32768~32767)推送至栈顶，这里是常量“3694”，更多的Java指令集请查看另外一篇文章“Java指令集”。

让咱们直接看到13,13~17是new了一个StringBuffer对象并调用其初始化方法，20~21则是先经过aload_1将变量1压到栈顶，前面说过变量1放的就是字符串常量“aaaaa”，接着经过指令invokevirtual调用StringBuffer的append方法将“aaaaa”拼接起来，后续的24~30同理。最后在33调用StringBuffer的toString函数得到String结果并经过astore存到变量3中。

看到这里可能有人会说，“既然JVM内部采用了StringBuffer来链接字符串了，那么咱们本身就不用用StringBuffer，直接用”+“就好了吧！“。是么？固然不是了。俗话说”存在既有它的理由”，让咱们继续看后面的循环对应的字节码。

37~42都是进入for循环前的一些准备工做，37,38是将j置为1。44这里经过if_icmpge将j与10进行比较，若是j大于10则直接跳转到73，也即return语句退出函数；不然进入循环，也即47~66的字节码。这里咱们只需看47到51就知道为何咱们要在代码中本身使用StringBuffer来处理字符串的链接了，由于每次执行“+”操做时jvm都要new一个StringBuffer对象来处理字符串的链接，这在涉及不少的字符串链接操做时开销会很大。欢迎工做一到五年的Java工程师朋友们加入Java群： 891219277群内提供免费的Java架构学习资料（里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码，MyBatis，Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料）合理利用本身每一分每一秒的时间来学习提高本身，不要再用"没有时间“来掩饰本身思想上的懒惰！趁年轻，使劲拼，给将来的本身一个交代！