python小数据池，代码块的深刻剖析。

时间 2019-12-08

原文原文链接

一，什么是代码块。

根据官网提示咱们能够获知：html

根据提示咱们从官方文档找到了这样的说法：
A Python program is constructed from code blocks. A block is a piece of Python program text that is executed as a unit. The following are blocks: a module, a function body, and a class definition. Each command typed interactively is a block. A script file (a file given as standard input to the interpreter or specified as a command line argument to the interpreter) is a code block. A script command (a command specified on the interpreter command line with the ‘-c‘ option) is a code block. The string argument passed to the built-in functions eval() and exec() is a code block.
A code block is executed in an execution frame. A frame contains some administrative information (used for debugging) and determines where and how execution continues after the code block’s execution has completed.

View Code

上面的主要意思是：python

Python程序是由代码块构造的。块是一个python程序的文本，他是做为一个单元执行的。缓存

代码块：一个模块，一个函数，一个类，一个文件等都是一个代码块。ide

而做为交互方式输入的每一个命令都是一个代码块。函数

什么叫交互方式？就是我们在cmd中进入Python解释器里面，每一行代码都是一个代码块，例如：性能

而对于一个文件中的两个函数，也分别是两个不一样的代码块：优化

OK，那么如今咱们了解了代码块，这和小数据池有什么关系呢？且听下面分析。ui

二，id，is，==

在Python中，id是什么？id是内存地址，好比你利用id()内置函数去查询一个数据的内存地址：this

name = '太白'
print(id(name))  # 1585831283968

那么 is 是什么？ == 又是什么？spa

== 是比较的两边的数值是否相等，而 is 是比较的两边的内存地址是否相等。若是内存地址相等，那么这两边实际上是指向同一个内存地址。

能够说若是内存地址相同，那么值确定相同，可是若是值相同，内存地址不必定相同。

三，小数据池

小数据池，也称为小整数缓存机制，或者称为驻留机制等等，博主认为，只要你在网上查到的这些名字其实说的都是一个意思，叫什么因人而异。

那么到底什么是小数据池？他有什么做用呢？

大前提：小数据池，只针对，整数，字符串，bool值。

官方对于整数，字符串的小数据池是这么说的:

对于整数，Python官方文档中这么说：
The current implementation keeps an array of integer objects for all integers between -5 and 256, when you create an int in that range you actually just get back a reference to the existing object. So it should be possible to change the value of 1. I suspect the behaviour of Python in this case is undefined.

对于字符串：
Incomputer science, string interning is a method of storing only onecopy of each distinct string value, which must be immutable. Interning strings makes some stringprocessing tasks more time- or space-efficient at the cost of requiring moretime when the string is created or interned. The distinct values are stored ina string intern pool. –引自维基百科

View Code

来，我给大家翻译并汇总一下，这个表达的意思就是：

Python自动将-5~256的整数进行了缓存，当你将这些整数赋值给变量时，并不会从新建立对象，而是使用已经建立好的缓存对象。

python会将必定规则的字符串在字符串驻留池中，建立一份，当你将这些字符串赋值给变量时，并不会从新建立对象，而是使用在字符串驻留池中建立好的对象。

其实，不管是缓存仍是字符串驻留池，都是python作的一个优化，就是将~5-256的整数，和必定规则的字符串，放在一个‘池’（容器，或者字典）中，不管程序中那些变量指向这些范围内的整数或者字符串，那么他直接在这个‘池’中引用，言外之意，就是内存中之建立一个。

优势：可以提升一些字符串，整数处理人物在时间和空间上的性能；须要值相同的字符串，整数的时候，直接从‘池’里拿来用，避免频繁的建立和销毁，提高效率，节约内存。

缺点：在‘池’中建立或插入字符串，整数时，会花费更多的时间。

int：那么你们都知道对于整数来讲，小数据池的范围是-5~256 ，若是多个变量都是指向同一个（在这个范围内的）数字，他们在内存中指向的都是一个内存地址。

那么对于字符串的规定呢？

str:字符串要从下面这几个大方向讨论：

1,字符串的长度为0或者1，默认都采用了驻留机制（小数据池）。

2,字符串的长度>1,且只含有大小写字母，数字，下划线时，才会默认驻留。

3,用乘法获得的字符串，分两种状况。

　　3.1 乘数为1时：

仅含大小写字母，数字，下划线，默认驻留。

含其余字符，长度<=1,默认驻留。

含其余字符，长度>1,默认驻留。

　　3.2 乘数>=2时：

仅含大小写字母，数字，下划线，总长度<=20,默认驻留。

4，指定驻留。

from sys import intern
a = intern('hello!@'*20)
b = intern('hello!@'*20)
print(a is b)
#指定驻留是你能够指定任意的字符串加入到小数据池中，让其只在内存中建立一个对象，多个变量都是指向这一个字符串。

知足以上字符串的规则时，就符合小数据池的概念。

bool值就是True，False，不管你建立多少个变量指向True，False，那么他在内存中只存在一个。

看一下用了小数据池（驻留机制）的效率有多高：

显而易见，节省大量内存在字符串比较时，非驻留比较效率o(n)，驻留时比较效率o(1)。

好，那么如今我们知道了小数据池的概念，知道了代码块，那么还有什么问题呢？有！有！有！

下面就是我们的关键部分，也是这篇博客的高潮部分，瞪大眼睛看~

四，代码块与小数据池的关系。

一样一段代码，为何在交互方式中执行，和经过python代码的文件执行结果不一样呢？

# pycharm 经过运行文件的方式执行下列代码：
i1 = 1000
i2 = 1000
print(i1 is i2)  # 结果为True

经过交互方式中执行下面代码：
>>> i1 = 1000
>>> i2 = 1000
>>> print(i1 is i2)
False

结果为何不一样呢？难道是解释器出问题，仍是pycharm软件出问题了？？？ NONONO，Too Young Too Simple!

这是由于代码块内的缓存机制，和代码块与代码块之间的缓存机制不一样！

　　Python在执行同一个代码块的初始化对象的命令时，会检查是否其值是否已经存在，若是存在，会将其重用。换句话说：执行同一个代码块时，遇到初始化对象的命令时，他会将初始化的这个变量与值存储在一个字典中，在遇到新的变量时，会先在字典中查询记录，若是有一样的记录那么它会重复使用这个字典中的以前的这个值。因此在你给出的例子中，文件执行时（同一个代码块）会把i一、i2两个变量指向同一个对象。

　　若是是不一样的代码块，他就会看这个两个变量是不是知足小数据池的数据，若是是知足小数据池的数据则会指向同一个地址。因此：i一、i2赋值语句分别被看成两个代码块执行，可是他们不知足小数据池的数据因此会获得两个不一样的对象，于是is判断返回False。

更多验证：

# 虽然在同一个文件中，可是是不一样的代码块，不知足小数据池（驻存机制），则指向两个不一样的地址。
def func():
    i1 = 1000
    print(id(i1))  # 2288555806672

def func2():
    i1 = 1000
    print(id(i1))  # 2288557317392

func()
func2()

最后，在深刻一点，对于同一个代码块的变量复用的问题，只能针对于数字，字符串，bool值，而对于其余数据类型是不成立的。

# 同一个代码块下，数字，字符串，bool值的复用成立。
a1 = 1000
a2 = 1000
print(id(a1),id(a2))  # 2419837390800 2419837390800

s1 = 'alexsb@'
s2 = 'alexsb@'

print(id(s1),id(s2))  # 2278732245624 2278732245624  

f1 = True
f2 = True
print(id(f1),id(f2))  # 1672093872 1672093872

# 同一个代码块下，元祖，列表，字典的复用不成立。
tu1 = (1,2,3)
tu2 = (1,2,3)
print(id(tu1),id(tu2))  # 2278732278088 2278732279312

l1 = [1, 2, 3]
l2 = [1, 2, 3]
print(id(l1),id(l2))  # 2278733685000 2278733685192

dic1 = {'name':'taibai'}
dic2 = {'name':'taibai'}
print(id(dic1),id(dic2))  # 2278728382728 2278728382856

本文大量引用和参考连接以下：

https://zhidao.baidu.com/question/494120409773699052.html

http://mini.eastday.com/bdmip/180405084648167.html