面试官: 100万个成员的数组取第一个和最后一个有性能差距吗?

时间 2019-11-05

标签面试万个成员数组第一个最后一个性能差距栏目快乐工作繁體版

原文原文链接

本文首发于微信公众号「程序员面试官」html

数组几乎能够是全部软件工程师最经常使用到的数据结构,正是由于如此,不少开发者对其不够重视.前端

而面试中常常有这样一类问题: 「100万个成员的数组取第一个和最后一个有性能差距吗?为何?」java

除此以外,咱们在平时的业务开发中会常常出现数组一把梭的状况,大多数状况下咱们都会用数组的形式进行操做,而有读源码习惯的开发者可能会发现,在一些底层库中,咱们可能平时用数组的地方,底层库却选择了另外的数据结构,这又是为何?程序员

但愿你们带着以上的问题咱们进行讨论.面试

什么是数组

数组是计算机科学中最基本的数据结构了,绝大多数编程语言都内置了这种数据结构,也是开发者最多见的数据结构.算法

数组（英语：Array），是由相同类型的元素（element）的集合所组成的数据结构，分配一块连续的内存来存储.编程

固然,在一些动态语言中例如Python的列表或者JavaScript的数组均可能是非连续性的内存,也能够存储不一样类型的元素.数组

好比咱们有以下一个数组:性能优化

arr = [1, 2, 3, 4, 5]
复制代码

其在内存中的表现应该是这样的:bash

咱们能够看到,这个数组在内存中是以连续线性的形式储存的,这个连续线性的储存形式既有其优点又有其劣势,只有咱们搞清楚优劣才能在之后的开发中更好地使用数组.

数组的特性

一个数据结构一般都有「插入、查找、删除、读取」这四种基本的操做,咱们会逐一分析这些操做带来的性能差别.

首先咱们要辨析一个概念--性能.

这里的性能并非绝对意义上速度的快慢,由于不一样的设备其硬件基础就会产生巨大的速度差别,这里的性能是咱们在算法分析中的「复杂度」概念.

复杂度的概念能够移步算法分析

插入性能

咱们已经知道数组是一段连续储存的内存，当咱们要将新元素插入到数组k的位置时呢?这个时候须要将k索引处以后的全部元素日后挪一位,并将k索引的位置插入新元素.

咱们看到这个时候须要进行操做的工做量就大多了,一般状况下,插入操做的时间复杂度是O(n).

删除性能

删除操做其实与插入很相似,一样我要删除数组以内的k索引位置的元素,咱们就须要将其删除后,为了保持内存的连续性,须要将k以后的元素统统向前移动一位,这个状况的时间复杂度也是O(n).

查找性能

好比咱们要查找一个数组中是否存在一个为2的元素,那么计算机须要如何操做呢?

若是是人的话,在少许数据的状况下咱们天然能够一眼找到是否有2的元素,而计算机不是,计算机须要从索引0开始往下匹配,直到匹配到2的元素为止.

这个查找的过程其实就是咱们常见的线性查找,这个时候须要匹配的平均步数与数组的长度n有关,这个时间复杂度一样是O(n).

读取性能

咱们已经强调过数组的特色是拥有相同的数据类型和一块连续的线性内存,那么正是基于以上的特色,数组的读取性能很是的卓越,时间复杂度为O(1),相比于链表、二叉树等数据结构,它的优点很是明显.

那么数组是如何作到这么低的时间复杂度呢?

假设咱们的数组内存起始地址为start,而元素类型的长度为size,数组索引为i,那么咱们很容易获得这个数组内存地址的寻址公式:

arr[i]_address = start + size * i
复制代码

好比咱们要读取arr[3]的值,那么只须要把3代入寻址公式,计算机就能够一步查询到对应的元素,所以数组读取的时间复杂度只有O(1).

性能优化

咱们已经知道除了「读取」这一个操做之外,其余操做的时间复杂度都在O(n),那么有没有有效的方法进行性能优化呢?

查找性能优化

当数组的元素是无序状态下,咱们只能用相对不太快的线性查找进行查找,当元素是有序状态(递增或者递减),咱们能够用另外一种更高效的方法--二分查找.

假设咱们有一个有int类型组成的数组,以递增的方式储存:

arr = [1, 2, 3, 4, 5, 6, 7]
复制代码

若是咱们要查找值为6元素,按照线性查找的方式须要根据数组索引从0依次比对,直到碰到索引5的元素.

而二分查找的效率则更高,因为咱们知道此数组的元素是有序递增排列的:

咱们能够取一个索引为3的元素为中间值p
将p与目标值6进行对比,发现p的值4<6,那么此时因为是递增数组,目标值必定在索引3以后的元素中
此时,再在索引3以后到尾部的元素中取出新的中间值p与目标值比对,再重复下去,直到找到目标值

咱们能够发现这样的操做每一次对比都能排除当前元素数量一半的元素,总体下来的时间复杂度只有O(log n),这表示此方法的效率极高.

这种高效的方法在数据量越大的状况下,越能体现出来,好比目前有一个10亿成员的数组是有序递增,若是按照线性查找,最差的状况下须要10亿此查找操做才能找到结果,而二分查找仅仅须要7次.

插入性能优化

好比有如下数组,咱们要将一个新成员orange插入索引1的位置,一般状况下须要后三位成员后移,orange占据索引1的位置.

可是若是咱们的需求并不必定须要索引的有序性呢?也就是说,咱们能够把数组当成一个集合概念,咱们能够在索引1的位置插入orange并在数组的尾部开辟一个新内存将本来在1位置的banana存入新内存中,这样虽然索引的乱了,可是整个操做仅仅须要O(1)的时间复杂度.

arr = ['apple', 'banana', 'grape', 'watermelon']
复制代码

删除性能优化

删除操做须要将产出位置后的元素集体向前移动,这很是消耗性能,尤为是在频繁的删除、插入操做中更是如此。

咱们能够先记录下相关的操做,可是并不当即进行删除,当到必定的节点时咱们再一次性依据记录对数组进行操做,这样数组成员的反复频繁移动变成了一次性操做,能够很大程度上提升性能.

这个思想应用很是普遍:

前端框架的虚拟DOM就是将对DOM的大量操做先储存在差别队列中,而后再一次性更新,避免了DOM的回流和重绘.
V8和JVM中的标记清除算法也是基于此思想,标记清除算法分为两个阶段,标记阶段对访问到的对象都打上一个标识,在清除阶段发现某个对象没有标记则进行回收.

小结

回到题目中的问题,咱们如今已经能够很清楚地知道「100万个成员的数组取第一个和最后一个是否有性能差距」,答案显然是没有,由于数组是一块线性连续的内存,咱们能够经过寻址公式一步取出对应的成员,这跟成员的位置没有关系.

最后咱们常常在面试或者LeetCode中碰到这样一类问题,即数组中的子元素问题.

好比: 给定一个整数数组，计算长度为 'k' 的连续子数组的最大总和。

什么方法能够尽量地下降时间复杂度?说出你的思路便可.