最基础的数据结构-左轻侯

时间 2019-11-10

标签基础数据结构繁體版

原文原文链接

做者：左轻侯程序员

建立时间：2007-03-04 22:29:06 最后修改时间：2008-01-18 22:07:52 算法

本文发表于《程序员》2007年第3期
　　
　　最基础的数据结构
　　左轻侯
　　2007.2.3
　　
　　引言
　　
　　任何一个受过专业训练的程序员，对“数据结构”这门课程中涉及到的各类数据结构都不会感到陌生。可是，在实际的编程工做中，大部分的数据结构都不会用到，并且也许永远都不会用到。形成这种现象的缘由有二：一是根据80/20法则，经常使用的数据结构只会占到少部分；二是计算机语言每每已经对经常使用的数据结构进行了良好的封装，程序员不须要关心内部的实现。
　　虽然如此，深刻地理解基本数据结构的概念和实现细节，仍然是每个程序员的任务。这不只是由于，掌握这些知识，将有利于更加正确和灵活地应用它们，并且也是由于，对于语言背后的实现细节的求知欲，是一个优秀的程序员的素质。
　　本文将讨论实际编程最常用的三种数据结构：字符串、数组和Hash表，比较它们在不一样语言中的实现思路，并涉及它们的使用技巧。
　　
　　字符串
　　严格地说，字符串（string）甚至不能算做一种单独的数据结构，至少在C语言中，它仅仅是某种特定类型的数组而已。可是，字符串在实际使用中是如此重要，在不一样语言中的实现又差别颇大，所以，它值得被做为一种抽象数据类型单独进行讨论，而且在咱们讨论的三种结构中排名第一。
　　最经典的字符串实现，应该是C语言中的零终结(null-terminated)字符串。如上所述，C风格的字符串实质上是一个字符数组，它依次存放字符串中的每一个字符，最后以零字符（’\\0’，表示为常量null）做为结束。所以，字符串占据的空间比它实际的长度要多1个单元。在实际应用中，它常以数组或字符指针的形式被定义，以下例：
　　
　　char[] message = “this is a message”;
　　char* pmessage = “an other message”;
　　
　　 C语言中，字符串并非一种独立的数据类型，也没有提供将字符串做为一个总体进行处理的运算符。对字符串的全部操做，实际上都是经过对字符数组的操做来完成。
　　试想一个函数，功能是求C风格字符串的长度。实现的思路是：设置一个计数器，而后用一个指针遍历整个字符数组，同时对计数器进行累加，直到字符串结束（指针指向了null）。实际上，C语言中的strlen函数也是这么实现的。这种方式看上去很是合理，可是在处理一个很是大的字符数组时，会遭遇到严重的性能问题。若是一个字符串长达数M甚至更大，那么求其长度的操做，须要执行数百万次甚至更长的循环。更糟糕的是，因为这个结果没有被缓存，因此每次求长度的操做都会重复执行这些循环。
　　 C风格字符串的另外一个缺陷是，它不会自动管理内存。这意味着，若是字符串的长度超出了数组可以容纳的范围，程序员必须手动申请新的内存空间，并将原来的内容复制过去。这种方式不但产生了大量无谓的工做，并且是无数臭名昭著的溢出漏洞的缘由。一个最简单的例子是，当一个程序要求用户输入一个字符串时，若是用户输入的字符串的长度大于程序设定的缓冲区的长度，将会致使溢出，最终程序会崩溃。
　　针对C风格字符串的这些缺陷，新的语言进行了相应的改进。做为C的直接继承者，C++语言在标准库中提供了一个基础字符串的实现：std :: basic_string。它封装了大量常见的操做，例如取长度、比较、插入、拼接、查找、替换等等，而且可以自动管理内存。例如，因为C++支持运算符重载，所以C++字符串可使用运算符直接进行运算，而不须要调用strcpy函数。另外，C++字符串也提供了与C风格字符串进行转换的功能。基于强大的模板机制，C++字符串将字符串的实现和具体的字符类型分离开来了。下面是两种最多见的字符串类型：
　　
　　typedef basic_string<char> string; // 定义了ansi类型的字符串
　　typedef basic_string<wchar_t> wstring; // 定义了宽字符类型的字符串
　　
　　不幸的是，因为复杂的历史缘由，许多C++方言（例如Visual C++和Borland C++Builder）都提供了与标准字符串不一样的字符串实现。这些字符串实现各有长处，可是将它们和C++标准字符串以及C风格字符串进行转换，又成为了一项使人头疼的工做。
　　 Delphi对字符串的改进基于另一种思路。在Delphi中，字符串仍然是一种基本类型，而不是类。它的实现方式也是字符数组，不一样于C风格字符串的是，在数组的头部增长了两个32位整数存储空间，分别用于存放字符串的长度和引用计数。经过前者能够方便地得到字符串的长度，而不须要进行无谓的遍历操做。后者实现了COW（Copy on Write）技术，这种技术的效果是：当字符串被复制时，并不会复制其内容，而只是创建一个新的指针，指向原有的字符串，并在引用计数上加一。当字符串被删除时，引用计数减一，当引用计数为0时，字符串的内存将被释放。只有当对字符串进行写入操做时，才会创建一个新的字符串并复制内容。这些工做是由编译器自动完成的，程序员彻底能够象使用C风格字符串同样使用Delphi风格的字符串，只是效率大大地提升了。
　　 Java和C#中的字符串，是一个封装了常见操做的类，这一点和C++相似。一个特殊之处（每每致使经典的性能问题）是，不管是在Java仍是在C#中，String类都是不变(immutable)的。也就是说，String的内容不可以被改变，若是代码试图改变一个String对象的内容，实际的结果是创建了一个新的String对象，并抛弃旧的对象。以下例：
　　
　　String s = \"\";
　　for (int i = 0;i < 10000;i++) {
　　 s += i + \", \";
　　}
　　
　　结果是创建并抛弃了10000个String对象，这在性能上的开销是惊人的。为了不这种状况，应该使用StringBuilder对象，它能够改变其内容。（C#一直使用StringBuilder。Java从1.5开始引入StringBuilder以部分替代StringBuffer，它们的主要区别在于线程安全性。）以下例：
　　
　　StringBuilder sb = new StringBuilder();
　　for (int i = 0; i < 10000; i++) {
　　sb.append(i + \",\");
　　}
　　
　　数组
　　从抽象数据类型的意义上来讲，一维数组(array)的定义是：具备相同数据类型的若干个元素的有限序列。
　　在C语言中，数组意味着一块连续的内存空间，按顺序存放着若干个相同数据类型的元素。能够经过下标来访问数组中的元素。以下例：
　　
　　int a[10]; // 定义一个int型的数组
　　for (int i = 0;i < 10;i++) {
　　 a[i] = i; // 赋值
　　}
　　
　　在C语言中，数组名事实上是一个指针（指向该数组的第一个元素），所以全部经过数组下标完成的操做，均可以经过指针来完成。经过指针来访问数组，效率上比数组下标要高，并且更加灵活，例如，指针能够进行偏移量的运算，甚至能够进行绝对地址的存取。
　　 C语言中的数组没有越界检查，这意味着，程序员能够访问数组最后一个元素之后的地址，或者第一个元素以前的地址（例如，a[-1]、a[-2]这种形式是合法的）。在某些状况下，这是一种有用的技巧，但大多数状况下是一场灾难。C语言的数组也不支持自动增加，若是数组的长度发生了变化，程序员必须手动处理全部关于申请和释放内存的工做。
　　 C++提供了C风格的数组，一样不支持越界检查和自动增加。可是，C++（至少是Stroustrup博士本人）建议，应该尽可能使用STL中的容器做为替代品，通常是vector。Vector基于面向对象和模板技术，构建了一个强大而复杂的类，实现了以下特性：高效率的自动内存管理；按任何顺序访问、插入和删除元素；越界检查，但同时也提供了不进行检查的访问方式，以照顾性能上的考虑；基于运算符重载技术的运算符支持；基于迭代器的漫游机制；与数据类型无关的算法支持；等等。相对于C风格的数组，vector是一种更高抽象层次上的序列概念。它对大量经常使用的功能进行了封装（例如，对内存的直接操做），同时又尽量地照顾了效率和可移植性（例如，在自动扩充时经过缓存机制来提升效率）。这也正是C++语言对C语言进行改进时的指导思想。
　　 Delphi也支持C风格的数组，但提供了越界检查。另外，Delphi还提供了一种动态数组（Dynamic Array），能够在运行时经过SetLength函数动态地改变它的大小。事实上，SetLength函数就是对内存管理操做的一种封装。相似于C++中的vector，Delphi也提供了两个能够自动增加的容器：TList和TObjectList，前者用于存放无类型的指针，后者用于存放对象。因为Delphi不支持模板机制，因此TList不会自动释放指针所指向的内存，它只会维护指针自身占用的内存（TObjectList可以在销毁时自动释放元素所占用的空间，若是它的OwnsObjects属性被设置为True的话）。一种经常使用的解决方法是，编写一个针对具体类型的包裹类，使用一个做为私有数据成员的TList对象来管理指针，并手动编写申请和释放内存的那部分代码。这样总比C语言中的状况要好得多。
　　 Java也支持加上了越界检查的C风格数组，但它提供的相似容器更为引人注目。Java将序列（List）做为一个单独的接口提取出来，并提供了两个实现：ArrayList和LinkedList。从名字就能够看出来，前者是经过数组来实现的，后者则经过链表。因为都实现了List接口，两者能够支持一样的基本操做方式，不一样的是，ArrayList在频繁进行随机访问时有效率上的优点，而LinkedList在频繁进行插入和删除操做时效率较优。实现了List接口的类还有Vector和Stack，可是它们在Java 1.1之后就被废弃了。因为LinkedList能够在序列的头尾插入和删除元素，它能够很好地实现Stack和Queue的功能。
　　 Java在1.5之前的版本中也不支持模板，所以List（以及其余的容器）接受Object类型做为元素。因为在Java中全部的类都派生自Object，因此这些容器可以支持任何对象。对于不是对象的基本类型，Java提供了一种包裹类(wrapped class)，它可以将基本类型转换成常规的类，从而得到容器的支持。这和Delphi的解决思路殊途同归。
　　
　　Hash表
　　做为一种抽象数据结构，词典（Dictionary）被定义为键-值(Key-Value)对的集合。举例来讲，在电话号码簿中，经过查找姓名，来找到电话号码，这个例子中姓名是key，电话号码是value。又好比，在学生花名册中，经过查找学号，来找到学生的姓名，这个例子中学号是key，学生的姓名是value。词典最多见的实现方式是Hash表。
　　 Hash表的实现思路以下：经过某种算法，在键-值对的存储地址和键-值对中的key之间，创建一种映射，使得每个key，都有一个肯定的存储地址与之对应。这种算法被封装在Hash函数中。在查找时，经过Hash函数，算出和key对应的存储地址，从而找到相应的键-值对。相对于经过遍历整个键-值对列表来进行查找，Hash表的查找效率要高得多，理想的状况下算法复杂度仅为O(1)（遍历查找的复杂度为O(n)）。
　　可是，因为一般状况下key的集合比键-值对存储地址的集合要大得多，因此有可能把不一样的key映射到同一个存储地址上。这种状况称为冲突（collision）。一个好的Hash函数应该尽量地把key映射到均匀的地址空间中，以减小冲突。Hash表的实现也应该提供解决冲突的方案。
　　Hash表是一种相对复杂得多的数据结构，从底层完整地实现一个Hash表，也许超出了对一个普通程序员的要求。可是，因为它是如此重要，了解Hash表的概念和掌握使用它的接口，仍然是一项必不可少的技能。
　　 C语言中没有提供现成的Hash表，可是C++提供了优秀的Hash表实现容器hash_map。象STL中的其余容器同样，hash_map支持任何数据类型，支持内存自动管理，可以自动增加。特别地，hash_map经过模板机制，实现了和hash函数的剥离，也就是说，程序员能够定义本身的hash函数，交给hash_map去进行相应的工做。以下例：
　　
　　hash_map <string, int> hml; // 使用默认的Hash<string>函数
　　hash_map <string, int, hfct> hml; // 使用自定义的hfct()做为hash函数
　　hash_map <string, int, hfct, eql> hml; // 使用自定义的hfct()做为hash函数，而且使用自定义的eql()函数比较对象是否相等
　　
　　 Java定义了Map接口，抽象了关于Map的各类操做。在实现了Map接口的类中，有两种是Hash表：HashMap和WeakHashMap（HashTable在Java 1.1之后已被废弃）。后者用于实现所谓“标准映射”（canonicalizing mappings），和本文讨论的内容关系不大。HashMap接受任何类型的对象做为键-值对的元素，支持快速的查找。以下例：
　　
　　HashMap hm = new HashMap();
　　hm.put(\"akey\", \"this is a word\"); // 使用两个字符串做为键-值对
　　String str = (String) hm.get(\"akey\");
　　System.out.println(str);
　　
　　HashMap和hash函数也是剥离的，但使用了另外一种思路。在Java中，根类型Object定义了hashCode()和equals()方法，因为任何类型的对象都派生自Object，因此它们都自动继承了这两个方法。用户自定义的类应该重载这两个方法，以实现本身的hash函数和比较函数。若是这两个函数没有被重载，Java会使用Object的hashCode()和equals()方法，它们的默认实现分别是返回对象的地址，以及比较两个对象的地址是否相等。
　　在PHP中，数组和Hash表合而为一了。从语法上看，PHP中并无Hash表这样的容器，而只支持数组。不一样的是，PHP中的数组不但支持使用数字下标进行索引，并且支持使用字符串下标进行索引。换句话说，PHP中的数组支持使用键-值对做为数组的元素，而且可使用键来进行索引(键必须为integer类型或string类型)。并且，PHP中的数组支持自动增加和嵌套。以下例：
　　
　　$arr = array(1 => 12, \"akey\" => \"this is a word\");
　　echo $arr[1]; // 获得12
　　echo $arr[\"akey\"]; // 获得\"this is a word\"
　　
　　 PHP没有提供自定义hash函数的接口。因为它不接受integer和string之外的类型做为键，这一点事实上也没有必要。
　　
　　结束语
　　当接受这篇文章的约稿时，我认为这是一项比较简单的工做。由于这三种数据结构实在是太基础了，因此我甚至怀疑是否可以写出足够长的篇幅。很快我就发现了本身的错误。光是字符串就够写一本书的。
　　在撰写本文的过程，我回顾了学习过的大部分编程语言，重温了许多经典书籍中的相关章节，启动了各类IDE编写测试用例。我接触到了大量未知的领域，至今我仍然在猜想许多问题的实现细节。这从另一个方面说明了基本数据结构的重要性：即便在咱们最熟悉的事物中，也隐藏着极为深入的原理。
　　
　　参考文献：
　　K&R，C程序设计语言，第二版
　　Bjarne Stroustrup，C++程序设计语言，第三版
　　Koenig & Moo，C++沉思录
　　Delphi Language Guide
　　Bruce Eckel，Thinking in Java，第二版
　　McLaughlin & Flanagan，Java 5.0 Tiger程序高手秘笈
　　Jesse Liberty，Programming C#
　　W. Gilmore，PHP与MySQL 5程序设计
　　Lutz & David Ascher，Learning Python，第二版
　　Alex Martelli，Python in a Nutshell，第二版
　　Introduction to Algorithms，第二版
　　殷人昆等，数据结构（用面向对象和C++描述）
　　Joel Spolsky，Joel说软件 shell