大话数据结构

绪论

基本术语

数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科。

数据:是描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别,并输入计算机处理的符号集合。

数据元素:是组成数据的、有一定意义的基本单位,在计算机中通常作为整体处理。

数据项:一个数据元素可以由若干个数据项组成;数据项是数据不可分割的最小单位;

数据对象:是性质相同的数据元素的集合,是数据的子集。

数据结构:是相互之间存在一种或多种特定关系的数据元素的集合

结构:不同数据元素之间不是独立的,而是存在特定的关系。

逻辑结构 与 物理结构

逻辑结构:是指数据对象中数据元素之间的相互关系

  • 集合结构:集合结构中的数据元素除了同属于一个集合外,他们之间没有其他关系。

  • 线性结构:线性结构中数据元素之间是一对一的关系。

  • 树形结构:树形结构中的数据元素之间存在一种一对多的层次关系。

  • 图形结构:图形结构的数据元素是多对多的关系。

    物理结构:是指数据的逻辑结构在计算机中的存储模式

    • 顺序存储结构:是把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的。
    • 链式存储结构:是把数据元素存放在任意的存储单元里,这组存储单元可以是连续的,也可以是不连续的。

抽象数据类型

数据类型:是指一组性质相同的值的集合及定义在此集合上的一些操作的总称。

在C语言中,数据类型可以分为:

  • 原子类型:是不可以再分解的基本类型,包括整型、实型、字符型;
  • 结构类型:由若干个类型组合而成,是可以再分解的。

抽象是指抽取出事物具有的普遍性的本质。抽出问题的本质。

抽象数据类型(Abstract Data Type, ADT):是指一个数学模型及定义在该模型上的一组操作。 “抽象”的意义在于数据类型的数学抽象特性。

一个抽象数据类型定义了:一个数据对象,数据对象中各数据元素之间的关系及对数据元素的操作。

抽象数据类型体现了程序设计中问题分解、抽象和信息隐藏的特性。抽象数据类型把实际生活中的问题分解为多个规模小且容易处理的问题,然后建立一个计算机能处理的数据模型,并把每个功能模块的实现细节作为一个独立的单元,从而使具体实现过程隐藏起来。

算法

算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。

算法的特性

输入输出

算法具有零个或多个输入。算法至少有一个或多个输出。

有穷性

指算法在执行有限的步骤后,自动结束而不会出现无限循环,并且每个步骤在可接受的时间内王城。

确定性

算法的每一步骤都具有确定的含义,不会出现二义性

可行性

算法的每一步都必须是可行的,也就是说,每一步都能够通过执行有限次数完成。

算法设计的要求

正确性

算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性,能正确反映问题的需求、能够得到问题的正确答案。

四个层次:

1、算法程序没有语法错误;

2、算法程序对于合法的输入数据能够产生满足要求的输出结果

3、算法程序对于非法的输入数据能够得出满足规格说明的结果

4、算法程序对于精心选择的,甚至刁难的测试数据都有满足要求的输出结果

可读性

算法设计的另一目的是为了便于阅读、理解和交流。

健壮性

当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名其妙的结果。

时间效率高和存储量低

设计算法应该尽量满足时间效率高和存储量低的要求。

算法效率的度量方法

事后统计方法

这种方法主要是通过设计好的测试程序和数据,利用计算机机器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。

缺陷:

1、必须依据算法实现编制好程序,这通常需要花费大量的时间和精力。

2、时间的比较依赖计算机硬件和软件等环境因素,有时会掩盖算法本身的优劣。

3、算法的测试数据设计困难,并且程序的运行时间往往还与测试数据的规模有很大关系,效率高的算法在小的测试数据面前往往得不到体现。

事前分析估算方法

在计算机程序编制前,依据统计方法对算法进行估算。

1、算法采用的策略、方法;

2、编译产生的代码质量;

3、问题的输入规模;

4、机器执行指令的速度;

一个程序的运行时间,依赖于算法的好坏和问题的输入规模,所谓问题输入规模是指输入量的多少。

在分析程序的运行时间时,最重要的是把程序看成独立于程序设计语言的算法或一系列步骤。

函数的渐进增长

:给定两个函数 f(n)和 g(n),如果存在一个整数N,使得对于所有的 n > N ,f(n)总是比 g(n)大,那么,我们说 f(n)的增长就渐进快于 g(n)

判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项。

某个算法,随着n随着增大,他会越来越优于另一个算法,后者越来越差于另一个算法。

算法时间复杂度

:在进行算法分析时,语句总的执行次数 T(n)是关于问题规模 n 的函数,进而分析 T(n)随着 n 的变化情况并确定 T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n) = O(f(n))。它表示随着问题规模 n 的增大,算法执行时间的增长率和 f(n)的增长率相同,称作算法渐进时间复杂度,简称时间复杂度。其中 f(n)的问题规模 n 的某个函数。

一般情况下,随着n的增大,T(n)增长最慢的算法为最优算法。

常数阶,线性阶,平方阶。

推导大 O 阶方法

推导大 O 阶:

1、用常数 1 取代运行时间中的所有加法常数;

2、在修改后的运行次数函数中,只保留最高阶项;

3、如果最高阶项存在且不是1,则去除与这个项相乘的常数。

得到的结果就是大 O 阶。

常数阶

与问题的大小无关(n的多少),执行时间恒定的算法,我们称之为具有 O(1)的时间复杂度,又叫做常数阶。

线性阶

分析算法的复杂度,关键就是要分析循环结构的运行情况。

对数阶

O(logn)

平方阶

O(m*n)

循环的时间复杂度等于循环体的复杂度乘以该循环运行的次数。

常见的时间复杂度

执行次数函数  ------- 阶数  -------  非正式术语
12 O(1) 常数阶
2n + 3 O(n) 线性阶
3n^2+2n+1 O(n^2) 平方阶
5log2(n) + 20 O(logn) 对数阶
2n + 3nlog2(n) + 19 O(nlogn) nlogn阶
6n^3+2n^2+3n+4 O(n3) 立方阶
2^n O(2^n) 指数阶

时间对比

O(1) < O(logn) < O(n) < O(nlogn) < O(n^2) < O(n^3) < O(2^n) < O(n!) < O(n^n)

最坏情况与平均情况

最坏情况运行时间是一种保证,那就是运行时间将不会再坏了,在应用中,这是一种最重要的需求,通常,我们提到运行时间都是最坏情况的运行时间。

平均运行时间是所有情况中最有意义的,因为他是期望的运行时间。

一般在没有特殊说明的情况下,都是指最坏时间复杂度。

算法空间复杂度

算法的空间复杂度通过计算算法所需的存储空间实现,算法空间复杂度的计算公式记作: S(n) = O(fn(n))

算法的优劣直接决定了程序运行的效率

线性表

线性表:零个或多个数据元素的有限序列

线性表的顺序存储结构

线性表的顺序存储结构,指的是用一段地址连续的存储单元一次存储线性表的数据元素。
三大属性

  1. 存储空间的起始位置
  2. 线性表的最大存储容量
  3. 线性表的当前长度

存储器中的每个存储单元都有自己的编号,这个编号称为地址。

优缺点:
优点:无须为表示表中元素之间的逻辑关机而增加额外的存储空间;可以快速的存取表中任一未知的元素
缺点: 插入和删除操作需要移动大量的元素;当前线性表长度变化较大时,难以确定存储空间的容量;造成存储空间的‘碎片’。

属于线性表:Last In First Out (LIFO)