第1章  数据库的概念
本章主要介绍数据库的意义、数据库的发展史、数据库的体系结构、数据库系统以及数据库管理系统等内容,以便读者对数据库的概念有一个基本的了解。
1.1  数据库的意义
1.1.1  信息处理及数据处理
诞生于20世纪中叶的计算机科学较之其他现代科学技术的发展更迅速,在21世纪到来之际,它几乎可以称为“知识爆炸”了。21世纪是信息和知识的社会,如何组织和利用这些庞大的信息和知识已成为衡量一个国家科学技术水平高低的重要标志。
早在20世纪60年代,数据库技术作为现代信息系统基础的一门软件学科便应运而生了。现在,数据库技术已成为计算机领域中最重要的技术之一,它是软件学科中一个独立的分支。它的出现使得计算机应用渗透到工农业生产、商业、行政、教育、科学研究、工程技术和国防军事的各个部门。管理信息系统(MIS)、办公自动化系统(OA)、决策支持系统等都是使用了数据库管理系统或数据库技术的计算机应用系统。
数据库(Database,即DB)是存储在一起的相关数据的集合,是存储数据的“仓库”。因此,要理解数据库就需要先了解在数据处理领域中常遇到的两个基本概念:“信息”(information)和“数据”(data)。
信息是关于现实世界事物的存在方式或运动状态的反映的组合。例如,上课用的黑板,它的颜是黑的,形状是矩形,尺寸是长3.2m,高1.4m,材料是木材,这些都是关于黑板的信息,都是关于黑板的存在状态的反映,从不同角度“反映”或“刻画”了黑板这个事物。信息源于物质和能量,一切事物,包括自然和人类都产生信息,信息是物质和能量形态的反应,它不可能脱离物质而存在。信息传递需要物质载体,信息的获取和传递要消耗能量。信息是可以感知的和存储的,并且可以加工、传递和再生。电子计算机是信息处理领域中最先进的工具之一,人类对收集到的信息可以进行取舍整理。几乎和信息同样广泛使用的另一个概念是“数据”。所谓数据,通常指用符号记录下来的可加以鉴别的信息。例如,为了描述黑板的信息,可以用一组数据“黑、矩形、3.2m×1.4m”来表示,由于“黑”、“矩形”、“3.2”、“m”……这些符号已经被人们赋予了特定的语义,所以它们就具有了传递信息功能。
从上面的例子中,可以看到信息和数据之间的固有联系:数据是信息的符号表示或称为载体,信息则是数据的内涵,是对数据的语义解释。但另一方面,某一具体信息与表示它的数据的这种对应关系又因环境而异。同一信息可能有不同的符号表示,同一数据也可能有不同的解释。数据处理领域中的数据概念较之科学计算领域中数据概念已经大大地拓宽了。定义中所说的符号,不仅包含数字符号,而且包含文字、图像和其他符号;而所谓“记录下来”也不仅是指用笔写在纸上,还包括磁记录、光刻等各种记录形式。
由于信息是现实世界中事物的存在方式和运动状态的反应,而现实世界的事物常常是相互关联的,这就使得人们在了解、掌握事物之间的固有联系和运动规律的基础上,可以从一些已知的信息出发,经过演绎推理,导出新的信息,为人类社会生活的各种需要服务,这就是常说的“信息处理”。例如,根据上述黑板的尺寸数据和木工定额标准,可以推算出制作黑板所需的木材数量和制作费用。
一般,人们将原始信息表示成源数据,然后对这些源数据进行综合推导加工,得出新的数据。这些结果数据表示了新的信息,可以作为某种决策的依据(或用于新的推导加工)。这整个过程通常称为“数据处理”。
电子计算机使大规模的数据处理成为可能,它和通信、网络技术的发展一起,进一步推动了信息处理和利用社会化,极大地增强了人类社会信息处理能力。
1.1.2  数据模型和数据库技术
数据库系统就是实现有组织地、动态地存储大量相关数据,方便用户访问的计算机软、硬资源组成的系统。而数据库技术是研究数据库的结构、存储、设计和使用的一门软件学科。因此,数据库技术主要是研究如何存储、使用和管理数据。在计算机应用中,数据处理占的比重最大,而数据库系统是数据处理的核心机构,所以它的效能往往决定了整个计算机应用的经济效益。
数据库离不开数据模型。数据模型是对现实世界客观事物及其联系的描述,它反映数据项之间和记录之间的联系,在数据库技术中使用模型的概念描述数据库的结构与语义。常用的3种数据模型是:层次模型(hierarchical model)、网状模型(network model)和关系模型(relational model)。此外,还有面向对象模型(object_oriented model)等。
数据库这门学科与其他基础软件、系统软件、应用软件有着密切的联系。例如:操作系统,
数据技术是在操作系统的文件系统的基础上发展起来的,而且数据库系统本身就是在操作系统(例如Windows)支持下才能工作。数据库与网络技术和多媒体技术的关系也很密切,例如,分布式数据库要用上网络,数据库甚至可在国际互联网(Internet)上交换海外的数据、声音、图像、图片等多媒体信息。数据库技术与数据结构的关系也是不可分的,数据库技术不仅要用到数据结构的知识,而且丰富了数据结构的内容。程序设计是使用数据库系统的最基本方式,因为数据库中大量的应用程序多是用高级语言加上数据库的操纵语言编写的。集合论、数理逻辑是关系数据库的理论基础,其很多概念、术语、思想都直接用到关系数据库中。
1.2  数据库的由来和发展
数据库这个名词起源于20世纪50年代,当时美国为了战争的需要,把各种情报集中在一起,存入计算机,称为Information Base或Database。1963年美国Honeywell公司的IDS(Integrated Data Store)系统投入运行,揭开了数据库技术的序幕。1965年美国利用数据库帮助设计了登月火箭,推动了数据库技术的产生。当时社会上产生了许多行行的Database或Databank,但基本上都是文件系统的扩充。1968年美国IBM公司推出了
层次模型的IMS数据库系统,并于1969年形成产品;1969年,提出了COBOL语言的美国CODASYL(Conference on Date System Language,数据系统语言协会)组织的数据库任务组(DBTG)发表了网状数据库系统的标准文本(1971年正式通过);1970年初,IBM公司的高级研究员E.F.Codd发表论文提出了关系模型,奠定了关系数据库的理论基础。
20世纪70年代是数据库蓬勃发展的年代。网状系统和层次系统占领了市场,关系系统开始处于实验阶段,IBM公司研制出了原型关系语言System R。1979年关系软件(Relational Software)公司推出了第一个基于SQL的商用关系数据库产品Oracle。
20世纪80年代起,关系数据库产品已相当成熟,取代了网状系统和层次系统的市场。同时关系数据库理论也日趋完善,走向更高级的阶段,有了分布式数据库系统(Distributed database Systems)等。后来,从不同的计算机应用领域提出了许多数据库的非传统应用课题,诸如多媒体数据、空间数据、时序数据、科学数据、复杂对象、知识、超文本管理等。为了适应这类应用的需要,提出了不少新的概念、新的数据模型和系统结构。经过几年的研究和实践,逐步形成了面向对象数据库系统(Object_Oriented Database Systems)
、主动数据库系统(Active Database Systems)、大型知识库系统(Large Knowledge Base Systems)、数据库中的知识发现(Knowledge Discovery in Database)以及科学数据库(Science Database)等热点。21世纪数据库技术必将获得更加长足的发展。了解数据库的由来和发展的历史以及数据管理技术各阶段的特点,对学习好数据库显然十分必要。
综观数据管理技术的发展可知:它与硬件(主要是外部存储器)、软件以及计算机应用的范围有密切关系。数据管理技术大致经过以下4个阶段:人工管理阶段、文件系统阶段、数据库阶段以及高级数据库阶段。
1.2.1  人工管理阶段(20世纪50年代中期以前)
这一阶段的计算机主要用于科学计算。硬件中的外存只有卡片、纸带等。软件只有汇编语言,没有数据管理方面的软件。数据处理的方式基本上是批处理。这个时期的数据管理特点如下:

1.数据不保存
进行某一课题计算时将原始数据随程序一起输入主存,运算处理后将结果数据输出。任务完成后,数据空间同程序空间一起释放。
2.没有专用软件对数据进行管理
每个应用程序要包括存储结构、存取方法、输入/输出方式等,数据结构与程序不具有独立性,一旦存储结构改变,就必须由应用程序员修改程序。由于程序直接面向存储结构,因此不存在逻辑结构与物理结构的区别。
3.只有程序(PROGRAM)的概念,没有文件(FILE)的概念
即使有文件,也大多是顺序文件,其他组织方式必须由程序员自行设计与安排。
4.数据面向应用
即一组数据对应于一个程序。由于各应用程序处理的数据不会毫无联系,程序之间会有重复。
5.对数据的存取以记录为单位
数据库属性的概念
其灵活性差。
1.2.2  文件系统阶段(20世纪50年代后期至60年代中后期)
这一阶段的计算机不仅用于科学计算,还大量用于信息管理。外存已有磁盘、磁鼓等直接存取设备。软件方面出现了高级语言和操作系统。操作系统中的文件系统(有时也称为“信息处理模块”)是专门处理外存的数据管理软件。处理数据方式有批处理,也有联机实时处理。这一阶段数据管理情况如下:
1.特点
(1)数据可长期保存在外存的磁盘上。用户经常随时通过程序对文件进行查询、修改以及删除等处理。由于计算转向管理,数据处理的工作量增大。
(2)数据的物理结构与逻辑结构有了区别,但较简单。程序与设备之间有设备独立性(程序只需用文件名与数据打交道,不必关心数据的物理位置),由操作系统的文件系统提供存取方法(读/写)。由存取方法实现数据的逻辑结构与物理结构之间的转换。
(3)文件的形式已多样化,有索引文件、链接文件和直接存取等,因而对文件的记录可顺序访问,也可随机访问。但文件之间是独立的,联系要通过程序去构造,文件的共享性差。
(4)有了存储文件以后,数据不再仅仅属于某个特定的程序,而可以重复使用。但文件结构的设计仍然是基于特定的用途,程序仍然是基于特定的物理结构和存取方法编制的,因此,数据结构与程序之间的依赖关系并未根本改变。
(5)对数据的存取基本上还是以记录为单位。
2.缺陷
在文件系统中,改变存储设备,不必改变应用程序。虽然文件系统提供了存取方法,但这只是初级的数据管理。这种文件系统,还未能彻底体现用户观点下的数据逻辑结构独立于数据在外存的物理结构要求。因此,数据的物理结构修改时,仍然需要修改用户的应用程序。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。