Spatial空间数据库考试重点--688IT编程网

1.空间数据库与传统数据库的区别

1、数据量庞大。

空间数据库面向的是地学及其相关对象，而在客观世界中它们所涉及的往往都是地球表面信息、地质信息、大气信息等及其复杂的现象和信息，所以描述这些信息的数据容量很大，容量通常达到 GB级。

2、具有高可访问性。

空间信息系统要求具有强大的信息检索和分析能力，这是建立在空间数据库基础上的，需要高效访问大量数据。

3、空间数据模型复杂

空间数据库存储的不是单一性质的数据，而是涵盖了几乎所有与地理相关的数据类型，这些数据类型主要可以分为 3 类：

（1）属性数据：与通用数据库基本一致，主要用来描述地学现象的各种属性，一般包括数

字、文本、日期类型。

（2）图形图像数据：与通用数据库不同，空间数据库系统中大量的数据借助于图形图像来描述。

（3）空间关系数据：存储拓扑关系的数据，通常与图形数据是合二为一的。

4、属性数据和空间数据联合管理。

5、空间实体的属性数据和空间数据可随时间而发生相应变化。

6、空间数据的数据项长度可变，包含一个或多个对象，需要嵌套记录。

7、一种地物类型对应一个属性数据表文件。多种地物类型共用一个属性数据表文件。

8、具有空间多尺度性和时间多尺度性。

9、应用范围广泛。

2.空间数据库定义

空间数据库指的是地理信息系统在计算机物理存储介质上存储的与应用相关的地理空间数据的总和，一般是以一系列特定结构的文件的形式组织在存储介质之上的。空间数据库的研究始于20 世纪 70年代的地图制图与遥感图像处理领域，其目的是为了有效地利用卫星遥感资源迅速绘制出各种经济专题地图。由于传统的关系数据库在空间数据的表示、存储、管理、检索上存在许多缺陷，从而形成了空间数据库这一数据库研究领域。而传统数据库系统只针对简单对象，无法有效的支持复杂对象（如图形、图像）。

3.GIS和SDBMS的区别

GIS和SDBMS的区别与联系:利用GIS可以对某些对象和图层进行多种操作，而利用SDBMS则可以对更多的对象集和图层集进行更为简单的操作。比如，给出了国家的行政边界后，利用gis可以列出该国家的所有邻国。但是gis在回答集合查询时相当迟缓，比如，列出那些邻国最多的国家，或者列出完全被另一国家包围的国家。sdbms可以回答基于集合的查询。skbms还可以用来外理存储在二级设备（如磁盘，光盘，光盘机等）上的海量空间数据，它使用专门的索引和标底技术完成任务。而且，sdbms继承了传统dbms所提供的并发控制机制，这一功能可以让多个用户同时访问共享的空间数据，并保持数据一致性。g

is可以作为sdbms的前端，在gis对空间数据进行分析之前，先通过sdbms访问这些数据。因此，利用一个高效的sdbms可以大大提高gis的效率和生产率。

4.查询与数据挖掘的区别

两者期望得到的结果不同，数据查询得到的是些表面的东西（比如上个月的销售额是多少，哪些商品卖得不好等等），数据挖掘得到的是更深层次的内容（比如下个月的销售额将会是多少，导致某些商品销量不佳的因素是什么）。
在某些情况下，这些区别可能不太明显。比如我们手头就只有几十条数据，每条数据中包含的信息也不多（几个字段），那么通过多次数据查询基本上就把这些信息了解得很透彻了，就无需徒费力气地进行挖掘。
但是，现实生活中的企业通常积累了大量数据（千万条、上亿条、甚至更多），包含的信息量也非常大，只靠数据查询来深入了解这些信息已不可能，这时数据挖掘就可以大显身手了。

5.内存和硬盘

内存是电脑的数据存储设备之一，用来存放正在运行的程序和数据，可直接与运算器及控制器交换信息

硬盘是计算机重要的外部存储设备，计算机的操作系统、应用软件、文档、数据等，都可以存放在硬盘上。

内存与硬盘的区别在于：

1.内存因为比较小，所以总线的带宽以，可以和CPU接近，这样一来读取的速度会比较快，一个程序常用的数据经常会被存放到内存中，方便程序快速读取。

2.硬盘因为比较大，所以读盘的速度相对也会很慢，但我们想永久储存更多的文件就需要更多更大的空间。

3.内存是计算机的工作场所，硬盘用来存放暂时不用的信息。 4.内存是半导体材料制作，硬盘是磁性材料制作。 5.内存是内部存储器，而硬盘是外部存储器；

6.我们平时存储的信息一般都存在硬盘上，而内存不能存储信息，内存是加电有信息，停电信息全无；

7.硬盘的容量较内存的容量大的多；

8.内存通常指的就是我们主机所用的内存条，而硬盘是我们装操作系统和应用软件以及存储信息等用途。

本台计算机的内存容量为：2.19GHz，1.00GB

本台计算机的硬盘容量为：108.9GB 其中C硬盘容量为39.0GB，D硬盘容量为35.4GB ，E硬盘容量为34.5GB。

6.数据模型和查询语言

数据模型（Data Model）是数据特征的抽象，是数据库管理的教学形式框架。数据库系统中用以提供信息表示和操作手段的形式构架。数据模型包括数据库数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。数据模型所描述的内容包括三个部分：数据结构、数据操作、数据约束。

地理标记语言(geographic markup language, GML) 采用可扩展标记语言(eXtensible Marku

p Language, XML)进行编码，用于传输和存储地理信息，这些地理信息包括地理要素的几何信息和属性信息。

GML支持对应于点、线串、线、多边形、多点、多线串、多多边形和几何体集合的几何元素。

GML提供用于编码坐标的坐标元素以及定义空间范围的框元素。

GML优点：可以构建真正的可互操作的分布式GIS。

7.并行于分布式区别

分布式数据库管理系统(distributed database management systems，DDMS)。DDMS是一组物理上分布的数据库集合，这组数据库集合由数据库管理软件进行管理。DDMS体系结构非常适用于SDB，空间数据是由不同组织采集的，将数据库集中复制到一个站点也是非常困难的。

分布式数据库系统与并行数据库系统有许多相似点，如都有用网络连接各个数据处理结点

的特点。网络中的所有结点构成一个逻辑上的统一整体，用户可以对各个结点上的数据进行透明存取等等。

由于分布式数据库系统和并行数据库系统的应用目标和具体实现方法不同，因为它们之间也具有很大的不同，主要有以下几点：

（1）应用目标不同。并行数据库系统的目标是充分发挥并行计算机的优势，利用系统中的各个处理机结点并行完成数据库任务，提高数据库系统的整体性能。分布式数据库系统主要目的在于实现场地自治和数据的全局透明共享，而不要求利用网络中的各个结点来提高系统处理性能。

（2）实现方式不同。在具体实现方法上，并行数据库系统与分布式数据库系统也有着较大的不同。在并行数据库系统中，为了充分利用各个结点的处理能力，各结点间可以采用高速网络连接。结点键的数据传输代价相对较低，当某些结点处于空闲状态时，可以将工作负载过大的结点上的部分任务通过高速网传送给空闲结点处理，从而实现系统的负载平衡。

但是在分布式数据库系统中，为了适应应用的需要，满足部门分布特点的需要，各结点间一般采用局域网或广域网相连，网络带宽较低，颠倒点的通信开销较大。因此，在查询处理时一般应尽量减少结点间的数据传输量。

（3）各结点的地位不同。在并行数据库系统中，各结点是完全非独立的，不存在全局应用和局部应用的概念，在数据处理中只能发挥协同作用，而不能有局部应用。在分布式数据库系统中，各结点除了能通过网络协同完成全局事务外，各结点具有场地自治性，每个场地使独立的数据库系统。每个场地有自己的数据库、客户、CPU等资源，运行自己的DBMS，执行局部应用，具有高度的自治性。

并行数据库系统（Parallel Database System）是新一代高性能的数据库系统，是在MPP和集并行计算环境的基础上建立的数据库系统。

分布式数据库系统通常使用较小的计算机系统，每台计算机可单独放在一个地方，每台计算机中都有DBMS的一份完整拷贝副本，并具有自己局部的数据库，位于不同地点的许多计算机通过网络互相连接，共同组成一个完整的、全局的大型数据库。

负载均衡又叫作NAT负载均衡。负载均衡技术普遍应用于多WAN路由器接入，用以实现带宽汇聚。负载均衡NAT（Network Address Translation网络地址转换）简单地说就是将一个IP地址转换为另一个IP地址，一般用于未经注册的内部地址与合法的、已获注册的Internet IP地址间进行转换。适用于解决Internet IP地址紧张、不想让网络外部知道内部网络结构等的场合下。

协同系统是以自有产品和技术为核心，整合国内外知名的技术服务商的优势技术实现的，旨在为政府实现电子政务提供成熟、高效、完美的解决途径。系统在应用层打造了五大应用平台：外部信息门户、内部信息门户、协同交流平台、办公管理平台和移动办公平台。

客户端服务器：又叫主从式架构，简称C/S结构，是一种网络架构，它把客户端 (Client) （通常是一个采用图形用户界面的程序）与服务器 (Server) 区分开来。每一个客户端软件的实例都可以向一个服务器或应用程序服务器发出请求。有很多不同类型的服务器，例如文件服务器、终端服务器和邮件服务器等。虽然它们的存在的目的不一样，但基本构架是一样的。

7.SDB的优化查询有什么特殊之处

在关系数据库中，查询处理和优化可以分为两个步骤：

1）为每个基本的关系运算符设计并调整算法；

2）利用第一步的信息把高层查询映射为这些基本关系运算符的组合并进行优化。

从查询处理的角度来看，空间数据库与关系数据库之间有三个主要区别：

1）空间数据库没有固定的运算符集合可以充当查询计算的基本构件(如空间操作)。

2）空间数据库要处理非常大量的复杂对象。这些对象具有空间范围，不能自然地排序成一维数组。

3）检测空间谓词需要用到计算量极大的算法，空间操作的算法既是CPU密集型和I/O密集型，这就使得设计过程比设计传统数据库更为复杂，在传统数据库中通常假定I/O代价大大高于CPU代价，并且假定磁盘访问少的算法就是好的算法。

空间操作可以分为四组：

1）更新操作：标准数据库操作，例如修改、创建等等。

常见mpp数据库

2）选择操作：点查询；范围或区域查询

3）空间连接：当两个表R和S基于一个空间谓词进行连接时，则该连接称为空间连接。空间连接的一个变形是地图覆盖( map overlay)，这些新对象的集合的“边界”由覆盖操作所指定的非空间属性来决定。

4）空间聚集：空间聚集通常都是最近邻居搜索问题的变体，即给定一个对象o’，出所有距离o’最近的对象。

空间查询处理会涉及复杂的数据类型，空间操作通常采用两步算法来高效地处理这些大对象。

1）过滤步骤：在这一步中，空间对象表示为相对简单的近似，比如MBR。近似检查的结果是真实结果集的超集(候选集)。

2）精炼步骤：检查候选集中每个元素的精确几何信息和精确的空间谓词。通常需要使用CPU密集型的算法。这一步骤可以在空间数据库以外的某个应用程序(比如GIS中)进行，这个应用程序用到空间数据库在过滤步骤产生的候选集。

9.分簇

给定一组原子数据项、N个磁盘和一组查询，在考虑磁盘容量限制的前提下，将数据项分割到这N个磁盘，使给定查询集的响应时间最小化。理想情况下，响应时间应该为串行响应时间除以处理器数目。

688IT编程网

Spatial空间数据库考试重点

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Spatial空间数据库考试重点

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性