分析型数据库系统技术要求                1 范围
本文件给出了分析型数据库系统的系统架构,规定了分析型数据库系统的基本能力、稳定模块、运维模块、兼容模块、安全模块、容错模块、扩展模块等方面的技术要求。
本文件适用于分析型数据库系统的设计、开发、测试、评估、运维和管理。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 28821-2012  关系数据管理系统技术要求
3 术语和定义
GB/T 28821界定的以及下列术语和定义适用于本文件。
3.1
本地分析型数据库系统 analytical database system
面向分析应用,通过对数据进行随机查询、在线统计、在线分析等操作挖掘数据价值的数据库系统。
4 缩略语
下列缩略语适用于本标准:
DBMS  数据库管理系统(Database Management System)
OLAP  联机分析处理 (Online Analytical Processing)
DBLink  数据库链接(Database Link)
5 系统架构
分析型数据库系统架构见图1。
图1:分析型数据库系统系统架构
6 基本能力要求
6.1  数据接入
数据接入要求包括:
a)应满足外部数据接入情况,包括互联网数据、物联网数据以及应用系统数据等;
b)应满足数据导入和导出;
c)应满足批量数据的导入、更新和删除操作;
d)应满足数据的自动化采集和手动导入两种方式,同时支持定时任务和实时采集;
e)应满足数据的批量加载和实时流式加载。
6.2 数据管理
数据管理要求包括:
a)应符合存储数值、字符、时间日期、布尔和字节流等常用基本类型的数据;
b)应符合数值运算型、比较运算型、逻辑运算型、字符串型和类型转换型等常见操作符;
c)应符合数值函数、字符函数、时间日期函数和聚合函数等常见函数操作类型;
d)应具备创建、修改、执行、删除自定义函数的能力,支持C/C++/Python/Java等语言实现自定
义函数的自定义函数,支持SQL语句编写的自定义函数;
e)应满足对JSON数据类型的存储和读取;
f)应满足联邦查询,同一SQL中支持多种数据源的联合查询、统计和分析;
g)应满足数据类型隐式转换功能;
h)应满足对数据的压缩处理;
i)应能够通过索引对数据进行处理,具备一定的事务处理能力;
j)应满足数据类型转换时进行类型检查;
k)应满足事务隔离级别的可配置项;
l)应具体分布式事务能力;
m)应满足向量化执行、编译执行、MPP执行和BSP执行;
n)应满足数据压缩和编码。
6.3  数据存储
数据存储要求包括:
a)应符合列式存储;
b)应符合分布式存储;
c)应符合多副本存储;
d)应符合多种数据存储方式,包括内存存储、磁盘存储和云存储等。
6.4  数据查询
数据查询要求包括:
a)应满足内等、内非、左外和右外等表连接查询;
b)应满足常量子查询、单行子查询、标量子查询和多列子查询等常见子查询操作;
c)应满足多种索引类型,包括B树索引、哈希索引和全文索引等;
d)应满足查询,包括单列索引、多列索引和全文索引等;
e)应具备创建、删除普通索引以及主键索引等其他类型索引类型的能力;
f)应具备算子下推能力,支持联邦查询;
g)应通过WEB页面或者命令行工具进行SQL语句的执行能力,并将查询计划可视化展示;
h)应满足查询计划优化与执行计划优化;
i)应具备存储、加载、读取XML、UUID等复杂类型数据的能力;
j)应具备创建、修改、执行、删除存储过程的能力;
k)应具备语句执行超时设置的功能;
l)应具备查询缓存功能;
m)应满足并发事务、支持并发复杂查询语句、支持并发连接数配置;
n)应满足分布式查询优化和执行;
o)应具备DBLink功能,并提供DBLink的权限管理与并发线程池管理功能。
6.5  数据分析
数据分析要求包括:
a)应符合基本的数值统计,如最大值、最小值、求和和总数等统计量;
b)应符合分析数据集中趋势的统计,如平均数、中位数和众数等统计量;
c)应符合分析数据离散程度的统计,如极差、方差和标准差等统计量;
d)应符合部分窗口、全窗口和滑动窗口等常见窗口函数;
e)应满足多种数据处理方式,包括批处理、流处理和实时处理等;
f)应具备数据挖掘和机器学习功能,包括数据建模、分类和聚类等操作。
7 稳定模块要求
7.1 备份/恢复能力
数据备份恢复要求包括:
a)应满足数据恢复与版本回溯,重启后数据不丢失;
b)应具备高可用服务,行、列表均适用,将集分为主备两组,主分区中每个叶节点中的数据,
都在副本分区中的其他服务器上有相应的备份;
c)应满足数据副本数量的可配置项;
d)应满足全量备份、增量备份、日志备份和异地备份等备份方式;
e)应满足手动或自动备份、恢复全量数据和增量数据;
f)应满足同步和异步备份数据;
g)应满足离线备份数据和离线恢复数据;
h)应具备在线备份和恢复数据的功能;
i)对于内存中的数据,应有日志文件和定时快照;
j)应满足定时快照的时间间隔可配置项;
k)应具备异地多活灾备能力;
l)应具备异地多活灾备的故障切换策略的可配置项的能力。
7.2 负载均衡
负载均衡要求包括:
a)应具备副本自动均衡的能力;
b)应满足数据分片;
c)应满足在增加或减少存储资源时自动负载均衡;
d)应符合动态调整负载均衡策略;
e)应满足主副集的部署方式,副本集会实时同步主机集数据,主机集可读可写,副本集
可读。
7.3 故障处理
故障处理要求包括:
a)应满足在多实例环境下出现单实例故障时,不影响数据库的使用,不影响数据的正确性;
b)应满足出现单磁盘故障时,不影响数据库的使用,不影响数据的正确性。
8 运维模块要求
8.1 监控管理
监控管理要求包括:
a)应满足图形化监控告警,并提供北向接口;
b)应满足对系统性能进行监控,包括磁盘空间、磁盘I/O速率、内存空间、内存I/O速率、网络
带宽和网络连接数等,并支持监控结果的可视化展示;
c)应满足查询当前正在执行的作业信息,并能够通过在线界面或者命令行工具手动终止正在执行
常见mpp数据库的作业;
d)应具备当前登录会话信息查询能力,查询内容包括会话登录时间、会话登录客户端IP、会话
登录用户名和会话当前执行作业等,并能够手动终止指定会话;
e)应能够查询数据缓存区使用情况,同时能够对比缓存读和磁盘读的对比信息;
f)应满足当前锁情况的查询,以及自动分析锁等待链,提供诊断视图的能力;
g)应满足以图形化界面或命令行的形式展示执行计划;
h)应具备图形化配置管理功能,包括对集软硬件的配置管理、临时参数设置和在线全局参数修
改;
i)应具备图形化租户管理功能,包括租户的角、权限和资源等功能;
j)应支持系统表或视图的查询能力,包括集节点信息、集节点状态、表信息、列信息、节点分布规则信息和用户信息等;
k)应具备图形化数据库管理功能,包括数据库安装、删除、扩容、缩容、备份和恢复等;
l)应具备图形化监控和管理SQL任务功能,包括正在执行的任务,任务执行计划,使用表的大小和相关信息等。
8.2 配置管理
配置管理要求包括:
a)应满足通过图形化界面完成数据库的安装、部署、扩容、缩容、备份恢复和升级等操作;
b)应具备对数据库服务进行启停单节点、所有节点的能力,以及支持管理节点和数据节点的服务
配置修改;
c)应满足在数据库内创建、修改和删除节点组,节点组之间存储资源隔离,同时设置表的分配策
略,使其能够按照指定的策略将数据分配到不同节点组中,且节点组之间可以实现联合查询操作;
d)应具备创建、修改和删除用户和用户组以及相应密码的能力,并对不同的用户和用户组分配角
和权限;
e)应具备磁盘存储分配规划配置能力,如:初始化大小设置,存储空间自动扩展能力等;
f)应满足数据在数据节点间以循环、哈希和复制方式分布,同时满足数据在数据节点内部,以循
环、范围、多级、哈希、列表等至少四种方式建立分区,并分布数据;
g)应具备通过WEB、外接消息机制对故障进行告警的能力,以及能够以日志记录告警信息;
h)应具备在线进行动态诊断事件下发的能力,诊断对象包括常用内存申请、磁盘IO访问等操作
行为,同时在启动诊断事件后自动生成该事件的诊断跟踪信息;
i)应能够控制集的资源使用上限,并能够为不同用户设置优先级,使其执行的任务具备先后次
序。
9 兼容模块要求
兼容模块要求包括:
a)应具备与JDBC和ODBC连接方式的兼容能力;
b)应具备对X86架构和ARM架构的CPU兼容性;
c)应具备对大数据生态组件的兼容性,实现双向访问数据和双向数据操作,如HDFS文件系统、
Kafka流式计算等组件;
d)应满足对接批处理和流处理数据平台;
e)应满足对接BI、ETL和数据分析工具。
10 安全模块要求
安全模块要求包括:
a)应具备通过密码对用户进行认证的能力,支持用户登录重试锁定、密码强度、重用和有效性控
制;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。