国产全文数据库测试指标及测试方法研究
作者:杨美钰 付玉涛
来源:《中国新通信》2020年第02期
常见mpp数据库        摘 要:随着大数据的发展,对数据存储、数据查询响应时间的要求越来越高,MPP数据库(大规模并行处理数据库)、全文数据库、图数据库等成为大数据应用所需产品。本文针对国产全文数据库提出一套从全文数据库功能、接口、可管理性、可靠性、可扩展性和性能进行客观评价的测评指标及其测试方法,为选用国产化全文数据库提供一套依据,
为指导产品的研发和性能的不断改进提供指导意义。
        关键词:大数据;国产化;全文数据库;测评指标
        引言
        随着当前对数据挖掘、数据分析的需求越来越大,对数据规模、数据查询响应速度等的要求越来越高。从数据结构来看,数据主要分为结构化数据和非结构化数据,本文主要针对非结构化数据的存储与检索进行研究。对于非结构数据的检索,基于Hbase[1]的设计,比较占空间,硬件配置要求比较高,且在ID超过200之后,查询性能直线下降,很难符合线上的要求。ElasticSearch[2](以下简称ES)基于Lunce,优点是搜索速度快,方便建立索引。本文针对基于ES设计的全文数据库进行研究。
        当涉及到选购全文数据库时,对其功能、接口、可管理性、可靠性、可扩展性、性能的客观评价还缺少相应的依据。因此,建立一种合理、适用性强的全文数据库测评指标及其测试方法意义重大,帮助用户评估和选型全文数据库的同时,对产品性能的不断改进有着重要的意义。本文依据全文数据库的特点,提出了一套关于国产全文数据库功能、接口
、可管理性、可靠性、可扩展性、性能的测评指标,为广大用户选用和评价国产全文数据库提供方法。
        一、全文数据库简介
        (一)数据、检索的分类
        我们生活中的数据总体分为两种:结构化数据 和非结构化数据。
        结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等;非结构化数据: 指不定长或无固定格式的数据,如邮件,word文档等。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。