1.1.1 全文检索系统结构
根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:
TRS全文数据库系统(TRS Database Server)
TRS 全文检索网关(TRS Gateway)
TRS信息发布应用服务器系统(TRS WAS)
TRS全文数据库系统(TRS Database Server)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。
主要特点包括:
异构海量数据统一管理,非结构化和结构化数据联合检索
Native XML内核,实现全息检索
智能辅助检索,支持知识挖掘
精确计算,检索速度和准确性共达最优
动态索引实时更新,面向事务处理
支持Unicode编码,提供多语种查询引擎
多级机制保障,信息采集和检索高度安全
集检索,保证高可靠性,随需轻松扩展规模
TRS全文数据库系统(TRS Database Server)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。
TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。
全文检索系统架构图如下所示:
全文检索系统架构图
1.1.2 全文检索网关
TRS 全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。
数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRS Gateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。TRS全文数据库是TRS 公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。
应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索需求,并为表现层提供检索服务。这层可以根据具体需求利用TRS提供的丰富开发接口实现全文检索应用。
表现层主要为平台管理人员和最终用户提供数据库检索和网页检索等。
北京市技术标准在线服务平台的大部分业务应用都是基于关系数据库,关系数据库(RDBMS)擅长于结构化数据的事务处理和关系运算,但是对长文本以及非结构化大对象
文本缺乏有效的检索手段,而TRS全文数据库对非结构化文本对象具有的管理和检索功能。jsp帮助文档为了实现对关系数据库中信息的高效全面检索,针对这部分数据,需要将其进行统一采集和统一的检索服务。这种方式的采集不需人工干预,完全采用自动化采集方式。
为了真正、全面的实现结构化和非结构化信息的全文检索,在全文检索设计中,采用TRS全文检索网关(TRS Gateway)实现关系型数据库数据全文检索功能。
TRS全文检索网关(TRS Gateway)是由北京拓尔思信息技术有限公司和五大关系型数据库厂商Oracle、Sybase、IBM、Informix、Microsoft鼎力合作,共同推出的实现TRS数据与主流关系型数据库SQL Server、Oracle、Sybase、DB2、Informix数据之间进行数据迁移的工具。该工具实现了RDBMS与TRS全文数据库之间数据共享,使用户在享有RDBMS卓越的数据处理功能的同时,拥有TRS优秀的全文检索功能。
系统特点:
TRS Gateway采用可视化的管理与配置工具使系统简单易用,轻松实现信息管理。用户只需要按步跟随任务创建向导的提示就可以创建更新任务,智能化定时运行工具,全面实现工作的无人监管
应用向导配置连接关系数据库及TRS数据库
可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。如:用户可以设置一个增量更新任务每隔30分钟执行一次,意即每隔30分钟将用户对RDBMS数据库表中数据的修改向TRS全文数据库中进行一次索引的更新。高度自动化的定时执行功能使用户不必手动进行数据索引的更新操作,只需启动TRS*Agent即可自动定时执行。
实时查看和修改任务的各种属性:对任何一个创建好的任务,用户可以查看其属性,并可修改属性。
应用向导配置源表和目标表以及字段对应关系
关系数据库与TRS全文数据库之间的数据更新方式支持:
完全更新
执行任务时,先将指定的目标数据库表中的内容清空,然后将源数据库表中所有符合条件的数据迁移到目标数据库中。适用第一次迁移数据。
数据追加
执行任务时,直接将源数据库表中所有符合条件的数据迁移到目标数据库中,并不将目标数据库表中的内容清空。适用一段时间向目标数据库追加一批数据时。
增量更新
执行任务时,将所有源数据库表中符合条件的更新了的数据(指进行了删除、添加或修改的数据)迁移到目标数据库中。可以通过设定定时方式由系统自动执行,适用每天有数据更新情况。
1.1.3
TRS Web Application Server(TRS WAS)主要由管理控制台及应用端两部分组成,它主要有以下特点:
完全基于Web的管理方式
管理控制台完全基于Web方式,使管理更加的灵活,真正实现了远程管理。应用端部分同样是完全基于Web方式实现。这种架构可以灵活的满足用户的需求,特别是ASP供应商。
跨平台的支持
由于TRS WAS4.0完全采用了基于Java的技术实现,也就完全继承了Java跨平台的特性,一套代码可以在多个平台上运行,省除了跨操作系统平台可能带来的代码移植问题。
灵活性及安全性的提高
TRS WAS4.0的开发是完全基于TRS TagLib基础上的。在开发的过程中,遵循了业务逻辑与显示风格控制分开显示的原则(CVM方式),将所有的业务逻辑封装在Servlet中,完成请
求的处理后,将请求转发到包含了TRS TagLib的JSP模板页面中,由此页面完成最终内容的格式化显示。
这种开发方式最大的优点就是灵活性。在页面表现方面,最终页面的表现控制由TRS TagLib完成,表现为在JSP页面中插入TRS置标,修改起来十分的方便,并且业务代码不包含在其中,只需要美工人员就可以很好的完成,大大的减少了维护工作量;而当业务逻辑发生改变时,只需要对涉及到的Servlet进行逻辑代码的修改,完全屏蔽了显示层,工作量也大幅度的减少,保证了项目快速灵活的实施。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。