Lucene搜索入门教程--688IT编程网

Lucene搜索入门教程

1. 了解搜索技术

1.1搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

搜索引擎的原理

可以看到搜索引擎的功能主要是三部分:

● 爬行和抓取数据（爬虫多用python来编写、但是java也能实现）

● 对数据对预处理（提取文字、中文分词、建立倒排索引）

提供搜索功能(用户输入关键词后、去索引库搜索数据)

在上述三个步骤中,java要解决的往往是后两个步骤：数据处理和搜索。那么,我们之前学习的mysql知识也能实现数据的存储和搜索,为什么还要学新的东西呢？

1.2 传统数据库搜索的问题

program汉语

要实现类似百度的复杂搜索,或者京东的商品搜索,如果使用传统的数据库存储数据,那么会存在一系列的问题：

● 分布式架构和集中式架构的区别数据库数据单表存储能力有限，无法存储海量数据that怎样读

● 解决大数据，可以进行分库分表。但是分库分表会增加业务复杂度

eclipse怎么导入项目包● 搜索只能通过模糊匹配，效率极低

● 模糊搜索可能导致全表扫描,效率非常差

在这里，比较棘手的其实是第二个问题：查询效率低，类似百度和京东这样的网站，对性能要求极高。如果用户点击搜索需要很久才能拿到数据，没人愿意一直等待下去。

css输入框样式

那么问题来了:如何才能提高模糊搜索时的效率呢？

答案是：倒排索引技术

1.3 什么是倒排索引

python入门教程非常详细word倒排索引是一种存储数据的方式,与传统查有很大区别：

● 传统查:采用数据按行存储,查时逐行扫描,或者根据索引查,然后匹配搜索条件,效率较差.概括来讲是先到文档,然后看是否匹配.

传统线性查一个10MB的word文件，查关键字如果在文档最后,大约3秒钟

● 倒排索引：首先对文档数据按照id进行索引存储,然后对文档中的数据分词,记录对词条进行索引，并记录词条在文档中出现的位置。这样查时只要到了词条，就到了对应的文档。概括来讲是先到词条，然后看看哪些文档包含这些词条。

688IT编程网

Lucene搜索入门教程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Lucene搜索入门教程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式