(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 102426609 A (43)申请公布日 2012.04.25 | ||
(21)申请号 CN201110446325.9
(22)申请日 2011.12.28
(71)申请人 厦门市美亚柏科信息股份有限公司
地址 361008 福建省厦门市软件园二期观日路12号美亚柏科大厦
(72)发明人 兰轶伦 汤伟宾 章正道
(74)专利代理机构 北京恒都律师事务所
代理人 何自刚
(51)Int.CI
G06F17/30
权利要求说明书 说明书 幅图 |
(54)发明名称
一种基于MapReduce编程架构的索引生成方法和装置 | |
(57)摘要
本发明涉及一种基于MapReduce编程架构的索引生成方法和装置,其中方法包括步骤:获取数据,并将数据整理成统一的格式,以记录集合形式进行存储;对记录集合中的每条数据记录进行头部封装;向HBase集批量插入经头部封装的数据记录;调用Hadoop集中的MapReduce服务和HBase服务,连接Solr集;进行Map操作,提交运行索引并行生成任务,形成倒排索引中间文件;进行Reduce操作,生成倒排索引文件;启动一个新的Map任务,对倒排索引文件进行分片操作,生成最终的索引。采用本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立,并具有可扩展、高容错、高性能等优点。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2023-03-17 | 专利实施许可合同备案的生效IPC(主分类):G06F17/30专利申请号:2011104463259专利号:ZL2011104463259合同备案号:X2023350000039让与人:厦门市美亚柏科信息股份有限公司受让人:小马宝莉(厦门)网络科技有限公司发明名称:一种基于MapReduce编程架构的索引生成方法和装置申请日:20111228申请公布日:20120425授权公告日:20130213许可种类:普通许可备案日期:20230301 | 专利实施许可合同备案的生效、变更及注销 |
权 利 要 求 说 明 书
1.一种基于MapReduce编程架构的索引生成方法,其特征在于,包括步 骤:
获取数据,并将所述数据整理成统一的格式,以记录集合形式进行存储;
对所述记录集合中的每条数据记录进行头部封装;
并行向HBase集批量插入经头部封装的所述数据记录;
调用Hadoop集中的MapReduce服务和HBase服务,连接Solr集,确 认集状态;
对所述HBase集中的数据记录进行Map操作,提交运行索引并行生成任 务,形成倒排索引中间文件;
对所述HBase集中的数据记录进行Reduce操作,将多份经过Map操作 的倒排索引中间文件汇总为统一的倒排索引文件;
启动一个新的Map任务,对所述倒排索引文件进行分片操作,将所述倒排 索引文件中每个倒排索引数据块对应到不同的Solr集节点上,生成最终的 索引。
2.根据权利要求1所述的索引生成方法,其特征在于,所述步骤:对所 述记录集合中的每条数据记录进行头部封装,具体包括:
读取所述记录集合中的数据记录;
在所述数据记录头部添加标示值;
在添加有所述标示值的数据记录头部添加主键值。
3.根据权利要求2所述的索引生成方法,其特征在于,所述步骤:进行 Map操作,提交运行索引并行生成任务,形成倒排索引中间文件,具体包括:
扫描所述HBase集中每一条数据记录,运用分词方法,将所述数据记录 切分为多个关键字的集合;
汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值,形成 所述倒排索
引中间文件。
4.根据权利要求3所述的索引生成方法,其特征在于,所述步骤:进行 Reduce操作,将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索 引文件,具体包括:
读取所述倒排索引中间文件;
汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值,进行 Reduce操作,形成所述倒排索引文件。
5.根据权利要求4所述的索引生成方法,其特征在于,所述启动一个新 的Map任务,对所述倒排索引文件进行分片操作,生成最终的索引具体包括:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论