浅谈--Nutch-2.2.1+Hbase-0.90.4+Slor-4.4.0+Hadoop-1.1.2组合分布式搜索引擎集搭建指南
介绍
Nutch 网络爬虫
Hbase 分布式存储系统Solr 搜索服务器
Hbase 分布式存储系统Solr 搜索服务器
版本说明
由于Nutch\Hbase\Solr他们都各自做在自己的版本修改,所以配置他们三者有不同的方法.这里也是参考网络文档做了他们最新版本的配置 Nutch版本(2.2.1) apache-nutch-2.2.;由于改版本的Nutch默认的Hbase版本是0.90.4 所以这里就使用的hbase-0.90. ;同时Nutch默认的Solr版本是3.4.0版本,但由于Solr4与三的版本变化比较大,所以这里我使用的是当前最新的4版本solr-4.。apache-nutch-2.2.hbase-0.90.solr-4.
下载
Nutch 首页/ 下载地址apache-nutch-2.2.Hbase 首页/ 下载地址hbase-0.90.Solr 首页/solr/ 下载地址 solr-4.
安装JDK
参考:
Linux安装JDK
Linux安装JDK
安装Hbase
单机版的HBase
由于Hbase是一个分布式的数据库,所以我们经常与Hadoop联系起来一起用。可以参考(Hbase入门——安装),但我们在开放中其实未必有条件使用。使用这里就可以不于hadoop一起使用,使用这里就直接安装单击版的Hbase。来在官方的安装和使用/book/quickstart.html。
由于Hbase是一个分布式的数据库,所以我们经常与Hadoop联系起来一起用。可以参考(Hbase入门——安装),但我们在开放中其实未必有条件使用。使用这里就可以不于hadoop一起使用,使用这里就直接安装单击版的Hbase。来在官方的安装和使用/book/quickstart.html。
解压hbase-0.90.
先拷贝文件到/usr/local/目录下
$ tar xfzhbase-0.90.
$ chmod -R777 hbase-0.90.4
编辑 l
在
中添加如下内容。其实这里也可以不做修改,如果不做修改,就会把数据存放到tmp临时目录中,重启就没有数据。如果做简单的测试就不用麻烦去配置文件。
中添加如下内容。其实这里也可以不做修改,如果不做修改,就会把数据存放到tmp临时目录中,重启就没有数据。如果做简单的测试就不用麻烦去配置文件。
<property>
<name&dir</name>
<value>file:////usr/local/hbase-0.90.4/hbase</value>
</property>
<property>
<name&keeper.property.dataDir</name>
<value>/usr/local/hbase-0.90.4/zookeeper</value>
</property>
启动Hbase
$./cphbase-0.90.4
$bin/start-hbase.sh
查看Logs日志,如果不报错就证明启动成功。
安装Nutch
在安装Nutch与Hbase结合前,可以先参考官方文档/nutch/Nutch2Tutorial
网上有很多Nutch与Mysql结合的实力,但Nutch与Hbase结合的很少,这里也是参考官方文档做了相应操作。
解压apache-nutch-2.2.
$ tar -zxvfapache-nutch-2.2.
$ mvapache-nutch-2.2.1-src nutch-2
$ chmod -R777 nutch-2
修改conf/ l
<property> <name>storage.data.store.class</name><value>a.hbase.store.HBaseStore</value><description>Default class for storingdata</description></property>
修改l
取消注释
<dependency org="a"name="gora-hbase" rev="0.3" conf="*->default"/>
配置conf/gora.properties
添加
gora.datastore.default=a.hbase.store.HBaseStore
安装ANT
由于nutch是基于ant安装的,使用首先要先安装ANT。安装可以参考
linux安装ant
linux安装ant
安装Nutch
Nutch的安装需要基于网络,由于原文件中还有很多jar没有包含,所以修要运行ant来自动下载
$ cdnutch-2
$ ant
这里需要等待一段时间,这里会在nutch-2下生成runtime目录
(180M左右)
,其实就是最后的二进制目录。
(180M左右)
,其实就是最后的二进制目录。
在配置nutch-2/runtime/local/conf/l在添加如下配置信息
在添加如下配置信息
<property>
<name>http.agent.name</name>
hadoop分布式集搭建<value>Nutch Spider</value>
</property>
<property>
<name>http.accept.language</name>
<value>ja-jp,en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Valueof the “Accept-Language” request header field.
This allowsselecting non-English language as default one to retrieve.
It is auseful setting for search engines build for certain national group.
</description>
</property>
<property>
<name>ding.default</name>
<value>utf-8</value>
<description>Thecharacter encoding to fall back to when no other information
isavailable</description>
</property>
配置抓取网址
可以参考
/nutch/NutchTutorial
/nutch/NutchTutorial
$ cdruntime/local
$ mkdir -purls
$ cd urls
$
在添加
/
运行Nutch
$/bin/nutch inject urls $ /bin/nutch readdb
如果不报错证明已成功安装
在Hbase测试
在运行
在Hbase测试
在运行
hbase shell
list
就可以查看到webpage表,证明已经成功创建。
安装Solr
这里使用的是Solr4
解压solr-4.4.
拷贝到/usr/local目录
$ tar -zxvfsolr-4.4.
$ mv solr-4.4.0solr-4
$ chmod -R777 solr-4
替换l文件
这里下载
nlp.solutions.asia/wp-content/uploads/2012/l(l
)
nlp.solutions.asia/wp-content/uploads/2012/l(l
)
把下载的l文件替换掉 /usr/local/solr-4/example/solr/collection1/conf/l(这里正时solr4与nutch格式)
运行Solr
java -jarstart.jar
通过浏览器访问
127.0.0.1:8983/solr 就可以参考相应的信息
127.0.0.1:8983/solr 就可以参考相应的信息
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论