在MyEclipse中搭建Nutch开发环境
1 以Java Project形式搭建
1.1 第一步:下载Nutch的压缩包
到Nutch的网站上下载Nutch的压缩包,这里以Nutch1.1为例。Nutch各版本的下载地址为/dist/nutch/,进入该网页后,到apache-nutch-1.文件,将其下载到自己的电脑里。
1.2 第二步:新建一个Java项目
打开MyEclipse,点击File→New→Java Project新建一个Java项目,输入Project Name如Nutch1.1,点击Finish按钮。如下图所示。
1.3 第三步:导入Nutch的代码
将第一步下载的Nutch压缩包解压,解压后的目录结构如下图所示。
将src/java目录下的整个org文件夹copy到Nutch1.1项目的src目录下。
1.4 第四步:导入Nutch的配置文件、Jar包、插件
在第三步解压后的目录下,到conf、lib、plugins三个文件夹,将这三个文件夹copy到Nutch1.1项目的根目录下(即与src目录同级)。Copy完后,Nutch1.1项目的目录结构如图所示。
1.5 第五步:替换Nutch中Hadoop的核心包
下载apache官方版本的Hadoop是不支持Windows下的存取操作的,我们需要将其替换为自己修改过的Jar包。在Nutch1.1项目的lib目录下,到Hadoop的核心包(如:hadoop-0.20.2-core.jar),将其删除,然后将自己的Jar包(hadoop-0.21.0-core.jar)copy到该目录下。
1.6 第六步:在MyEclipse中为项目加载Jar包
在MyEclipse中刷新Nutch1.1项目,可以看到如下所示的目录结构。
我们会发现src目录下有错误存在,这是因为尽管该项目的lib目录下有Jar包,但是没有将其加入到ClassPath变量中。下面来解决这个问题。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论