nutch下载（no touching下载）

本文目录一览：

1、向hdfs中存入待抓取的网站url hadoop fs -put urldir urldir 注：第一个urldir为本地文件夹，存放了url数据文件，每行一个url地址第二个urldir为hdfs的存储路径。

2、大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。

3、爬虫本质上不需要分布式。因为你要爬一个网站通常5-10个线程足够了，再多就是对网站压力测试了。你只需要将任务分配到不同的机器上，然后各运行各自己的，结果合并一下就可以。这个与nutch人map，reduse也没有什么差别。

4、为支撑应用计算使用，被存储在MySQL数据库中；而对于填充页面上对应的条件选择的数据，则使用Redis存储，每天/月会根据MySQL中的数据进行加工处理，生成易于快速查询的键值对类数据，存储到Redis中。

5、Hadoop起源于Apache Nutch项目，始于2002年，是Apache Lucene的子项目之一。

nutch下载（no touching下载）

到code.google.com/p/ik-analyzer/下载IK分词器；修改部分Nutch源代码，以使其适应中文搜索。

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。

我们可以使用Nutch搭建类似Google的完整的搜索引擎系统，进行局域网、互联网的搜索。

问题七：java如何实现文件搜索功能你这个就是百度的全文搜索功能，百度是去查所有网页中的相同字，这个是单一针对文件的，要建立索引用lucene，百度搜搜会有的。

第一类：分布式爬虫爬虫使用分布式，主要是解决两个问题：1)海量URL管理 2)网速现在比较流行的分布式爬虫，是Apache的Nutch。

Lucene是索引，Nutch是完整的搜索引擎实现，是基于Lucene来实现的。可以这么理解，Lucene是一个基础的东西，主要用于建立数据的索引，通过开发人员自己调用Lucene api使用。

首先，打开计算机属性的环境变量，找到classpath。然后打开jdbc安装路径，找到对应数据库jdbc驱动jar包，右键属性找到路径并复制然后添加到classpath。

classpath，顾名思义，是class的路径，就是java常用到的一些jar包的加载路径。打印方法：Windows系统中，打开命令提示符窗口，输入set，回车，如果你设置了classpath的话，即可在显示的列表中查看到。

java和python都有类似classpath（pythonpath）的一个概念，即程序查找路径。java虚拟机或者python编译器，会从这些路径中查找你程序中所使用的包/模块。

总的来说，我认为LUCENE会应用在本地服务器的网站内部搜索，而Nutch则扩展到整个网络、Internet的检索。当然LUCENE加上爬虫程序等就会成为Nutch，这样理解应该没错吧。

）nutch和logstash用来搞数据 nutch是做爬虫，从外部采集数据。 logstash是做日志采集转换，从内部采集日志做分析。说到爬虫，现在用python很多吧，python下的urllib、requests、crawler，都是爬虫神器。

nutch适合做搜索引擎，只是附加有crawl的功能。而heritrix是专门crawl的。用Lucene搞索引和查询很方便简单啊，数据库里面取出数据，封装成Lucene doc，用IKAnalyzer分词，建立索引啥的都给Lucene了。

Nutch Nutch是Lucene的作者Doug Cutting发起的另一个开源项目，它是构建于Lucene基础上的完整的 Web搜索引擎系统，虽然诞生时间不长，但却以其优良血统及简洁方便的使用方式而广收欢迎。

ElasticSearch是基于Lucene的实时分布式搜索引擎，天通苑北大青鸟认为由于其搜索稳定、可靠，速度快、安装方便等特点，是使用广泛的开源搜索引擎之一。

个人建议用lucene0或1稳定版本。lucene可根据自己的需要定制性比nutch强，nutch主要是封装了lucene，可以直接拿来做搜索，如何要自行设计的话，nutch会显得傻瓜。