elasticsearch完整基础教程--688IT编程网

翻译：潘飞（tinylambda@gmail）

基础概念

Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。

接近实时（NRT）

Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）。

集（cluster）

一个集就是由一个或多个节点组织在一起，它们共同持有你整个的数据，并一起提供索引和搜索功能。一个集由一个唯一的名字标识，这个名字默认就是 “elasticsearch”。这个名字是重要的，因为一个节点只能通过指定某个集的名字，来加入这个集。在产品环境中显式地设定这个名字是一个好习惯，但是使用默认值来进行测试/开发也是不错的。

节点（node）

一个节点是你集中的一个服务器，作为集的一部分，它存储你的数据，参与集的索引和搜索功能。和集类似，一个节点也是由一个名字来标识的，默认情况下，这个名字是一个随机的漫威漫画角的名字，这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理过程中，你会去确定网络中的哪些服务器对应于Elasticsearch集中的哪些节点。

一个节点可以通过配置集名称的方式来加入一个指定的集。默认情况下，每个节点都会被安排加入到一个叫做“elasticsearch”的集中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做“elasticsearch”的集中。

在一个集里，只要你想，可以拥有任意多个节点。而且，如果当前你的网络中没有运行任何Elasticsearch节点，这时启动一个节点，会默认创建并加入一个叫做“elasticsearch”的集。

索引（index）

一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母的），并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。

在一个集中，如果你想，可以定义任意多的索引。

类型（type）

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区，其语义完全由你来定。通常，会为具有一组共同字段的文档定义一个类型。比如说，我们假设你运营一个博客平台并且将你所有的

数据存储到一个索引中。在这个索引中，你可以为用户数据定义一个类型，为博客数据定义另一个类型，当然，也可以为评论数据定义另一个类型。

文档（document）

一个文档是一个可被索引的基础信息单元。比如，你可以拥有某一个客户的文档，某一个产品的一个文档，当然，也可以拥有某个订单的一个文档。文档以 JSON（Javascript Object Notation）格式来表示，而JSON是一个到处存在的互联网数据交互格式。

在一个index/type里面，只要你想，你可以存储任意多的文档。注意，尽管一个文档，物理上存在于一个索引之中，文档必须被索引/赋予一个索引的type。

分片和复制（shards & replicas）

一个索引可以存储超出单个结点硬件限制的大量数据。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任一节点都没有这样大的磁盘空间；或者单个节点处理搜索请求，响应太慢。

为了解决这个问题，Elasticsearch提供了将索引划分成多份的能力，这些份就叫做分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集中的任何节点上。

分片之所以重要，主要有两方面的原因：

- 允许你水平分割/扩展你的内容容量

- 允许你在分片（潜在地，位于多个节点上）之上进行分布式的、并行的操作，进而提高性能/吞吐量

至于一个分片怎样分布，它的文档怎样聚合回搜索请求，是完全由Elasticsearch管理的，对于作为用户的你来说，这些都是透明的。

在一个网络/云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片，或者直接叫复制。

复制之所以重要，有两个主要原因：

- 在分片/节点失败的情况下，提供了高可用性。因为这个原因，注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。

- 扩展你的搜索量/吞吐量，因为搜索可以在所有的复制上并行运行

总之，每个索引可以被分成多个分片。一个索引也可以被复制0次（意思是没有复制）或多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别

。分片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制的数量，但是你事后不能改变分片的数量。

默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个复制，这意味着，如果你的集中至少有两个节点，你的索引将会有5个主分片和另外5个复制分片（1个完全拷贝），这样的话每个索引总共就有10个分片。

这些问题搞清楚之后，我们就要进入好玩的部分了...

安装

Elasticsearch依赖Java 7。在本文写作的时候，推荐使用Oracle JDK 1.7.0_55版本。Java的安装，在

各个平台上都有差异，所以我们不想在这里深入太多细节。我只想说，在你安装Elasticsearch之前，你可以通过以下命令来检查你的Java版本（如果有需要，安装或者升级）：

java -version

echo $JAVA_HOME

一旦我们将Java安装完成，我们就可以下载并安装Elasticsearch了。其二进制文件可以从 /download这里下载，你也可以从这里下载以前发布的版本。对于每个版本，你可以在zip、tar、 DEB、RPM类型的包中选择下载。简单起见，我们使用tar包。

我们像下面一样下载Elasticsearch 1.1.1 tar包（Windows用户应该下载zip包）：

curl -L -O /elasticsearch/elasticsearch/elasticsearch-1.1.

然后，如下将其解压（Windows下需要unzip响应的zip包）：

tar -xzvf elasticsearch-1.1.

这将在你的当前目录下创建很多文件和目录。然后，我们进入到bin目录下：

java安装完整教程

cd elasticsearch-1.1.1/bin

至此，我们已经准备好开启我们的节点和单节点集（Windows用户应该运行elasticsearch.bat文件）：

./elasticsearch

如果一切顺利，你将看到大量的如下信息：

./elasticsearch

[2014-03-13 13:42:17,218][INFO ][node ] [New Goblin] version[1.1.1], pid[2085], build[5c03844/2014-02-25T15:52:53Z]

[2014-03-13 13:42:17,219][INFO ][node ] [New Goblin] initializing ...

[2014-03-13 13:42:17,223][INFO ][plugins ] [New Goblin] loaded [], sites []

[2014-03-13 13:42:19,831][INFO ][node ] [New Goblin] initialized

[2014-03-13 13:42:19,832][INFO ][node ] [New Goblin] starting ...

[2014-03-13 13:42:19,958][INFO ][transport ] [New Goblin] bound_address {inet[/0:0:0:0:0:0:0:0:9300]}, publish_address {inet[/192.168.8.112:9300]}

[2014-03-13 13:42:23,030][INFO ][cluster.service] [New Goblin] new_master [New Goblin][rWMtGj3dQouz2r6ZFL9v4g][mwubuntu1][inet[/192.168.8.112:9300]], reason: zen-disco-join (elected_as_master)

[2014-03-13 13:42:2

3,100][INFO ][discovery ] [New Goblin] elasticsearch/rWMtGj3dQouz2r6ZFL9v4g

[2014-03-13 13:42:23,125][INFO ][http ] [New Goblin] bound_address {inet[/0:0:0:0:0:0:0:0:9200]}, publish_address {inet[/192.168.8.112:9200]}

[2014-03-13 13:42:23,629][INFO ][gateway ] [New Goblin] recovered [1] indices into cluster_state

[2014-03-13 13:42:23,630][INFO ][node ] [New Goblin] started

不去涉及太多细节，我们可以看到，一叫做“New Goblin”（你会见到一个不同的漫威漫画角）的节

点启动并且将自己选做单结点集的master。现在不用关心master是什么东西。这里重要的就是，我们在一个集中开启了一个节点。

正如先前提到的，我们可以覆盖集或者节点的名字。我们可以在启动Elasticsearch的时候通过命令行来指定，如下：

./elasticsearch --cluster.name my_cluster_name --node.name my_node_name

也要注意一下有http标记的那一行，它提供了有关HTTP地址（192.168.8.112）和端口（9200）的信息，通过这个地址和端口我们就可以访问我们的节点了。默认情况下，Elasticsearch使用9200来提供对其REST API的访问。如果有必要，这个端口是可以配置的。

探索你的集

rest接口

现在我们已经有一个正常运行的节点（和集）了，下一步就是要去理解怎样与其通信了。幸运的是，Elasticsearch提供了非常全面和强大的 REST API，利用这个REST API你可以同你的集互。下面是利用这个API，可以做的几件事情：

- 检查你的集、节点和索引的健康状态、和各种统计信息

- 管理你的集、节点、索引数据和元数据

- 对你的索引进行CRUD（创建、读取、更新和删除）和搜索操作

- 执行高级的查询操作，像是分页、排序、过滤、脚本编写（scripting）、小平面刻画（faceting）、聚合（aggregations）和许多其它操作

集健康

让我们以基本的健康检查作为开始，我们可以利用它来查看我们集的状态。此过程中，我们使用curl，当然，你也可以使用任何可以创建HTTP/REST 调用的工具。我们假设我们还在我们启动Elasticsearch的节点上并打开另外一个shell窗口。

要检查集健康，我们将使用_cat API。需要事先记住的是，我们的节点HTTP的端口是9200：

curl 'localhost:9200/_cat/health?v'

相应的响应是：

epoch timestamp cluster al node.data shards pri relo init unassign

1394735289 14:28:09 elasticsearch green 1 1 0 0 0 0 0

可以看到，我们集的名字是“elasticsearch”，正常运行，并且状态是绿。

当我们询问集状态的时候，我们要么得到绿、黄或红。绿代表一切正常（集功能齐全），黄意味着所有的数据都是可用的，但是某些复制没有被分配（集功能齐全），红则代表因为某些原因，某些数据不可用。注意，即使是集状态是红的，集仍然是部分可用的（它仍然会利用可用的分片来响应搜索请求），但是可能你需要尽快修复它，因为你有丢失的数据。

也是从上面的响应中，我们可以看到，一共有一个节点，由于里面没有数据，我们有0个分片。注意，由于我们使用默认的集名字（elasticsearch），并且由于Elasticsearch默认使用网络多播（multicast）发现其它节点，如果你在你的网络中启动了多个节点，你就已经把她们加入到一个集中了。在这种情形下，你可能在上面的响应中看到多个节点。

我们也可以获得节集中的节点列表：

curl 'localhost:9200/_cat/nodes?v'

对应的响应是:

curl 'localhost:9200/_cat/nodes?v'

host ip heap.percent ram.percent le master name

mwubuntu1 127.0.1.1 8 4 0.00 d * New Goblin

这儿，我们可以看到我们叫做“New Goblin”的节点，这个节点是我们集中的唯一节点。

列出所有的索引

让我们看一下我们的索引：

curl 'localhost:9200/_cat/indices?v'

响应是：

curl 'localhost:9200/_cat/indices?v'

health index pri unt docs.deleted store.size pri.store.size

这个结果意味着，在我们的集中，我们没有任何索引。

创建一个索引

现在让我们创建一个叫做“customer”的索引，然后再列出所有的索引：

curl -XPUT 'localhost:9200/customer?pretty'

curl 'localhost:9200/_cat/indices?v'

第一个命令使用PUT创建了一个叫做“customer”的索引。我们简单地将pretty附加到调用的尾部，使其以美观的形式打印出JSON响应（如果有的话）。

响应如下：

curl -XPUT 'localhost:9200/customer?pretty'

{

"acknowledged" : true

}

curl 'localhost:9200/_cat/indices?v'

health index pri unt docs.deleted store.size pri.store.size

yellow customer 5 1 0 0 495b 495b

第二

688IT编程网

elasticsearch完整基础教程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

elasticsearch完整基础教程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式