ES-08-ElasticSearch数据分片（shard）

说明

ElasticSearch数据分片（shard）创建多分片索引、更改多分片索引副本分片数量、路由计算和分片控制官方文档：https://www.elastic.co/cn/ 核心概念》什么是数据分片（shard）？

一个分片是一个底层的工作单元，它仅保存了全部数据中的一部分，一个分片是一个Lucene的实例，它本身就是一个完整的搜索引擎。我们的文档被存储和索引到分片内，但是应用程序是直接与索引而不是与分片进行交互。Elasticsearch 是利用分片将数据分发到集群内各处的。分片是数据的容器，文档保存在分片内，分片又被分配到集群内的各个节点里。当你的集群规模扩大或者缩小时，Elasticsearch会自动的在各节点中迁移分片，使得数据仍然均匀分布在集群里。主分片：在索引建立的时候就已经确定了主分片数，但是副本分片数可以随时修改，索引内任意一个文档都归属于一个主分片，所以主分片的数目决定着索引能够保存的最大数据量。副分片：一个副本分片只是一个主分片的拷贝。副本分片作为硬件故障时保护数据不丢失的冗余备份，并为搜索和返回文档等读操作提供服务。》如何创建多分片索引？

创建索引时不提交分片参数默认是创建一个主分片和一个副本分片（要创建副本分片至少两台节点）可以指定参数规定分为几个主分片和副本创建索引时定义主分片数量后以后无法更改，但是副本数量可以更改》路由计算和分片控制

既然数据是被分别存储在不同的分片中，那么ES是如何定位数据到底存放在哪个分片的呢？路由计算

公式：hash(<文档id>) % <主分片数量>（如果有3个分片，最终结果必然=0、1、2）分片控制

用户可以访问任何一个节点获取数据，该节点被称为协调节点写数据

写数据时也是靠这个协调节点做路由的，先计算出数据所属分片，然后路由到相关分片所在节点进行写数据，然后找到副本进行数据复制，最终反馈结果读数据

类似写数据》分片策略

合理设置分片数

一个分片底层即为一个Lucene索引，会消耗一定的文件句柄、内存、CPU索引创建的时候分片就已经被设定好了，后期无法动态改变控制每个分片占用硬盘容量不超过ES最大JVM堆空间设置，一般对打32G通常遵循这个公式：节点数 <= 主分片数 * （副本分片数 + 1）常用操作》创建多分片索引

请求参数说明

number_of_shards：主分片数量number_of_replicas：副本数量

请求示例

请求方式：PUT

发送请求：

curl -X PUT http://192.168.3.201:9201/index001 -H 'Content-Type:application/json' -d'
{
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 1
    } 
}'

响应结果：

{
    "acknowledged": true,
    "shards_acknowledged": true,
    "index": "index001"
}

》更改多分片索引副本分片数量

请求示例

请求方式：PUT

发送请求：

curl -X PUT http://192.168.3.201:9201/index001 -H 'Content-Type:application/json' -d'
{
    "number_of_replicas": 2
}'

响应结果：

{
    "acknowledged": true
}

ES-08-ElasticSearch数据分片（shard）

大数据系统相关栏目本月热门文章