Elaticsearch的基本操作

The Elastic Stack包括 Elasticsearch、Kibana、Beats 和 Logstash（也称为 ELKStack）
能够安全可靠地获取任何

来源、任何格式的数据，然后实时地对数据进行搜索、分析和可视化。Elaticsearch，简称为 ES。
Elaticsearch是一个开源的高扩展的分布式全文搜索引擎
是整个 Elastic Stack 技术栈的核心。它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理 PB 级别的数据

一、全文搜索引擎

指的是目前广泛应用的主流搜索引擎。
它的工作原理是计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式
这个过程类似于通过字典中的检索字表查字的过程。

二、下载软件

官网地址：https://www.elastic.co/cn/
下载地址：https://www.elastic.co/cn/downloads/past-releases#elasticsearch

1、安装elasticsearch-7.15.1

解压即安装完毕，解压后的 Elasticsearch 的目录结构如下：

进入 bin 文件目录，点击 elasticsearch.bat 文件启动 ES 服务
**9200 端口为浏览器访问的 http协议 RESTful 端口。**打开浏览器测试即可

注意：1、如果cmd中出现乱码
打开config目录------》打开jvm.options文件
修改编码集：

-Xms1g
-Xmx1g
-Dfile.encoding=GBK

最后保存，重新启动即可。

注意：2、双击启动窗口闪退，通过路径访问追踪错误
如果是“空间不足”，请修改config----》jvm.options 配置文件

# 设置 JVM 初始内存为 1G。此值可以设置与-Xmx 相同，以避免每次垃圾回收完成后 JVM 重新分配内存
# Xms represents the initial size of total heap space
# 设置 JVM 最大可用内存为 1G
# Xmx represents the maximum size of total heap space
-Xms1g
-Xmx1g

2、安装elasticsearch-head插件

elasticsearch-head被称为是弹性搜索集群的web前端，head插件主要是用来和elastic Cluster交互的Web前端
GitHub托管地址：https://github.com/mobz/elasticsearch-head
将插件下载后，拖到浏览器即可，如下图所示：

三、Elasticsearch的数据格式

Elasticsearch 是面向文档型数据库，一条数据在这里就是一个文档，用 JSON 作为文档序列化的格式。

RestFul
直接通过浏览器向 Elasticsearch 服务器发请求，那么需要在发送的请求中包含HTTP 标准的方法，而 HTTP 的大部分特性且仅支持 GET 和 POST 方法。

四、Elasticsearch的基本操作 1、索引操作

①创建索引
对比关系型数据库，创建索引就等同于创建数据库。
在 Postman 中，向 ES 服务器发 PUT 请求：http://127.0.0.1:9200/shopping
注意：索引不能重复添加！详细请看米豆腐写的这篇博客~~
Elasticsearch创建索引报错
②查看单个索引
则是GET请求：http://127.0.0.1:9200/shopping

{
 "shopping"【索引名】: { 
 "aliases"【别名】: {},
 "mappings"【映射】: {},
 "settings"【设置】: {
 "index"【设置 - 索引】: {
 "creation_date"【设置 - 索引 - 创建时间】: "1614265373911",
 "number_of_shards"【设置 - 索引 - 主分片数量】: "1",
 "number_of_replicas"【设置 - 索引 - 副分片数量】: "1",
 "uuid"【设置 - 索引 - 唯一标识】: "eI5wemRERTumxGCc1bAk2A",
 "version"【设置 - 索引 - 版本】: {
 "created": "7080099"
 },
 "provided_name"【设置 - 索引 - 名称】: "shopping"
 }
 }
 }
}

③查看所有索引
GET请求：http://127.0.0.1:9200/_cat/indices?v
请求路径中的_cat 表示查看的意思，indices 表示索引
返回结果如下：

④删除索引
DELETe 请求：http://127.0.0.1:9200/shopping

2、文档操作

①创建文档
POST 请求：http://127.0.0.1:9200/shopping/_doc
请求体内容：

{
 "title":"小米手机",
 "category":"小米",
 "price":3999.00
}

{
 "_index"【索引】: "shopping",
 "_type"【类型-文档】: "_doc",
 "_id"【唯一标识】: "Xhsa2ncBlvF_7lxyCE9G", #可以类比为 MySQL 中的主键，随机生成
 "_version"【版本】: 1,
 "result"【结果】: "created", #这里的 create 表示创建成功
 "_shards"【分片】: {
 "total"【分片 - 总数】: 2,
 "successful"【分片 - 成功】: 1,
 "failed"【分片 - 失败】: 0
 },
 "_seq_no": 0,
 "_primary_term": 1
}

没有指定数据唯一性标识（ID），默认情况下，ES 服务器会随机
生成一个。

②自定义唯一性标识
方法1、需要在创建时指定：http://127.0.0.1:9200/shopping/_doc/1
方法2、把_doc写成_create创建文档也是可以的：http://127.0.0.1:9200/shopping/_create/1
如果增加数据时明确数据主键，那么请求方式也可以为 PUT。

③根据主键查询
GET请求：http://127.0.0.1:9200/shopping/_doc/10086

④全部查询
GET请求：http://127.0.0.1:9200/shopping/_search

⑤修改文档-全量修改(put幂等性)
PUT请求：http://127.0.0.1:9200/shopping/_doc/10086
请求体内容：

{
 "title":"华为手机",
 "category":"华为",
 "price":1999.00
}

⑥修改文档-局部修改(post非幂等性)
POST请求：http://127.0.0.1:9200/shopping/_update/10086
请求体内容：

{
    "doc": {
        "title": "华为手机"
    }
}

⑦删除文档
DELETE请求：http://127.0.0.1:9200/shopping/_doc/10086

3、查询文档

①条件查询（带参数）
GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    //请求参数拼在地址栏可能会乱码,所以推荐放在请求体中
    "query": {
        //匹配查询
        "match": {
            "category": "小米"
        }
    }
}

Elasticsearch 提供了基于 JSON 提供完整的查询 DSL 来定义查询

②条件查询（无参数）
GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    //有body体但是没参数,相当于全查询
    "query": {
        //全量查询
        "match_all": {}
    }
}

语法：

{
 "query": {
 "match_all": {}
 }
}
"query"：这里的 query 代表一个查询对象，里面可以有不同的查询属性
 "match_all"：查询类型，例如：match_all(代表查询所有)， match，term ， range 等等
 {查询条件}：查询条件会根据类型的不同，写法也有差异

{
 "took【查询花费时间，单位毫秒】" : 1116,
 "timed_out【是否超时】" : false,
 "_shards【分片信息】" : {
 "total【总数】" : 1,
 "successful【成功】" : 1,
 "skipped【忽略】" : 0,
 "failed【失败】" : 0
 },
 "hits【搜索命中结果】" : {
 "total"【搜索条件匹配的文档总数】: {
 "value"【总命中计数的值】: 3,
 "relation"【计数规则】: "eq" # eq 表示计数准确， gte 表示计数不准确
 },
 "max_score【匹配度分值】" : 1.0,
 "hits【命中结果集合】" : [
 。。。
 }
 ]
 }
}

term 查询，精确的关键词匹配查询，不对查询条件进行分词。
terms 查询和 term 查询一样，但它允许你指定多值进行匹配。
②条件查询（无参数）
GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    //有body体但是没参数,相当于全查询
    "query": {
        //全量查询
        "match_all": {}
    }
}

match 匹配类型查询，会把查询条件进行分词，然后进行查询，多个词条之间是 or 的关系
multi_match 与 match 类似，不同的是它可以在多个字段中查询。

Elasticsearch 在搜索的结果中，会把文档中保存在_source 的所有字段都返回。
如果我们只想获取其中的部分字段，我们可以添加_source 的过滤

includes：来指定想要显示的字段
excludes：来指定不想要显示的字段

bool把各种其它查询通过must（必须）、must_not（必须不）、should（应该）的方式进行组合

③分页查询
from：当前页的起始索引，默认从 0 开始。 from = (pageNum - 1) * size
size：每页显示多少条

GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    "query": {
        "match_all": {}
    },
    //(页码-1)*每页数据条数
    "from": 0, //偏移量,0表示第一页,即页码-1
    "size": 2, //每页的个数
    "_source": [
        "title" //查询结果仅显示title字段
    ],
    //排序
    "sort": {
        //对哪个字段进行排序
        "price": {
            "order": "asc" //asc升序，desc降序
        }
    }
}

④多条件查询
GET请求：

http://127.0.0.1:9200/shopping/_search

请求体内容：
1、

{
    //查询
    "query": {
        //bool表示条件的意思
        "bool": {
            //must表示多个条件必须同时成立,[]表示数组
            "must": [
                {
                    "match": {
                        "category": "小米"
                    }
                },
                {
                    "match": {
                        "price": 3999.00
                    }
                }
            ]
        }
    }
}

2、

{
    //bool表示条件的意思
    "query": {
        "bool": {
            //should表示或者,华为或者小米满足一个就能查出来
            //效果不明显的话自行创建/修改数据
            "should": [
                {
                    "match": {
                        "category": "小米"
                    }
                },
                {
                    "match": {
                        "category": "华为"
                    }
                }
            ]
        }
    }
}

⑤范围查询
range 查询找出那些落在指定区间内的数字或者时间。range 查询允许以下字符：

GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    //bool表示条件的意思
    "query": {
        "bool": {
            //should表示或者,华为或者小米满足一个就能查出来
            "should": [
                {
                    "match": {
                        "category": "小米"
                    }
                },
                {
                    "match": {
                        "category": "华为"
                    }
                }
            ],
            //过滤
            "filter": {
                //范围
                "range": {
                    "price": {
                        //gt 大于 lt小于
                        "gt": 2000
                    }
                }
            }
        }
    }
}

⑤全文检索

GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    //es会将数据文字进行分词拆解操作，并将拆解后的数据保存到倒排索引中。
    //这样即使只使用文字的一部分也能查到数据。
    "query": {
        "match": {
            "category": "米" //可以查看小米
            //"category": "小华" //小华可以同时查到小米和华为
        }
    }
}

⑥完全匹配
GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    "query": {
        //完全匹配
        "match_phrase": {
            "category": "小华" //匹配不到小米和华为,但是米还是可以匹配到小米
            //"category": "米"
        }
    }
}

⑦高亮查询
在进行关键字搜索时，搜索出的内容中的关键字会显示不同的颜色，称之为高亮。
Elasticsearch 可以对查询内容中的关键字部分，进行标签和样式(高亮)的设置。
在使用 match 查询的同时，加上一个 highlight 属性：
 pre_tags：前置标签
 post_tags：后置标签
 fields：需要高亮的字段
 title：这里声明 title 字段需要高亮，后面可以为这个字段设置特有配置，也可以空着

GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    "query": {
        "match_phrase": {
            "category": "小米"
        }
    },
    //高亮
    "highlight": {
        "fields": {
            "category": {}
        }
    }
}

⑧聚合查询
聚合允许使用者对 es 文档进行统计分析，类似与关系型数据库中的 group by，当然还有很多其他的聚合，例如取最大值、平均值等等。
 对某个字段取最大值 max
 对某个字段取最小值 min
 对某个字段求和 sum
 对某个字段取平均值 avg
 对某个字段的值进行去重之后再取总数cardinality
 stats 聚合，对某个字段一次性返回 count，max，min，avg 和 sum 五个指标
GET请求：http://127.0.0.1:9200/shopping/_search
请求体内容：

{
    //想要对查询结果进行分组或者统计分析，要修改请求体body
    "aggs": { //聚合操作
        "price_group": { //名称，随意取名
            "terms": { //可选项:分组terms/ 平均值avg/ 最大值max/ 最小值min
                "field": "price" //(分组)字段
            }
        }
    },
    "size": 0 //不显示原始数据，只看分组数据
}

模糊查询
返回包含与搜索字词相似的字词的文档。
编辑距离是将一个术语转换为另一个术语所需的一个字符更改的次数。这些更改可以包括：
 更改字符（box → fox）
 删除字符（black → lack）
 插入字符（sic → sick）
 转置两个相邻字符（act → cat）
为了找到相似的术语，fuzzy 查询会在指定的编辑距离内创建一组搜索词的所有可能的变体或扩展。然后查询返回每个扩展的完全匹配。
通过 fuzziness 修改编辑距离。一般使用默认值 AUTO，根据术语的长度生成编辑距离。

单字段排序
sort 可以让我们按照不同的字段进行排序，并且通过 order 指定排序的方式。desc 降序，asc升序。

桶聚合查询
桶聚和相当于 sql 中的 group by 语句
 terms 聚合，分组统计
 在 terms 分组下再进行聚合

4、映射信息

建索引库(index)中的映射了，类似于数据库(database)中的表结构(table)。
创建数据库表需要设置字段名称，类型，长度，约束等；
索引库也一样，需要知道这个类型下有哪些字段，每个字段有哪些约束信息，这就叫做映射(mapping)。
注意：有了索引库，等于有了数据库中的 database。

①创建索引
PUT请求：http://127.0.0.1:9200/user

②映射信息
PUT请求：http://127.0.0.1:9200/user/_mapping
请求内容：

{
    //数据
    "properties": {
        "name": {
            //类型为文本
            "type": "text",
            //这个字段可以索引查询
            "index": true
        },
        "sex": {
            //必须完全匹配
            "type": "keyword",
            "index": true
        },
        "tel": {
            "type": "keyword",
            //不能被索引查询到
            "index": false
        }
    }
}

映射数据说明：
 字段名：任意填写，下面指定许多属性，例如：title、subtitle、images、price
 type：类型，Elasticsearch 中支持的数据类型非常丰富，说几个关键的：
 String 类型，又分两种：
text：可分词
keyword：不可分词，数据会作为完整字段进行匹配
 Numerical：数值类型，分两类
基本数据类型：long、integer、short、byte、double、float、half_float
浮点数的高精度类型：scaled_float
 Date：日期类型
 Array：数组类型
 Object：对象
 index：是否索引，默认为 true，也就是说你不进行任何配置，所有字段都会被索引。
true：字段会被索引，则可以用来进行搜索
false：字段不会被索引，不能用来搜索
 store：是否将数据进行独立存储，默认为 false
原始的文本会存储在_source 里面，默认情况下其他提取出来的字段都不是独立存储
的，是从_source 里面提取出来的。当然你也可以独立的存储某个字段，只要设置
“store”: true 即可，获取独立存储的字段要比从_source 中解析快得多，但是也会占用
更多的空间，所以要根据实际业务需求来设置。
 analyzer：分词器，这里的 ik_max_word 即使用 ik 分词器

③查看映射
GET请求：http://127.0.0.1:9200/user/_mapping

④增加数据（文档）
PUT请求：http://127.0.0.1:9200/user/_doc/1001
请求体内容：

{
    "name": "小米",
    "sex": "男的",
    "tel": "1111"
}

⑤查询name
GET请求：http://127.0.0.1:9200/user/_search
请求体内容：

{
    "query": {
        "match": {
            "name": "小"    //查询结果name有分词效果,证明了映射有效
        }
    }
}

⑥查询sex
GET请求：http://127.0.0.1:9200/user/_search
请求体内容：

{
    "query": {
        "match": {
            "sex": "男"    //没查出来，因为分词是keyword不可分词，"男的"才可以查出来。
        }
    }
}

⑥查询tel
GET请求：http://127.0.0.1:9200/user/_search
请求体内容：

{
    "query": {
        "match": {
            "tel": "1111"    //it is not indexed,映射规则中tel不可被索引，不支持查询
        }
    }
}

5、集群

①创建索引
PUT请求：localhost:1001/users
请求体内容：

{
 "settings" : {
     //主分片
 "number_of_shards" : 3,
 //副本
 "number_of_replicas" : 1
 }
}

②查看索引
GET请求：localhost:1001/users

③集群状态-查询
GET请求：http://localhost:1001/_cluster/health

④新建请求
POST请求：https://58.20.63.218/index.php/nat
请求体内容：

{
    "opr":"setStatus",
    "enable":false,
    "ids":["ftp"]
}

Elaticsearch的基本操作

大数据系统相关栏目本月热门文章