栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

ElasticSearch基础入门

ElasticSearch基础入门

ElasticSearch基础入门

小注解:全原创,一个字一个字敲的,全测试过了,可以跑通,猿猴们,欢迎大家点点关注,收藏点赞走起,持续更新原创文档,通俗易懂

1.核心概念 1.1 索引(Index)

白话:相当于mysql的数据库一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群中,可以定义任意多的索引。能搜索的数据必须索引,这样的好处是可以提高查询速度,比如:新华字典前面的目录就是索引的意思,目录可以提高查询速度。ElasticSearch索引的精髓:一切设计都是为了提高搜索的性能 1.2 类型(Type)

白话:相当于mysql的表,不过es是直接索引对应文档的,这个type没意义,7.0以上后就被弃用了在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。通常,会为具有一组共同字段的文档定义一个类型。不同的版本,类型发生了不同的变化==(类型其实毫无意义)== 1.3 文档(document)

白话:文档就相当于mysql中表中的一行行数据,一条文档=一条数据(由JSON组成的数据)一个文档是一个可被索引的基础信息单元,也就是一条数据,比如:你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个订单的一个文档。文档以 JSON(Javascript Object Notation)格式来表示,而 JSON 是一个到处存在的互联网数据交互格式。在一个 index/type 里面,你可以存储任意多的文档。 1.4 字段(Field)

白话:字段相当于mysql中表的字段(列),比如age年龄字段,name名称字段相当于是数据表的字段,对文档数据根据不同属性进行的分类标识。 1.5 映射(Mapping)

白话:定义规格,比如某个字段是否可以被索引等等mapping 是处理数据的方式和规则方面做一些限制,如:某个字段的数据类型、默认值、分析器、是否被索引等等。这些都是映射里面可以设置的,其它就是处理 ES 里面数据的一些使用规则设置也叫做映射,按着最优规则处理数据对性能提高很大,因此才需要建立映射,并且需要思考如何建立映射才能对性能更好。 1.6 分片(Shards)

白话:类似mysql中的水平分表,一个表存多了搜索起来卡,就分成多个表进行存储,作用:缓解压力,提高吞吐量

一个索引可以存储超出单个节点硬件限制的大量数据。比如,一个具有 10 亿文档数据的索引占据 1TB 的磁盘空间,而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求,响应太慢。为了解决这个问题,Elasticsearch 提供了将索引划分成多份的能力,每一份就称之为分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点上。

分片很重要,主要有两方面的原因:

    允许你水平分割 / 扩展你的内容容量。允许你在分片之上进行分布式的、并行的操作,进而提高性能/吞吐量。

至于一个分片怎样分布,它的文档怎样聚合和搜索请求,是完全由 Elasticsearch 管理的,对于作为用户的你来说,这些都是透明的,无需过分关心。

被混淆的概念是,一个Lucene索引 我们在Elasticsearch称作 分片 。 一个Elasticsearch索引 是分片的集合。 当Elasticsearch在索引中搜索的时候, 他发送查询到每一个属于索引的分片(Lucene索引),然后合并每个分片的结果到一个全局的结果集。

1.7 副本(Replicas)

白话:副本相当于备份,如果分片挂了,副本顶上,还能进行负载均衡,分片和副本两个切换着来使用,集群环境下,副本是存储在其他集群节点上的,为了保证高可用。在一个网络 / 云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch 允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片(副本)。复制分片之所以重要,有两个主要原因:

在分片/节点失败的情况下,提供了高可用性。因为这个原因,注意到复制分片从不与原/主要(original/primary)分片置于同一节点上是非常重要的。扩展你的搜索量/吞吐量,因为搜索可以在所有的副本上并行运行。总之,每个索引可以被分成多个分片。一个索引也可以被复制 0 次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后,你可以在任何时候动态地改变复制的数量,但是你事后不能改变分片的数量。默认情况下,Elasticsearch 中的每个索引被分片 1 个主分片和 1 个复制,这意味着,如果你的集群中至少有两个节点,你的索引将会有 1 个主分片和另外 1 个复制分片(1 个完全拷贝),这样的话每个索引总共就有 2 个分片,我们需要根据索引需要确定分片个数。 1.8 分配(Allocation)

白话:也就是分配规格,集群下如果有3个节点,其中一个是主节点,由主节点来分配分片副本的规格,参考下面系统架构的图

P:分片

R:副本

将分片分配给某个节点的过程,包括分配主分片或者副本。如果是副本,还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。

##2.ElasticSearch索引概念

2.1 正排索引

根据索引id查询value(根据key查询value)

2.2 倒排索引

根据值查询id(根据value查询key)

es会先对value进行拆分(分词),value会对应相对应的id,查询的时候会根据这个value查询所对应的一些id 3.索引操作 3.1 创建索引

对比关系型数据库,创建索引就相当于创建数据库

向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名(数据库名)

文档类型

text 可被分词keyword 不可被分词

index 是否索引

true 可以被索引(默认)false 不可被索引(搜索不到)

PUT 索引名
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text" //text可被分词
        , "index": true
      },
      "sex":{
        "type": "keyword" //keyword 不可被分词
        ,"index": true
      },
      "tel":{
        "type": "keyword"
        ,"index": false //index = false 不可被索引
      }
    }
  }
3.2 获取索引信息

向ES服务器发送GET请求:http://127.0.0.1:9200/索引名(数据库名) 3.3 获取所有索引

向ES服务器发送GET请求:http://127.0.0.1:9200/_cat/indices?v 3.4 删除索引

向ES服务器发送DELETe请求:http://127.0.0.1:9200/索引名(数据库名) 4.文档操作 4.1 创建文档

文档=数据可以PUT也可以POSTPUT:http://127.0.0.1:9200/索引名/_doc/idPOST:http://127.0.0.1:9200/索引名/_doc/id(id可选操作,有id则以id为标准,没有id则随机生成) 4.2 查询文档-简单查询(根据ID查询)

向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_doc/id 4.3 修改文档

全局修改

向ES服务器发送PUT请求:http://127.0.0.1:9200/索引名/_doc/id请求体发送JSON

局部修改

向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id/_update

请求体发送JSON,修改内容包含在doc里面

 {
     "doc":{
         "price": 15999.00
     }
 }
4.4 删除文档

向ES服务器发送POST请求:http://127.0.0.1:9200/索引名/_doc/id 4.5 条件查询

  1. 向ES服务器发送==GET==请求:http://127.0.0.1:9200/索引名/_search/q=key:value
4.6 复杂查询

    向ES服务器发送GET请求:http://127.0.0.1:9200/索引名/_search

    参数说明

      query 条件

      {
          "query": {}
      }
      

      match: 匹配

      {
          "query": {
              "match": {
                  "category": "小米" // key:字段名 value:查询值
              }
          }
      }
      

      match_phrase 完全匹配 比如小米 那么一段话中小和米两个字必须挨在一起

      {
          "query": {
              "match_phrase": {
                  "category": "小米"
              }
          }
      }
      

      match_all 查询所有(一般分页查询)

      {
          "query": {
              "match_all": {}
          }
      }
      

      分页查询

      from:从第几条开始查询

      size:查询几条

      {
          "query": {
              "match_all": {}java
          },
          "from": 0, //从第几条开始查询(偏移量)
          "size": 2 //每页显示多少条
      }
      

      _source 数据源控制(查出你所需要的字段列)

      {
          "query": {
              "match_all": {}
          },
          "_source": [ //需要显示的字段名
              "title",
              "price"
          ]
      }
      

      sort 排序

      {
          "query": {
              "match_all": {}
          },
          "sort": {
              "price": { //需要排序的字段
                  "order": "desc" //key:固定的order value可选asc升序 desc降序
              }
          }
      }
      
4.7 must 多条件查询

    must 相当于mysql中的and

    should 相当于mysql中的or

    must_not 与must相反 must是必须全部匹配 must_not是必须全部不匹配

    filter 过滤

      range 范围查询

      gt 大于lt 小于gte 大于等于lte 小于等于

    {
        "query": {
            "bool": {
                "must": [
                    {
                        "match": {
                            "category": "小米"
                        }
                    },
                    {
                        "match": {
                            "price": 3999
                        }
                    }
                ],
                "filter": { //过滤
                    "range": { //范围查询
                        "price": { //字段
                            "gt": 3000 //gt表示大于
                        }
                    }
                }
            }
        }
    }
    
4.8 highlight 高亮查询显示

    使用highlight属性来实现结果高亮显示,需要的字段名称添加到fields内即可,elasticsearch会自动帮我们实现高亮。

    {
        "query": {
            "match_phrase": {
                "category": "小米"
            }
        },
        "highlight": {
            "fields": {
                "category": {}//高亮字段
            }
        }
    }
    

    自定义高亮显示

      pre_tags 以什么标签开头

      post_tags 以什么标签结尾

      {
          "query": {
              "match_phrase": {
                  "category": "小米"
              }
          },
          "highlight": {
              "pre_tags": "",
              "post_tags": "",
              "fields": {
                  "category": {}
              }
          }
      }
      
4.9 聚合查询

    terms 分组

    默认会显示原始数据 不需要原始数据加上size:0

    {
        "aggs": { //聚合操作
            "price_group": { //给聚合操作取名字 比如这里是对价格分组
                "terms": { //分组
                    "field": "price" //分组字段
                }
            }
        },
        "size": 0 //可选 不加则显示原始数据 加了则不显示
    }
    

    avg 平均值

    默认会显示原始数据 不需要原始数据加上size:0

    {
        "aggs": { //聚合操作
            "price_group": { //给聚合操作取名字 比如这里是对价格分组
                "avg": { //分组
                    "field": "price" //分组字段
                }
            }
        },
        "size": 0 //可选 不加则显示原始数据 加了则不显示
    }
    
5.部署 5.1 概述

​ 单台ElasticSearch服务器提供服务,往往都有最大的负载能力,超过这个阀值,服务器的性能就会大大的降低,甚至不可用,所以生产环境中,一般都是运行在指定服务器集群中

除了负载能力,单点服务器也存在其他问题

单台服务器存储容量有限单服务器容易出现单点故障无法实现高可用单服务的并发处理能力有限

配置服务器集群时,集群中节点数量没有限制大于等于2个节点就可以看作是一个集群,一般出于高性能及高可用方面来考虑,集群中节点数量都是大于3个

5.2 Linux部署单机elasticSearch

    下载elasticSearch 地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch

    解压elasticSearch压缩包

    tar zxvf 文件名
    

    新建es用户

    useradd es #新增 es 用户
    passwd es #为 es 用户设置密码
    userdel -r es #如果错了,可以删除再加
    chown -R es:es es目录 #赋予文件夹所有者
    

    修改elasticSearch目录中config/elasticSearch.yml配置文件

    cluster.name: elasticsearch #集群名称
    node.name: node-1 #节点名称
    network.host: 0.0.0.0
    http.port: 9200 #端口号
    cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
    

    修改系统文件vim /etc/security/limits.conf

    # 在文件末尾中增加下面内容
    # 每个进程可以打开的文件数的限制
    es soft nofile 65536
    es hard nofile 65536
    

    修改系统文件vim /etc/security/limits.d/20-nproc.conf

    # 在文件末尾中增加下面内容
    # 每个进程可以打开的文件数的限制
    es soft nofile 65536
    es hard nofile 65536
    

    修改系统文件vim /etc/sysctl.conf

    # 在文件中增加下面内容
    # 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
    vm.max_map_count=655360
    

    重新加载

    sysctl -p
    

    启动软件

      使用 ES 用户启动

      cd es目录
      #启动
      bin/elasticsearch
      #后台启动
      bin/elasticsearch -d
      

      启动时,会动态生成文件,如果文件所属用户不匹配,会发生错误,需要重新进行修改用户和用户组(参考5.2-3)

      关闭防火墙

      #暂时关闭防火墙
      
      systemctl stop firewalld
      
      #永久关闭防火墙
      
      systemctl enable firewalld.service #打开放货抢永久性生效,重启后不会复原
      
      systemctl disable firewalld.service #关闭防火墙,永久性生效,重启后不会复原
      
5.4 linux部署集群elasticSearch

    下载elasticSearch 地址:点击此处打开elasticSearch下载地址

    解压elasticSearch压缩包

    tar zxvf 文件名
    

    新建es用户

    useradd es #新增 es 用户
    passwd es #为 es 用户设置密码
    userdel -r es #如果错了,可以删除再加
    chown -R es:es es目录 #赋予文件夹所有者
    

    修改elasticSearch目录中config/elasticSearch.yml配置文件

    cluster.name: elasticsearch #集群名称
    node.name: node-1 #节点名称
    network.host: 0.0.0.0
    http.port: 9200 #端口号
    cluster.initial_master_nodes: ["node-1"] #表示把当前机器当作主节点
    

    修改系统文件vim /etc/security/limits.conf

    # 在文件末尾中增加下面内容
    # 每个进程可以打开的文件数的限制
    es soft nofile 65536
    es hard nofile 65536
    

    修改系统文件vim /etc/security/limits.d/20-nproc.conf

    # 在文件末尾中增加下面内容
    # 每个进程可以打开的文件数的限制
    es soft nofile 65536
    es hard nofile 65536
    

    修改系统文件vim /etc/sysctl.conf

    # 在文件中增加下面内容
    # 一个进程可以拥有的 VMA(虚拟内存区域)的数量,默认值为 65536
    vm.max_map_count=655360
    

    重新加载

    sysctl -p
    

    每台服务器都重复1-8的操作

    修改config/elasticsearch.yml配置文件

    每台节点的配置文件都一样,只需要修改两个地方

      第三行 node.name 保持唯一(随便起名,保持唯一就行)第六行 network.host 保持唯一(当前节点内网ip)

    第20行cluster.initial_master_nodes: [“node-1”] 中的"node-1"填写主节点的node.name即可

    解:文件中的linux1 linux2 linux3是配置的/etc/hosts文件,可以用内网ip来代替,比如:

      192.168.1.11 linux1192.168.1.12 linux2192.168.1.13 linux3
    #集群名称
    cluster.name: cluster-es
    #节点名称,每个节点的名称不能重复
    node.name: node-1
    #ip 地址,每个节点的地址不能重复
    network.host: linux1
    #当前节点是否参与选举主节点资格
    node.master: true
    #当前节点是否存储数据
    node.data: true
    #端口号
    http.port: 9200
    #内网TCP传输监听端口
    transport.tcp.port: 9300
    #跨域配置 head插件需要这打开这两个配置 
    http.cors.allow-origin: "*"
    http.cors.enabled: true
    http.max_content_length: 200mb
    #es7.x 之后新增的配置,初始化一个新的集群时需要此配置来选举 master
    cluster.initial_master_nodes: ["node-1"]
    #es7.x 之后新增的配置,节点发现
    discovery.seed_hosts: ["linux1:9300","linux2:9300","linux3:9300"]
    gateway.recover_after_nodes: 2
    network.tcp.keep_alive: true
    network.tcp.no_delay: true
    transport.tcp.compress: true
    #集群内同时启动的数据任务个数,默认是 2 个
    cluster.routing.allocation.cluster_concurrent_rebalance: 16
    #添加或删除节点及负载均衡时并发恢复的线程个数,默认 4 个
    cluster.routing.allocation.node_concurrent_recoveries: 16
    #初始化数据恢复时,并发恢复线程的个数,默认 4 个
    cluster.routing.allocation.node_initial_primaries_recoveries: 16
    
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/748432.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号