Elasticsearch快速入门Java版

内存包括ES基础概念和基础框架，以及Java基础JavaRestClient操作索引库和文档
本Elasticsearch快速入门Java版笔记是在某站黑xx马公开资料上再修改和总结整理。

Elasticsearch数据库

elasticsearch是elastic stack的核心，负责存储、搜索、分析数据。

Kibana：数据可视化

Elasticsearch：存储、计算、搜索数据

Logstash，Beats：数据抓取

什么是文档（document）和词条（term）？
每一条数据就是一个文档
对文档中的内容分词，得到的词语就是词条什么是正向索引？
基于文档id创建索引。查询词条时必须先找到文档，而后判断是否包含词条什么是倒排索引？
对文档内容分词，对词条创建索引，并记录词条所在文档的信息。查询时先根据词条查询到文档id，而后获取到文档

倒排索引中包含两部分内容：

词条词典（Term Dictionary）：记录所有词条，以及词条与倒排列表（Posting List）之间的关系，会给词条创索引，提高查询和插入效率

倒排列表（Posting List）：记录词条所在的文档id、词条出现频率、词条在文档中的位置等信息

文档id：用于快速获取文档词条频率（TF）：文档在词条出现的次数，用于评分

elasticsearch是面向文档存储的，可以是数据库中的一条商品数据，一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中

Mysql：擅长事务类型操作，可以确保数据的安全和一致性
Elasticsearch：擅长海量数据的搜索、分析、计算

MySQL	Elasticsearch	说明
Table	Index	索引(index)，就是文档的集合，类似数据库的表(table)
Row	document	文档（document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
Column	Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
Schema	Mapping	Mapping（映射）是索引中文档的约束，例如字段类型约束。类似数据库的表结构（Schema）
SQL	DSL	DSL是elasticsearch提供的JSON风格的请求语句，用来操作elasticsearch，实现CRUD

安装ES

部署单点ES

创建网络，因为还需要部署kibana容器（执行DLM语句工具），因此需要让es和kibana容器互联

docker network create es-net

采用elasticsearch的7.12.1版本的镜像，这个镜像体积非常大，接近1G。不建议自己pull。(同理kibana的tar)

# 导入数据
docker load -i es.tar

运行docker命令，部署单点es

docker run -d 
	--name es 
    -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" 
    -e "discovery.type=single-node" 
    -v es-data:/usr/share/elasticsearch/data 
    -v es-plugins:/usr/share/elasticsearch/plugins 
    --privileged 
    --network es-net 
    -p 9200:9200 
    -p 9300:9300 
elasticsearch:7.12.1

命令解释：

-e "cluster.name=es-docker-cluster"：设置集群名称-e "http.host=0.0.0.0"：监听的地址，可以外网访问-e "ES_JAVA_OPTS=-Xms512m -Xmx512m"：内存大小-e "discovery.type=single-node"：非集群模式-v es-data:/usr/share/elasticsearch/data：挂载逻辑卷，绑定es的数据目录-v es-logs:/usr/share/elasticsearch/logs：挂载逻辑卷，绑定es的日志目录-v es-plugins:/usr/share/elasticsearch/plugins：挂载逻辑卷，绑定es的插件目录--privileged：授予逻辑卷访问权--network es-net ：加入一个名为es-net的网络中-p 9200:9200：端口映射配置

在浏览器中输入：http://虚拟机ip地址:9200 即可看到elasticsearch的响应结果

部署可视化界面kibana

运行docker命令，部署kibana

docker run -d 
--name kibana 
-e ELASTICSEARCH_HOSTS=http://es:9200 
--network=es-net 
-p 5601:5601  
kibana:7.12.1

--network es-net ：加入一个名为es-net的网络中，与elasticsearch在同一个网络中-e ELASTICSEARCH_HOSTS=http://es:9200"：设置elasticsearch的地址，因为kibana已经与elasticsearch在一个网络，因此可以用容器名直接访问elasticsearch-p 5601:5601：端口映射配置

kibana启动一般比较慢，需要多等待一会，可以通过命令：

docker logs -f kibana

查看运行日志，当查看到下面的日志，说明成功

在浏览器输入地址访问：http://虚拟机ip地址:5601，即可看到结果

分词器

处理中文分词，一般会使用IK分词器。https://github.com/medcl/elasticsearch-analysis-ik

安装ik分词器

在线安装

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重启容器
docker restart elasticsearch

离线安装

查看数据卷目录

docker volume inspect es-plugins

解压安装包，并上传到es容器的插件数据卷中

# 4、重启容器
docker restart es
# 查看es日志
docker logs -f es

集群部署

部署es集群可以直接使用docker-compose来完成，不过要求你的Linux虚拟机至少有4G的内存空间

首先编写一个docker-compose文件，内容如下

version: '2.2'
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1
    container_name: es01
    environment:
      - node.name=es01
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es02,es03
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data01:/usr/share/elasticsearch/data
    ports:
      - 9200:9200
    networks:
      - elastic
  es02:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1
    container_name: es02
    environment:
      - node.name=es02
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es03
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data02:/usr/share/elasticsearch/data
    networks:
      - elastic
  es03:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1
    container_name: es03
    environment:
      - node.name=es03
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es02
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data03:/usr/share/elasticsearch/data
    networks:
      - elastic

volumes:
  data01:
    driver: local
  data02:
    driver: local
  data03:
    driver: local

networks:
  elastic:
    driver: bridge

Run docker-compose to bring up the cluster:

docker-compose up

分词器的作用是什么？
创建倒排索引时对文档分词
用户搜索时，对输入的内容分词

IK分词器有几种模式？
ik_smart：智能切分，粗粒度
ik_max_word：最细切分，细粒度

拓展字典

要拓展ik分词器的词库，只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件
然后在名为ext.dic的文件中，添加想要拓展的词语即可

停用字典

要禁用某些敏感词条，只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件
然后在名为stopword.dic的文件中，添加想要拓展的词语即可：




        IK Analyzer 扩展配置
        
        ext.dic

mapping映射属性

对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有：

字符串：text（可分词的文本）、keyword（精确值，例如：品牌、国家、ip地址）
数值：long、integer、short、byte、double、float、
布尔：boolean
日期：date
对象：object

index：是否创建索引，默认为true

analyzer：使用哪种分词器

properties：该字段的子字段

索引库操作

查看索引库
GET /索引库名

删除索引库
DELETE /索引库名 

创建索引库：PUT /索引库名

索引库和mapping一旦创建无法修改，但是可以添加新的字段
添加字段：PUT /索引库名/_mapping

例如：
PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

文档操作

创建文档：POST /索引库名/_doc/文档id  { json文档 }

查询文档：GET /索引库名/_doc/文档id

删除文档：DELETE /索引库名/_doc/文档id

修改文档：
	全量修改：PUT /索引库名/_doc/文档id { json文档 }
	增量修改：POST /索引库名/_update/文档id { "doc": {字段}}

动态映射

插入文档时，es会检查文档中的字段是否有mapping,

如果没有则按照默认mapping规则来创建索引

如果默认mapping规则不符合你的需求，一定要自己设置字段mapping

JSON类型	Elasticsearch类型
字符串	日期格式字符串：mapping为date类型普通字符串：mapping为text类型，并添加keyword类型子字段
布尔值	boolean
浮点数	float
整数	long
对象嵌套	object，并添加properties
数组	由数组中的第一个非空类型决定
空值	忽略

ES中支持两种地理坐标数据类型：
geo_point：由纬度（latitude）和经度（longitude）确定的一个点。例如：“32.8752345, 120.2981576”
geo_shape：有多个geo_point组成的复杂几何图形。例如一条直线，“LINESTRING (-77.03653 38.897676, -77.009051 38.889939)”

字段拷贝可以使用copy_to属性将当前字段拷贝到指定字段。示例：

“all”: {
	"type" : "test",
	"analyzer" : "ik_max_word"
},
"brand" : {
	"type" : "keyword",
	"copy_to" : "all"
}

RestClient操作索引库

ES官方提供了各种不同语言的客户端，用来操作ES，组装DSL语句，通过http请求发送给ES。官方文档地址：https://www.elastic.co/guide/en/elasticsearch/client/index.html

引入es的RestHighLevelClient依赖：


        
            org.springframework.boot
            spring-boot-starter-data-elasticsearch

因为SpringBoot默认的ES版本是7.6.2，所以我们需要覆盖默认的ES版本：


        1.8
        7.12.1

初始化RestHighLevelClient：

@SpringBootTest
class EsDemoApplicationTests {
    private RestHighLevelClient highLevelClient;

    @Test
    void contextLoads() {
    }

    @BeforeEach
    void setUp(){
        this.highLevelClient = new RestHighLevelClient(
                RestClient.builder(HttpHost.create("http://192.168.150.101:9200")));
    }

    @AfterEach
    void tearDown() throws IOException {
        this.highLevelClient.close();
    }
    
}

利用JavaRestClient实现创建、删除索引库，判断索引库是否存在

索引库操作的基本步骤：

初始化RestHighLevelClient创建XxxIndexRequest。XXX是Create、Get、Delete准备DSL（ Create时需要）发送请求。调用RestHighLevelClient#indices().xxx()方法，xxx是create、exists、delete

	//创建索引库代码
    @Test
    void testCreateHotelIndex() throws IOException {
        // 1.创建Request对象
        CreateIndexRequest request = new CreateIndexRequest("Hotle");
        // 2.请求参数，MAPPING_TEMPLATE是静态常量字符串，内容是创建索引库的DSL语句
        request.source(MAPPING_TEMPLATE, XContentType.JSON);
        // 3.发起请求
        highLevelClient.indices().create(request, RequestOptions.DEFAULT);

    }

    //删除索引库代码
    @Test
    void testDelectHotelIndex() throws IOException {
        // 1.创建Request对象
        DeleteIndexRequest request = new DeleteIndexRequest("hotel");
        // 2.发起请求
        highLevelClient.indices().delete(request, RequestOptions.DEFAULT);

    }

    //判断索引库是否存在
    void testExistsHotelIndex() throws IOException {
        // 1.创建Request对象
        GetIndexRequest request = new GetIndexRequest("hotel");
        // 2.发起请求
        boolean exists = highLevelClient.indices().exists(request, RequestOptions.DEFAULT);
        // 3.输出
        System.out.println(exists);
    }

RestClient操作文档

文档操作的基本步骤：

初始化RestHighLevelClient创建XxxRequest。XXX是Index、Get、Update、Delete准备参数（Index和Update时需要）发送请求。调用RestHighLevelClient#.xxx()方法，xxx是index、get、update、delete解析结果（Get时需要）

添加数据到索引库，相当于POST /indexName/_doc/1 -> POST /索引名/_doc/文档id

@Test
void testIndexdocument() throws IOException {
    // 1.创建request对象，文档id为字符串类型
    IndexRequest request = new IndexRequest("indexName").id("1");
    // 2.准备JSON文档
    request.source("{"name": "Jack", "age": 21}", XContentType.JSON);
    // 3.发送请求
    client.index(request, RequestOptions.DEFAULT);
}

根据id查询数据，相当于GET /indexName/_doc/1

@Test
void testGetdocumentById() throws IOException {
    // 1.创建request对象
    GetRequest request = new GetRequest("indexName", "1");
    // 2.发送请求，得到结果
    GetResponse response = client.get(request, RequestOptions.DEFAULT);
    // 3.解析结果 
    String json = response.getSourceAsString();
    System.out.println(json);
}

根据id修改数据

修改文档数据有两种方式：
方式一：全量更新。再次写入id一样的文档，就会删除旧文档，添加新文档
方式二：局部更新。只更新部分字段，这里演示方式二

@Test
void testUpdatedocumentById() throws IOException {
    // 1.创建request对象
    UpdateRequest request = new UpdateRequest("indexName", "1");
    // 2.准备参数，每2个参数为一对 key value
    request.doc(
    "age", 18,
    "name", "Rose"
    );
    // 3.更新文档
    client.update(request, RequestOptions.DEFAULT);
}

//实例的DSL语句为
POST /users/_update/1
{
    "doc": {
        //需要修改的语句
        "name" : "Rose",
        "age" : 18
    }
}

根据id删除文档数据

@Test
void testDeletedocumentById() throws IOException {
    // 1.创建request对象
    DeleteRequest request = new DeleteRequest("indexName", "1");
    // 2.删除文档 
    client.delete(request, RequestOptions.DEFAULT);
}

利用JavaRestClient批量导入数据到ES

利用mybatis-plus查询酒店数据

将查询到的数据（Hotel）转换为文档类型数据（HotelDoc）

利用JavaRestClient中的Bulk批处理，实现批量新增文档，示例代码如下

@Test
void testBulk() throws IOException {
    // 1.创建Bulk请求
    BulkRequest request = new BulkRequest(); 
    // 2.添加要批量提交的请求：这里添加了两个新增文档的请求
    request.add(new IndexRequest("hotel")
    .id("101").source("json source", XContentType.JSON));
    request.add(new IndexRequest("hotel")
    .id("102").source("json source2", XContentType.JSON));
    // 3.发起bulk请求
    client.bulk(request, RequestOptions.DEFAULT);
}

Elasticsearch快速入门Java版

大数据系统相关栏目本月热门文章