百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

Elasticsearch性能调优(2):读优化之scroll查询

xsobi 2024-11-26 10:12 1 浏览

避免大结果集和深翻

elasticsearch要查询from开始的size条数据,则需要在每个分片中查询打分排名在前面的from+size条数据。协调节点收集每个分片的前from+size条数据。协调节点将收集到的n* (from+size)条数据合并起来再进行一次排序,然后从from+1开始返回size条数据。

如果再from、size或者n中有一个很大,则需要参加排序的数量也会很大,这样的查询会消耗很多的CPU资源,并且效率也很低。

为了解决这种问题,elasticsearch提供了scroll和scroll-scan(elasticsearch2.10版本中被废弃)这两查询方式。

scroll查询

与search请求每次返回一页数据不同,scroll是为检索大量的结果(甚至所有的结果)而设计的,比如,我们有一个批量查询的需求,要查询1~100页的数据,每页有100条数据,如果用search查询,则每次都要在每个分片上查询得分最高的from+size条数据,然后协调节点把收集到的n*(from + size)条数据合并起来再进行一次排序。接着从from+1开始返回size条数据,并且要重复100次,随着from的增大,查询的速度越来越慢。

scroll查询的思路是:在各个分片上一次查询10000条数据,协调节点收集n*10000条数据,然后合并、排序,将排名前10000的结果快照起来,最后使用类似数据库游标的形式逐次获得部分数据。这种做法的好处是减少了查询和排序的次数。

scroll初始查询的命令是:

curl -XGET 'localhost:9200/blog/blog/_search?scroll=1m' -d '
{
  "query":{
    "match": {
       "title": "lucene"
     }
   },
 "size": 10
}'

该查询语句的含义是,在blog索引的blog type里查询title包含“lucene”的所有数据。scroll=1m表示下次请求的时间不能超过1分钟(这里是下次请求而不是全部请求完的时间);size表示这次和后续的每次请求一次返回的数据条数。在这次查询的结果中除了返回了查询到的结果,还返回了一个scroll_id,它是下次请求的参数。

再次请求的命令如下:

curl -XGET 'localhost:9200/_search/scroll' -d '
{ 
  "scroll": "1m",
   "scroll_id": "c2NKOJOJkdsjf1dlfsjjoijek2hroiw4rNIJIJO5dsfs0KHOjfsdf"
}
'

因为这次并没有到分片里的查询数据,而是直接再生成的快照里面以游标的形式获取数据,所以这次查询并没有包含index name和type的名字,也没有具体的查询语句。

上面命令中的参数解释:

  1. “scroll”: "1m" 指下次请求的时间不能超过1分钟,而不是快照的保存时间。
  2. scroll_id是上次查询时返回的,通过这次查询提交会重新返回一个新的scroll_id,供下次查询使用。

scroll在初次查询时需要进行文本相似度计算和排序,这个过程也时非常耗时的。如果不需要做文本相似度计算和排序。只需要在scroll查询的后面添加对_doc的排序,命令如下:

curl -XGET 'localhost:9200/blog/blog/_search?scroll=1m' -d '
{
  "query":{
    "match": {
       "title": "lucene"
     }
   },
"sort": [
   "_doc" 
 ],
 "size": 10
}'

需要注意的是,scroll每次查询的是快照里的数据,而不是elasticsearch集群里的实时数据,在快照生成后,elasticsearch集群中的数据变更不影响快照中的数据。

段合并是通过把多个小的分段合并成一个更大的分段来优化索引的,在生成大段的同时会删除合并过的小段。但是,如果scroll还在进行中,就有可能有旧的小段还在使用中,所以小段在这时是不会被删除的,这就意味着有可能消耗更多的文件句柄。所以,虽然scroll有个超时时间,但是如果能够确认不在使用中,则还是要显式清除的。清除命令:

curl -XDELETE localhost:9200/_search/scroll -d '
{
  "scroll_id": ["KJJojodjfsoa13jfsHIY4Idsfds9sHiyisf2lk0jlj"]
}'

相关推荐

好用的云函数!后端低代码接口开发,零基础编写API接口

前言在开发项目过程中,经常需要用到API接口,实现对数据库的CURD等操作。不管你是专业的PHP开发工程师,还是客户端开发工程师,或者是不懂编程但懂得数据库SQL查询,又或者是完全不太懂技术的人,通过...

快速上手:Windows 平台上 cURL 命令的使用方法

在工作流程中,为了快速验证API接口有效性,团队成员经常转向直接执行cURL命令的方法。这种做法不仅节省时间,而且促进了团队效率的提升。对于使用Windows系统的用户来说,这里有一套详细...

使用 Golang net/http 包:基础入门与实战

简介Go的net/http包是构建HTTP服务的核心库,功能强大且易于使用。它提供了基本的HTTP客户端和服务端支持,可以快速构建RESTAPI、Web应用等服务。本文将介绍ne...

#小白接口# 使用云函数,人人都能编写和发布自己的API接口

你只需编写简单的云函数,就可以实现自己的业务逻辑,发布后就可以生成自己的接口给客户端调用。果创云支持对云函数进行在线接口编程,进入开放平台我的接口-在线接口编程,设计一个新接口,设计和配置好接口参...

极度精神分裂:我家没有墙面开关,但我虚拟出来了一系列开关

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:iN在之前和大家说过,在iN的家里是没有墙面开关的。...

window使用curl命令的注意事项 curl命令用法

cmd-使用curl命令的注意点前言最近在cmd中使用curl命令来测试restapi,发现有不少问题,这里记录一下。在cmd中使用curl命令的注意事项json不能由单引号包括起来json...

Linux 系统curl命令使用详解 linuxctrl

curl是一个强大的命令行工具,用于在Linux系统中进行数据传输。它支持多种协议,包括HTTP、HTTPS、FTP等,用于下载或上传数据,执行Web请求等。curl命令的常见用法和解...

Tornado 入门:初学者指南 tornados

Tornado是一个功能强大的PythonWeb框架和异步网络库。它最初是为了处理实时Web服务中的数千个同时连接而开发的。它独特的Web服务器和框架功能组合使其成为开发高性能Web...

PHP Curl的简单使用 php curl formdata

本文写给刚入PHP坑不久的新手们,作为工具文档,方便用时查阅。CURL是一个非常强大的开源库,它支持很多种协议,例如,HTTP、HTTPS、FTP、TELENT等。日常开发中,我们经常会需要用到cur...

Rust 服务器、服务和应用程序:7 Rust 中的服务器端 Web 应用简介

本章涵盖使用Actix提供静态网页...

我给 Apache 顶级项目提了个 Bug apache顶级项目有哪些

这篇文章记录了给Apache顶级项目-分库分表中间件ShardingSphere提交Bug的历程。说实话,这是一次比较曲折的Bug跟踪之旅。10月28日,我们在GitHub上提...

linux文件下载、服务器交互(curl)

基础环境curl命令描述...

curl简单使用 curl sh

1.curl--help#查看关键字2.curl-A“(添加user-agent<name>SendUser-Agent<name>toserver)”...

常用linux命令:curl 常用linux命令大全

//获取网页内容//不加任何选项使用curl时,默认会发送GET请求来获取内容到标准输出$curlhttp://www.baidu.com//输出<!DOCTYPEh...

三十七,Web渗透提高班之hack the box在线靶场注册及入门知识

一.注册hacktheboxHackTheBox是一个在线平台,允许测试您的渗透技能和代码,并与其他类似兴趣的成员交流想法和方法。它包含一些不断更新的挑战,并且模拟真实场景,其风格更倾向于CT...