Elasticsearch性能调优(2):读优化之scroll查询

xsobi 2024-11-26 10:12 1 浏览

避免大结果集和深翻

elasticsearch要查询from开始的size条数据，则需要在每个分片中查询打分排名在前面的from+size条数据。协调节点收集每个分片的前from+size条数据。协调节点将收集到的n* (from+size)条数据合并起来再进行一次排序，然后从from+1开始返回size条数据。

如果再from、size或者n中有一个很大，则需要参加排序的数量也会很大，这样的查询会消耗很多的CPU资源，并且效率也很低。

为了解决这种问题，elasticsearch提供了scroll和scroll-scan（elasticsearch2.10版本中被废弃）这两查询方式。

scroll查询

与search请求每次返回一页数据不同，scroll是为检索大量的结果（甚至所有的结果）而设计的，比如，我们有一个批量查询的需求，要查询1~100页的数据，每页有100条数据，如果用search查询，则每次都要在每个分片上查询得分最高的from+size条数据，然后协调节点把收集到的n*（from + size）条数据合并起来再进行一次排序。接着从from+1开始返回size条数据，并且要重复100次，随着from的增大，查询的速度越来越慢。

scroll查询的思路是：在各个分片上一次查询10000条数据，协调节点收集n*10000条数据，然后合并、排序，将排名前10000的结果快照起来，最后使用类似数据库游标的形式逐次获得部分数据。这种做法的好处是减少了查询和排序的次数。

scroll初始查询的命令是：

curl -XGET 'localhost:9200/blog/blog/_search?scroll=1m' -d '
{
  "query":{
    "match": {
       "title": "lucene"
     }
   },
 "size": 10
}'

该查询语句的含义是，在blog索引的blog type里查询title包含“lucene”的所有数据。scroll=1m表示下次请求的时间不能超过1分钟（这里是下次请求而不是全部请求完的时间）；size表示这次和后续的每次请求一次返回的数据条数。在这次查询的结果中除了返回了查询到的结果，还返回了一个scroll_id，它是下次请求的参数。

再次请求的命令如下：

curl -XGET 'localhost:9200/_search/scroll' -d '
{ 
  "scroll": "1m",
   "scroll_id": "c2NKOJOJkdsjf1dlfsjjoijek2hroiw4rNIJIJO5dsfs0KHOjfsdf"
}
'

因为这次并没有到分片里的查询数据，而是直接再生成的快照里面以游标的形式获取数据，所以这次查询并没有包含index name和type的名字，也没有具体的查询语句。

上面命令中的参数解释：

“scroll”: "1m" 指下次请求的时间不能超过1分钟，而不是快照的保存时间。
scroll_id是上次查询时返回的，通过这次查询提交会重新返回一个新的scroll_id，供下次查询使用。

scroll在初次查询时需要进行文本相似度计算和排序，这个过程也时非常耗时的。如果不需要做文本相似度计算和排序。只需要在scroll查询的后面添加对_doc的排序，命令如下：

curl -XGET 'localhost:9200/blog/blog/_search?scroll=1m' -d '
{
  "query":{
    "match": {
       "title": "lucene"
     }
   },
"sort": [
   "_doc" 
 ],
 "size": 10
}'

需要注意的是，scroll每次查询的是快照里的数据，而不是elasticsearch集群里的实时数据，在快照生成后，elasticsearch集群中的数据变更不影响快照中的数据。

段合并是通过把多个小的分段合并成一个更大的分段来优化索引的，在生成大段的同时会删除合并过的小段。但是，如果scroll还在进行中，就有可能有旧的小段还在使用中，所以小段在这时是不会被删除的，这就意味着有可能消耗更多的文件句柄。所以，虽然scroll有个超时时间，但是如果能够确认不在使用中，则还是要显式清除的。清除命令：

curl -XDELETE localhost:9200/_search/scroll -d '
{
  "scroll_id": ["KJJojodjfsoa13jfsHIY4Idsfds9sHiyisf2lk0jlj"]
}'

scroll

上一篇：Visual Studio 2022预览版新增Sticky Scroll
下一篇：最好用的滚动条美化插件——jQuery.NiceScroll

Elasticsearch性能调优(2):读优化之scroll查询

避免大结果集和深翻

scroll查询

相关推荐

帝国cms插件，帝国cms网站插件，帝国插件(附下载)

SK海力士量产全球首款321层堆叠3D闪存，Win 11 LTSC推出热补丁功能

这块安全“补丁”，补的牢!

strcat函数实现(C语言)

黄金分割主图指标(主图叠加)

治疗之道!GRID团队框架插件完美设置教程

如何使用CSS 新语法grid-area来设置网格布局

ASP.NET界面开发技巧放送，轻松自定义Grid运行时编辑表单布局

《战神:诸神黄昏》6.001补丁发布优化手柄和显卡支持

避雷心经 | Coredump排查入门

Elasticsearch性能调优(2):读优化之scroll查询

避免大结果集和深翻

scroll查询

相关推荐

帝国cms插件，帝国cms网站插件，帝国插件(附下载)

SK海力士量产全球首款321层堆叠3D闪存，Win 11 LTSC推出热补丁功能

这块安全“补丁”，补的牢!

strcat函数实现(C语言)

黄金分割主图指标(主图叠加)

治疗之道!GRID团队框架插件完美设置教程

如何使用CSS 新语法grid-area来设置网格布局

ASP.NET界面开发技巧放送，轻松自定义Grid运行时编辑表单布局

《战神:诸神黄昏》6.001补丁发布 优化手柄和显卡支持

避雷心经 | Coredump排查入门

《战神:诸神黄昏》6.001补丁发布优化手柄和显卡支持