深入解析 Elasticsearch 的倒排索引机制
xsobi 2024-12-06 20:27 16 浏览
摘要: 本文通过详细分析 Elasticsearch 的源码,深入探索其倒排索引机制的工作原理和实现细节。我们将探讨倒排索引的构建、存储、查询和更新删除过程,带领读者全面、详细地理解 Elasticsearch 中倒排索引的实现。
一、倒排索引简介
倒排索引是 Elasticsearch 实现快速全文搜索的核心技术。它将文档中的词项与其出现的文档和位置关联起来,使得在大量文档中迅速查找特定词项成为可能。
二、构建倒排索引的源码解析
在 Elasticsearch 的源码中,构建倒排索引涉及到多个类和方法。下面,我们将通过 IndexWriter 类的源码来探讨这一过程。
public class IndexWriter {
// ... 其他属性和方法
public void addDocument(Document doc) throws IOException {
// Document 是一个容器,存储了待索引的字段和值
// ... 初始化和准备阶段的代码
// 遍历文档的每个字段
for (IndexableField field : doc) {
// 获取字段的名称和值
String name = field.name();
String value = field.stringValue();
// 使用分析器对文本进行分词
Analyzer analyzer = getAnalyzer();
TokenStream tokenStream = analyzer.tokenStream(name, value);
tokenStream.reset();
// 遍历分词结果,构建倒排索引
while (tokenStream.incrementToken()) {
CharTermAttribute termAtt = tokenStream.getAttribute(CharTermAttribute.class);
String termText = termAtt.toString();
// 此处的 termText 即为分词后的词项
// 将词项加入到倒排索引中,此处为简化示例,具体实现会涉及到词项的存储、文档的标识、词项在文档中的位置等信息
addTermToInvertedIndex(name, termText, docId);
}
tokenStream.end();
tokenStream.close();
}
// ... 后续的索引更新和维护代码
}
private void addTermToInvertedIndex(String fieldName, String termText, int docId) {
// 此方法用于将词项加入到倒排索引中
// 在实际的 Lucene 源码中,这里会涉及到更复杂的数据结构和算法来存储和管理倒排索引
// ... 具体的实现代码
}
// ... 其他属性和方法
}
在上面的 addDocument 方法中,首先通过遍历文档的所有字段,然后使用分析器对每个字段的文本值进行分词处理。这里使用的 Analyzer 和 TokenStream 是 Lucene 提供的分词和 token 处理工具。
每个 token(即分词结果)都会被添加到倒排索引中。在示例代码中,addTermToInvertedIndex 方法是一个占位方法,代表将词项加入到倒排索引的过程。在实际的 Lucene 实现中,这里会涉及到复杂的数据结构和算法,用于高效地存储和管理倒排索引。
这个源码示例展示了倒排索引的构建过程是如何通过处理和分析文档、字段和词项来完成的。
三、倒排索引的存储源码解析
倒排索引的存储涉及到词典和倒排列表。我们通过 Terms 和 Postings 类的源码来分析这一部分。
public class Terms {
// ... (其他代码)
public TermsEnum iterator() throws IOException {
return new SegmentTermsEnum();
}
private class SegmentTermsEnum extends TermsEnum {
// ... (其他代码)
public boolean seekExact(BytesRef term) throws IOException {
// ... (其他代码)
return index.fst.seekExact(term, fstOutputs);
}
}
// ... (其他代码)
}
public class Postings {
private Map<Term, PostingList> postings;
public Postings() {
this.postings = new HashMap<>();
}
public void addTerm(Term term, int docID) {
// ... (其他代码)
PostingList list = postings.get(term);
if (list == null) {
list = new PostingList();
postings.put(term, list);
}
list.add(docID);
}
// ... (其他代码)
}
在这部分中,Terms 和 Postings 分别用于处理倒排索引的词典和倒排列表。Terms 类用于管理索引中的词项集合,而 Postings 类是用于存储具体的倒排列表,也就是词项与文档及其在文档中位置的映射关系。每一个词项都有一个对应的 PostingList,用于存储该词项出现在哪些文档及其具体位置。
四、查询优化的源码解析
查询优化是 Elasticsearch 高性能的关键。我们通过 IndexSearcher 类来深入了解其源码实现。
public class IndexSearcher {
// ... (其他代码)
public TopDocs search(Query query, int n) throws IOException {
// ... (其他代码)
Weight weight = query.createWeight(this, ScoreMode.COMPLETE, 1);
// ... (其他代码)
CollectorManager<TopScoreDocCollector, TopDocs> manager =
TopScoreDocCollector.createSharedManager(n);
return search(List.of(leaves), weight, manager);
}
// ... (其他代码)
}
在这一部分,IndexSearcher 类是执行查询的核心类。它使用了 Weight 对象来计算查询的权重,这个权重是基于用户的查询请求来创建的。查询过程中,每个 segment 都会被搜索,收集器 Collector 会收集搜索结果并进行评分排序,最终返回排名靠前的文档。
五、倒排索引的更新和删除源码解析
更新和删除也是倒排索引管理中的关键操作,IndexWriter 类中的 deleteDocuments 方法是这一操作的核心实现。
public class IndexWriter {
public void deleteDocuments(Term... terms) throws IOException {
// ... (其他代码)
try {
if (docWriter.deleteTerms(terms) > 0) {
// ... (其他代码)
maybeMerge();
}
} finally {
// ... (其他代码)
}
}
// ... (其他代码)
}
在这部分,我们看到 IndexWriter 类的 deleteDocuments 方法。这个方法用于标记需要删除的文档。文档并不会立即从物理存储中删除,而是被标记为删除状态。在后续的 segment 合并过程中,被标记为删除的文档会被物理删除。该方法也涵盖了触发 segment 合并的条件。
补充:Segment 的定义和作用
定义:
在 Elasticsearch 中,一个 segment 是倒排索引的一部分,代表了一个索引的一个子集。每个 segment 都是一个完全独立的倒排索引,可以被单独搜索和管理。一个 Elasticsearch 索引通常由多个 segments 组成。
作用:
- 提高写入性能:当新文档被索引时,Elasticsearch 不会直接写入主索引中,而是先写入一个新的 segment。每个 segment 都是一个小型的倒排索引,可以快速地被创建和写入。这样,Elasticsearch 可以通过并行写入多个 segment 来提高写入性能。
- 减少查询延时:segment 是不可变的,一旦写入就不能被修改(不包括被标记为删除)。这一特性消除了很多与并发控制相关的开销,使得查询可以更快地执行。每次查询时,Elasticsearch 会并行地在所有 segment 上执行查询,然后合并这些查询结果。
- 方便数据压缩和清理:segment 的不可变特性也意味着 Elasticsearch 可以在后台进行 segment 的合并操作(称为 segment merge),将多个小 segment 合并成一个大 segment,并清理已删除的文档和优化倒排索引的存储结构。这有助于减少存储空间的使用并提高查询效率。
Segment 在 Elasticsearch 中的应用
Segment 的创建
当新的文档被索引到 Elasticsearch 时,它们首先被写入一个内存中的 buffer。当 buffer 满时,数据会被写入一个新的 segment。这些新 segment 最初是存储在内存中的,并被称为 "translog"。一旦 translog 达到一定大小,或经过一定时间,这些数据就会被写入磁盘中,成为一个不可变的 segment。
Segment Merge
随着更多的文档被写入,不可变的 segment 会越来越多。Elasticsearch 会定期进行 segment merge 操作,将小 segment 合并为大 segment,同时清除标记为删除的数据。这个过程有助于保持存储的效率和查询的速度。
六、总结
通过深入分析 Elasticsearch 的源码,我们对其倒排索引的实现有了更深入的了解。倒排索引的构建、存储、查询和更新删除是 Elasticsearch 提供快速、准确搜索结果的关键技术。掌握这些源码实现,能帮助我们更好地理解 Elasticsearch 的内部机制,为优化和扩展搜索功能提供有力的支持。
注意:以上源码分析是基于某一版本的 Elasticsearch 进行的,不同版本的具体实现可能有所不同。在应用和分析时,请参考相应版本的实源码。
作者:一只爱撸猫的程序猿
链接:https://juejin.cn/post/7288166472131936290
来源:稀土掘金
- 上一篇:Antrl4入门、安装、案例
- 下一篇:ANTLR4实战入门
相关推荐
- 建站 | 从零开始打造自己的网站--以创意众筹网项目为例
-
文/跨界哥经过前几期的思考探索,跨界哥的创意众筹网项目的大概框架已经有了雏形,今天真正开始着手网站的建设。从零开始打造属于自己的网站,自己终于做了站长,想想还是有点小激动。简单描述下创意众筹网的核心业...
- MyEclipse应用服务器教程:应用程序服务器入门指南(上)
-
1.定义一个新的服务器定义一个新的服务器允许您选择需要使用的服务器连接,并提供配置信息,然后选择项目部署到服务器上。(1)在服务器视图工具栏上点击new_server_icon。或者右键单击服务器视...
- ABP异常为什么是403呢?
-
前言在ABP中使用UserFriendlyException抛出异常,HTTP状态码为什么是403?下面用这一段测试代码:[HttpPost]publicasyncTask<PeopleD...
- Web自动化测试:模拟鼠标操作(ActionChains)
-
在日常的测试中,经常会遇到需要鼠标去操作的一些事情,比如说悬浮菜单、拖动验证码等,这一节我们来学习如何使用webdriver模拟鼠标的操作首页模拟鼠标的操作要首先引入ActionChains的包fro...
- webapi 全流程
-
C#中的WebAPIMinimalApi没有控制器,普通api有控制器,MinimalApi是直达型,精简了很多中间代码,广泛适用于微服务架构MinimalApi一切都在组控制台应用程序类【Progr...
- SpringBoot日志处理之Logback
-
日志处理是一个正式项目必备的功能,日志要能够根据时间、类型等要素,根据指定格式来保存指定的日志,方便我们观察程序运行情况、定位程序bug。SpringBoot中推荐使用Logback日志框架。slf4...
- ASP.NET Core Web API 接口限流
-
一.前言ASP.NETCoreWebAPI接口限流、限制接口并发数量,我也不知道自己写的有没有问题,抛砖引玉、欢迎来喷!二.需求写了一个接口,参数可以传多个人员,也可以传单个人员,时间范围...
- 高德打车通用可编排订单状态机引擎设计
-
一背景订单状态流转是交易系统的最为核心的工作,订单系统往往都会存在状态多、链路长、逻辑复杂的特点,还存在多场景、多类型、多业务维度等业务特性。在保证订单状态流转稳定性的前提下、可扩展性和可维护性是我...
- .Net6基础功能封装分享12(统一参数校验)
-
开发后台webapi接口,需要对接口传入的参数进行校验,如果传入的参数不符合验证规则,就直接返回参数错误,就需要封装统一参数校验过滤器;在.net6中,内置了DataAnnotations实现通过数据...
- Path to prosperity for US and the world lies in cooperation, not confrontation
-
ThisisaneditorialfromChinaDaily.Turningadeafeartothe"handsoff"criesofprotestersnot...
- C++ strategy策略模式
-
策略模式策略模式是一种行为设计模式,它定义了一组算法,他们可以以相同的接口共享。这种模式使用场景最多的就是在根据不同的条件选择不同的行为时,可以使用此模式进行解耦,使得你的代码更加易于维护和扩展,当然...
- 万字图文详解24种设计模式
-
一直想写一篇介绍设计模式的文章,让读者可以很快看完,而且一看就懂,看懂就会用,同时不会将各个模式搞混。自认为本文还是写得不错,花了不少心思来写这文章和做图,力求让读者真的能看着简单同时有所收获。设计模...
- 25000 字详解 23 种设计模式(多图 + 代码)
-
文章来源:https://javadoop.com/post/design-pattern目录创建型模式结构型模式行为型模式总结前言一直想写一篇介绍设计模式的文章,让读者可以很快看完,而且一看就懂,看...
- C# 设计模式之-状态模式
-
问题引入仓库管理系统中,堆垛机任务的状态的变更,一般会引起一系列相关的的变更,如入库完成,就需要修改库位状态为:工作中;出库完成,则需要将任务对应的库位状态修改为:空闲;此时可以使用状态模式来将堆垛机...
- seata-golang 接入指南
-
作者|刘晓敏来源|阿里巴巴云原生公众号seata-golang是一个分布式事务框架,实现了AT模式和TCC模式,AT模式相较TCC模式对代码的入侵性更小、需要开发的接口更少;但A...
- 一周热门
- 最近发表
- 标签列表
-
- grid 设置 (58)
- 移位运算 (48)
- not specified (45)
- 导航栏 (58)
- context xml (46)
- scroll (43)
- dedecms模版 (53)
- c 视频教程下载 (33)
- listview排序 (33)
- characterencodingfilter (33)
- getmonth (34)
- label换行 (33)
- android studio 3 0 (34)
- html转js (35)
- 索引的作用 (33)
- checkedlistbox (34)
- xmlhttp (35)
- mysql更改密码 (34)
- 权限777 (33)
- htmlposition (33)
- 学校网站模板 (34)
- textarea换行 (34)
- 轮播 (34)
- asp net三层架构 (38)
- bash (34)