百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

Spark SQL解析过程以及Antlr4入门

xsobi 2024-12-06 20:28 11 浏览

Spark SQL解析过程

在Spark 2.0之后,Spark SQL使用Antlr 4来解析SQL表达式,其解析描述文件路径为spark源码根路径\sql\catalyst\src\main\antlr4\org\apache\spark\sql\catalyst\parser\SqlBase.g4, 比如下面的sql语句是如何转化成RDD的。

select name from person where age > 18

SQL执行流程:



不管解析被划分为几步,在Spark 执行环境中,都要转化成RDD的调用代码,才能被spark core所执行

那么这里面有个关键的点,就是查询的SQL , 怎么转化成未解析的逻辑计划;未解析的逻辑计划这个阶段接收的是抽象的语法树,所以我们需要知道的就是,这个SQL语句是就是通过Antlr4转成抽象语法树的;

Antlr4入门

1、下载Antlr4

链接地址:https://www.antlr.org/download/index.html

2、把下载的包放在安装目录

3、编写bat脚本,内容如下antlr4.bat

java -cp antlr-4.5.3-complete.jar org.antlr.v4.Tool %*

4、把安装目录添加到环境变量

5、构建maven项目,添加如下依赖

Bash
<dependency>
    <groupId>org.antlr</groupId>
    <artifactId>antlr4-runtime</artifactId>
    <version>4.5.3</version>
</dependency>

6、编写antlr文件,以g4结尾

Bash
grammar LearnAntlr ;         // grammer是规则文件的头,要和文件名一样
@header{                    //header代表生成的代码放在哪个包里面
package com.antlr4;
}
r  : 'hello' ID;           //r代表的是语法树的根结点
ID : [a-z]+ ;
WS : [ \t\r\n]+ -> skip ;  //ID代表未知的值

7、命令行进入antlr\src\main\java\com\antlr4>目录中,执行antlr4 LearnAntlr.g4,生成代码如下:



8、新建ListenerRewrite继承LearnAntlrBaseListener

public class ListenerRewrite extends LearnAntlrBaseListener {
    
    @Override
    public void exitR(LearnAntlrParser.RContext ctx) {
        final String a = ctx.getChild(0).getText().toLowerCase();
        final String b = ctx.getChild(1).getText().toLowerCase();
        System.out.println(a + " " + b);
    }
}

9、词法和语法解析

public class TestAntlr4 {

    public static void main(String[] args) {

        //todo 输入 hello world
        ANTLRInputStream inputStream = new ANTLRInputStream(" hello world");
        //todo 新建词法分析器
        LearnAntlrLexer lexer = new LearnAntlrLexer(inputStream);
        //todo 新建一个词法符号的缓冲区,用于存储词法分析器生成的词法符号
        CommonTokenStream tokenStream = new CommonTokenStream(lexer);
        //todo 新建一个语法分析器,处理词法符号缓冲区内容
        LearnAntlrParser parser = new LearnAntlrParser(tokenStream);
        //todo 针对规则,开始语法分析
        LearnAntlrParser.RContext context = parser.r();
        //todo 构建监听器
        ListenerRewrite listener = new ListenerRewrite();
        //todo 使用监听器初始化对语法分析树的遍历
        ParseTreeWalker.DEFAULT.walk(listener,context);
    }
}

10、运行代码,输出hello world

相关推荐

我把家搬进了NAS?家庭资产数字化革命,现在连袜子都有编号了!

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:羊刀仙家里东西一多,总有一种“我记得我有这个,但我不知道放哪了”的错觉。...

Mega Run第3关通关攻略-跳上高空(mega运动)

错过火炮等于失败,这是MegaRun在上一关中给玩家的一点小挑战,那在后面的关卡中,这中挑战会给你造成什么困难呢?具体请看MegaRun第3关通关攻略-跳上高空。MegaRun第3关在一开始我...

Axure高保真教程:中继器表格自动合计模板

编辑导语:合计作为日常使用频率比较高的一个功能,但在Axure里面传统的表格如果做合计是很麻烦的,遇到数据多的时候很耗费时间,那么该如何优化,提高工作效率?本文以中继器表格为核心,教大家如何制作一个自...

多角色登录原型(分角色登录)

编辑导读:多角色登录是很多系统都需要具备的功能,例如在招聘网站里,登录的角色包括、求职者、招聘企业的hr、猎头、内部员工等等。本文作者分享了如何在Axure里面制作多角色登录的原型模板,希望对你有帮助...

利用Axure+js创建可配置地图页面(axure地址选择)

编辑导语:如何利用Axure实现自定义地图展示?本篇文章里,作者结合Axure与高德地图,对如何在Axure中设置相应参数、进而预览时实现自定义地图展示效果的操作流程进行了示范和总结,一起来看一下。本...

纬地智能模板的一些基础与概念(纬地智能模板的一些基础与概念是什么)

对于公路及相关土木工程的勘测设计工作,虽然基础的理论和方法是基本相同的,但是受到各国家、地区文化、制图习惯等方面因素的影响,不同地域公路勘测设计的习惯和表达方式有着很大的差异,当然语言方面的不同和差...

WPF界面开发第三方控件入门指南——菜单项

点击“了解更多”获取工具DevExpressWPFSubscription拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpressWPF能创建有着强...

鸿蒙开发:自定义一个搜索模版(鸿蒙系统怎么添加百度搜索条)

前言代码案例基于Api13。...

简单介绍一下前端各框架中的模板标签

在各大前端框架、小程序中,此类标签的作用主要是用来帮助我们包裹多个元素。在浏览器实际渲染中会将其移除只渲染其包裹的DOM元素,所以说不会增加额外的DOM节点...

法媒:简单的几个步骤让你的运动鞋更加炫酷

【环球网综合报道】有没有觉得自己的运动鞋样式单调,希望它变得更加炫酷?法媒《ELLE》推荐了一种简单易行的装饰方法,让您的运动鞋更加时尚。制作前,您需要准备一张细毡子、一张闪光热胶合布、胶水、两个银夹...

Blazor 代码隐藏(blazor 操作dom)

Razor组件通常是在单个.razor文件中创作的,这样就存在页面中包含html代码和后台代码(@code标记指定的代码)。如下...

DevExpress WPF入门指南:DXBars, DXRibbon中使用MVVM的两种方式

你也可以下载Universal安装包或者到DevExpress中文网查看更多示例和教程哦本文档介绍在DXBars,DXRibbon和GalleryControl这三个控件中使用MVVM框架的...

干货,Uploadfive插件上传,Python接收存储

在Web开发工作中,经常遇到上传需求,上传照片,文件等,网上的上传插件有很多,我使用的是一款H5上传插件Uploadfive,与之对应的是Uploadify,后者是基于Flash的,不过现在越来越多的...

用DevExpress实现基于HTML&amp;CSS的桌面应用程序的UI(二)

DevExpressWinForm拥有180+组件和UI库,能为WindowsForms...

Avalonia:一个开源的跨平台UI选项

...