11## 1 功能简介
22
3-
4- 意书主要拆分为一下功能:
5- 1 . 工作空间:用户存储用户的脚本,数据,日志等文件;支持建立:sql,hive,scala,python,pyspark等类型的脚本;
6- 2 . 数据库模块:展示用户拥有权限的数据库和表信息,以及表导入导出;
7- 3 . UDF模块:UDF是可以在sql和hql脚本中使用的函数,包括函数管理,勾选加载,共享等;
8- 4 . 方法模块:方法是用户自己,系统,共享的自定义函数,支持在python,pyspark,scala脚本中使用;
9- 5 . HDFS模块:用户的HDFS(分布式文件系统)个人目录,用于存放大数据文件;
10- 6 . 脚本模块:包括脚本编辑,运行,停止,自定义变量配置,快捷键;
11- 7 . 运行结果:包括结果展示,下载,导出;
12- 8 . 脚本历史:脚本历史展示了该脚本历史运行信息;
13- 9 . 管理台:主要包含设置,全局历史,资源管理器,全局变量,常见问题;
14- 10 . 右下角弹出框:包含任务管理器,引擎管理器,队列管理器;
3+
4+ scirptis主要拆分为一下功能:
5+ 1 . 工作空间:用户存储用户的脚本,数据,日志等文件;支持建立:sql,hive,scala,python,pyspark等类型的脚本;
6+ 2 . 数据库模块:展示用户拥有权限的数据库和表信息,以及表导入导出;
7+ 3 . UDF模块:UDF是可以在sql和hql脚本中使用的函数,包括函数管理,勾选加载,共享等;
8+ 4 . 方法模块:方法是用户自己,系统,共享的自定义函数,支持在python,pyspark,scala脚本中使用;
9+ 5 . HDFS模块:用户的HDFS(分布式文件系统)个人目录,用于存放大数据文件;
10+ 6 . 脚本模块:包括脚本编辑,运行,停止,自定义变量配置,快捷键;
11+ 7 . 运行结果:包括结果展示,下载,导出;
12+ 8 . 脚本历史:脚本历史展示了该脚本历史运行信息;
13+ 9 . 管理台:主要包含设置,全局历史,资源管理器,全局变量,常见问题;
14+ 10 . 右下角弹出框:包含任务管理器,引擎管理器,队列管理器;
1515下面对这些功能进行详细介绍。
1616
1717## 2 工作空间
1818
1919工作空间是一个文件目录,用户对该目录拥有所有的权限可以进行文件管理操作等。建议的目录结构是:script,data,log,res四个目录,目录结构清晰方便用户进行查看和管理。工作空间主要功能如下:
20- 1 . 工作空间右键主要包含复制路径,新建目录,新建脚本,刷新
20+ 1 . 工作空间右键主要包含复制路径,新建目录,新建脚本,刷新
2121![ ide05] ( ../images/ch4/ide05.png )
22- 2 . 顶上搜索功能,支持对文件快速定位
22+ 2 . 顶上搜索功能,支持对文件快速定位
2323![ ide06] ( ../images/ch4/ide06.png )
24243 . 新建脚本功能支持建立以下脚本
2525
3434
3535## 3 数据库模块
3636
37- 数据库模块主要有以下功能:
38- 1 . 刷库,刷表,刷字段信息
37+ 数据库模块主要有以下功能:
38+ 1 . 刷库,刷表,刷字段信息
3939![ ide09] ( ../images/ch4/ide09.png )
40- 2 . 表右键功能--查询表:快捷生产临时hive脚本进行数据查看
40+ 2 . 表右键功能--查询表:快捷生产临时hive脚本进行数据查看
4141![ ide10] ( ../images/ch4/ide10.png )
42- 3 . 表右键功能--查看表结构:展示表的字段详细信息,表详情信息,表分区信息等:
42+ 3 . 表右键功能--查看表结构:展示表的字段详细信息,表详情信息,表分区信息等:
4343![ ide11] ( ../images/ch4/ide11.png )
44- 4 . 表右键功能--导出表:可以导出为csv和excel等文件
44+ 4 . 表右键功能--导出表:可以导出为csv和excel等文件
4545![ ide12] ( ../images/ch4/ide12.png )
4646
4747## 4 UDF模块
@@ -62,15 +62,15 @@ UDF功能是方便用户对UDF进行分类展示,以及用户可以对个人
6262
6363#### 4.2UDF新增函数功能:
6464
65- 创建一个UDF很简单,主要在于做好前期的UDF代码的准备。步骤主要如下:
66- 1 . 建立通用UDF,需要先编译好相应的Jar包。这里的通用是指Hive的hql和Spark的sql都可以用
67- 2 . 建立Spark专用的UDF,需要先建立好相应的py脚本或者scala脚本,为了使用的正确性,最好测试下相应的脚本
68- 3 . 在意书建立该UDF:
69- 通用UDF:需要勾选通用,并选择对应的jar包路径,填写UDF的全类路径,填写使用格式和描述:
65+ 创建一个UDF很简单,主要在于做好前期的UDF代码的准备。步骤主要如下:
66+ 1 . 建立通用UDF,需要先编译好相应的Jar包。这里的通用是指Hive的hql和Spark的sql都可以用
67+ 2 . 建立Spark专用的UDF,需要先建立好相应的py脚本或者scala脚本,为了使用的正确性,最好测试下相应的脚本
68+ 3 . 在开发建立该UDF:
69+ 通用UDF:需要勾选通用,并选择对应的jar包路径,填写UDF的全类路径,填写使用格式和描述:
7070![ ide14] ( ../images/ch4/ide14.png )
71- Spark专用--scala脚本:需要勾选Spark,并选择对应的scala脚本,填写注册格式(填写相应脚本中的函数名):
71+ Spark专用--scala脚本:需要勾选Spark,并选择对应的scala脚本,填写注册格式(填写相应脚本中的函数名):
7272![ ide15] ( ../images/ch4/ide15.png )
73- Spark专用--Python脚本:需要勾选Spark,并选择对应的python脚本,填写注册格式(填写相应脚本中的函数名):
73+ Spark专用--Python脚本:需要勾选Spark,并选择对应的python脚本,填写注册格式(填写相应脚本中的函数名):
7474![ ide16] ( ../images/ch4/ide16.png )
7575
7676#### 4.3Scala和Python函数写法:
@@ -96,38 +96,38 @@ def helloWorld(str: String): String = "hello, " + str
9696
9797## 6 脚本模块
9898
99- 脚本模块就是脚本编辑框包含的功能,主要有:
100- 1 . 脚本编辑:基础的关键字高亮功能,代码格式化,代码合并,自动补全,快捷健等功能。
101- 2 . 运行和停止:用户可以选择代码进行执行,也可以直接点击执行运行整个脚本。脚本运行起来后可以通过停止按钮进行停止。
102- 3 . 脚本编辑框有配置选项用于定义用户的自定义变量,该脚本内生效
99+ 脚本模块就是脚本编辑框包含的功能,主要有:
100+ 1 . 脚本编辑:基础的关键字高亮功能,代码格式化,代码合并,自动补全,快捷健等功能。
101+ 2 . 运行和停止:用户可以选择代码进行执行,也可以直接点击执行运行整个脚本。脚本运行起来后可以通过停止按钮进行停止。
102+ 3 . 脚本编辑框有配置选项用于定义用户的自定义变量,该脚本内生效
103103![ ide18] ( ../images/ch4/ide18.png )
104104
105105## 7 运行结果
106106
107- 运行结果包括以下功能:
108- 1 . 表格结果展示,点击表头可以进行排序,双击复制字段名等,功能会继续丰富,包括选择列展示,展示字段类型。只支持展示5000行
109- 2 . 可视化分析:点击可视化分析,可以通过VSBI对产生的结果集进行可视化展示(待开源)
107+ 运行结果包括以下功能:
108+ 1 . 表格结果展示,点击表头可以进行排序,双击复制字段名等,功能会继续丰富,包括选择列展示,展示字段类型。只支持展示5000行
109+ 2 . 可视化分析:点击可视化分析,可以通过VSBI对产生的结果集进行可视化展示(待开源)
110110![ ide21] ( ../images/ch4/ide21.png )
111- 3 . 下载:结果集支持直接下载到浏览器本地,支持CSV和excel,只支持下载5000行
112- 4 . 导出:结果集导出可以支持导出到工作空间(BDAP的共享目录),结果集导出也支持CSV和Excel格式,并且通过打开全量导出,可以超过5000行的限制。全量导出开关,在执行的sql前面加上注释:` --set wds.linkis.engine.no.limit.allow=true `
113- 5 . 导出的CSV和Excel格式通过在管理台--设置--pipeline--导入导出设置--结果集导出类型:excel或者CSV
111+ 3 . 下载:结果集支持直接下载到浏览器本地,支持CSV和excel,只支持下载5000行
112+ 4 . 导出:结果集导出可以支持导出到工作空间(BDAP的共享目录),结果集导出也支持CSV和Excel格式,并且通过打开全量导出,可以超过5000行的限制。全量导出开关,在执行的sql前面加上注释:` --set wds.linkis.engine.no.limit.allow=true `
113+ 5 . 导出的CSV和Excel格式通过在管理台--设置--pipeline--导入导出设置--结果集导出类型:excel或者CSV
114114![ ide22] ( ../images/ch4/ide22.png )
115115
116116## 8 脚本历史
117117
118- 脚本历史展示了该脚本文件的历史运行信息,可以快速找到之前运行的脚本的日志,结果。可以有效减少多次运行相同的脚本:
118+ 脚本历史展示了该脚本文件的历史运行信息,可以快速找到之前运行的脚本的日志,结果。可以有效减少多次运行相同的脚本:
119119![ ide23] ( ../images/ch4/ide23.png )
120120
121121## 9 管理台
122122
123- 管理台主要包含一下功能:
124- 1 . 设置:包含通用设置(如设置队列),数据开发相关引擎的设置:spark,hive,python,pipeline等
123+ 管理台主要包含一下功能:
124+ 1 . 设置:包含通用设置(如设置队列),数据开发相关引擎的设置:spark,hive,python,pipeline等
125125![ ide25] ( ../images/ch4/ide25.png )
126- 2 . 全局变量:全局变量是可以用于所有脚本的自定义变量,如果变量重名则脚本中配置的生效。
126+ 2 . 全局变量:全局变量是可以用于所有脚本的自定义变量,如果变量重名则脚本中配置的生效。
1271273 . 其他功能:全局历史,资源管理器,常见问题
128128
129129## 10 右下角弹出框
130130
131- 右下角弹出框点击后是类似于Windows的任务管理器类似的功能,用户可以快速的对任务管,引擎,队列资源进行查看和管理:
131+ 右下角弹出框点击后是类似于Windows的任务管理器类似的功能,用户可以快速的对任务管,引擎,队列资源进行查看和管理:
132132![ ide24] ( ../images/ch4/ide24.png )
133133
0 commit comments