6.29线下开发者沙龙分享--Doris主创团队

首页版块访问AI主站注册发帖

三寸九州发布于2021-04 浏览:3851 回复:0

快速回复

6月29日，Doris有幸得到中国信通院云大所、大数据技术标准推进委员会的支持，在中国信通院举行了0.11.0新版本预览线下沙龙。各位嘉宾都带来了干货满满的分享。关注Doris官方公众号，后台回复“0629”即可获取各位嘉宾分享PPT及现场录像。

今天是李超勇同学代表Doirs主创团队带来的关于Apache Doris (incubating) 0.11.0 版本的功能预览。

本次Doris带来了如下更新：

存储引擎的重构与优化

打通Spark和Doris

SQL支持Grouping Sets语法

支持读取Parquet文件格式

新增空间几何函数

下面将为大家具体进行介绍。

存储引擎的重构与优化

Doris存储引擎历经几代人的修改演进，功能丰富的同时，也积攒了不少历史沉疴，代码结构臃肿、晦涩，逻辑层次不清，维护工程十分浩大。鉴于此目的，Doris在0.11中对存储引擎进行了大规模重构，重新组织了各个功能模块，以及各个对外交互的接口。新的引擎将为后续存储计算分离，以及相关引擎优化打下良好的基础。

存储引擎重构重构的背景可以简单描述如下：

命名混乱，言不达意。例如大面积地出现table，tablet混用的情况，令人疑惑。

代码封装层次混乱，相互之间大量耦合，不易于阅读与维护。

锁缺乏统一的调度管理机制，难以有效避免死锁、锁泄漏等情况的发生。

本次重构目标是Apache Doris的单机存储引擎，单机存储引擎的主要任务有：

维护所有的tablet信息，包括tablet的状态，数据等。

调度和tablet相关的操作，包括create table/load/compaction/clone/schemachange等操作，以及操作之间的相互并发。

处理和tablet相关的异常，包括操作本身的异常，以及文件系统异常。

汇报引擎的状态信息给FE，保持和FE之间的心跳连接。

为完成上述任务，本轮重构重新组织划分了存储引擎各个模块，如上图所示。

最上层打算提供统一的Service层作为单机引擎的入口，调度执行各类操作。

中间是存储引擎内部数据与状态的管理。包括tablet管理，rowset管理，事务管理等。

最下层是文件系统适配层及元数据系统层。目前Doris只支持posix文件接口，后续上云可以扩展其他文件接口。

贯穿的错误处理机制。存储引擎总是面临着各类错误，包括I/O Error, File System Error等，不论在哪个层次之中发生错误，皆需要进行错误处理。为统一所有的错误处理逻辑，Doris提供统一的错误队列，贯穿各个层次，接收错误信息，触发错误处理机制。

对于存储引擎而言，最重要的操作就是读和写，compaction/clone/schemachange都架构在读写流程之上，看懂读写也就看懂了存储引擎。这里着重介绍重构之后的读取逻辑，写基本可以认为是读的对称映像。

Doris 0.11启用Iterator机制抽象从Column，到Segment，到Rowset的读取。在Rowset模块之上再根据读取的不同需求，提供Merge/Union Iterator。通过这样的层次，十分清晰地描绘了整个读取逻辑, 能以更加高效简单的方式读取不同版本的数据。

打通Spark和Doris

打通Apache Spark和Doris主要原因是为了统一数据分析和数据仓库，简化整个数据流向，尤其是简化云上各个产品之间的数据流向。Doris 0.11目前只支持Spark读取Doris的数据，后续会实现Spark直接离线生成Doris的存储文件，将读写都与Spark打通。

具体架构如上图。

左边是Spark的架构，右边是Doris的架构，箭头代表数据的流向。首先Spark会从Doris的FE里获取元数据、表的schema信息及表的位置。其次会调取be节点拉取数据，之后即可应用Spark进行大规模离线计算。

SQL支持Grouping Sets语法

Grouping Sets属于Group By的扩展，扩展了Group By的分组集合的能力。

经常对数据进行聚合分析的用户，可能面临着如下的场景，既需要对A列做聚合，也要对B列做聚合，同时要按照A，B两列一起做聚合。

没有Grouping Sets之前，业务方需要在单个SQL中写三个UNION ALL语句才能完成此项功能，而使用Grouping Sets则可以非常快速方便地解决此类问题。Grouping Sets之上，Doris 0.11也同步支持了CUBE，ROLLUP等Grouping Sets的语句扩展，更好地满足业务方进行各类聚合分析的需求。

支持读取Parquet文件格式

Apache Parquet是Hadoop生态之中被广泛应用的列式存储格式，具有读写性能优异、压缩比高等特点。Doris数据导入之前只支持CSV的文本格式，对于HDFS上的Parquet文件加载，需要强制用户先转成文本格式，费时费力。

在搜狐同学的贡献之下，Doris0.11版本之中，集成了Parquet的读取逻辑，用以读取Parquet文件。Parquet读取功能的整体架构如图。通过在Doris Broker中引入Apache Arrow，通过Arrow读取Parquet文件，然后在加载入Doris之中。

新增空间几何函数

物联网场景中，除了需要查看全局的指标统计结果外，还需要能够对区域网格(主要是圆形区域和多边形区域)进行统计，也需要对具体坐标点附近数据进行探索的能力。如此这般，才能从空间维度上实现从整体，到任意局部，到任意个体的展示效果。Doris 0.11中新增空间几何函数，对经纬度所形成的区域网格进行处理。

例如图上这个例子，想要去查询距离某个点最近的5个poi id，即是这类型的查询需求。

此次沙龙我们有幸邀请到了来自一点资讯、京东、搜狐、百度智能云的技术大牛带来他们的应用实践和开发分享。

其他嘉宾的分享会在近日放出，欢迎关注Apache Doris (incubating)官方公众号，后台回复“0629”即可获取各位嘉宾分享PPT及现场录像。

欢迎扫码关注：

Apache Doris(incubating)官方公众号