doris 关于实时数仓数据同步问题
yhpqaz 发布于2021-06 浏览:1946 回复:2
1
收藏

doris是我使用的数据的数据库中,真的是很优秀的数据库,对比使用的greenplum, clickhouse  在各方面都很优秀,特别是查询方面性能优异, 而且生态支持多,es spark mysql 各种引擎我觉得对未来发展具备重要潜力, 但是关于是否适合做实时数仓的问题有还是有几点疑问:

实时数仓最大的问题就是实时入库的问题:

1、insert  select  和  borker  我觉得都是针对离线的方案

2、routine load  + kafka  +(canal,maxwell)   这种方案虽然可以做到微批的方案,但是是一个任务持有一份完整的复制,这对性能影响也很大,一般的公司方也不可能对上万张表建立上万个topic, 所以认为这不是一个好的方案

3、我个人觉得最大的问题,是compacation  : 若实时入库的任务多了, 系统太占资源,如果超多系统资源比较多的时候,不管设置什么参数,整个compacation  都没有用,系统一启动,直接将内存使用完,   导致系统瘫痪, 而且没有其他办法修复

4、flink 是通过stream load  的方式  我个人觉得也不是很适合,也需要做微批提交, 任务多了也会有compaction问题

基于以上实际使用的情况:  我自己认为不适合做实时数仓

所以想请问下,1、是否有比较完整的实时同步方案?  2、对于数据合并到资源达到瓶颈,是否可以通过参数控制呢?   3、关于数据合并是否有后续的优化计划呢?

收藏
点赞
1
个赞
共2条回复 最后由qiliyazhe回复于2021-06
#3qiliyazhe回复于2021-06

wx 公众号

0
#2qiliyazhe回复于2021-06

实时导入方案可以参考业界百度,小米,美团,快手等的实践分享,ApacheDoris 搜索历史消息即可。
关于 compaction 问题,可以参考一下最近 ApacheDoris 的 Doris最佳实践 compaction 调优系列文章,里面有原理解析,详细的参数介绍和调优实践。
后续的计划可以参考 ApacheDoris 发布的 RoadMap 2021.
如果有好的想法欢迎提出,一起共商大事哇~

0
快速回复
TOP
切换版块